Communications Mining 用户指南

上次更新日期 2025年11月10日

了解并增加覆盖率

注意：您必须以 Automation Cloud 用户身份分配“来源 - 读取和数据集 - 审核”权限，或者作为旧版用户分配“查看源”和“审核并批注”权限。

覆盖是机器学习中经常使用的一个术语，表示模型“覆盖”用于分析的数据的程度。在平台中，这与数据集中包含信息丰富的标签预测的消息所占的比例有关，并在“验证”中以百分比分数显示。

信息丰富的标签是平台通过查看与其他标签一起分配的频率，认为是有用的独立标签的标签。始终分配有另一个标签的标签，例如计算分数时，会降低从未单独分配的父标签或始终与其他标签一起分配的“紧急”父标签的权重。

以下图表显示了整个数据集的低覆盖率与高覆盖率的对比情况。假设阴影圆圈是包含丰富标签预测的消息。

作为一个指标，覆盖率是了解您是否已捕获数据集中所有不同的潜在概念，以及是否已为它们提供足够多样化的训练示例以便平台对其进行有效预测的一种非常有用的方法。

几乎在所有情况下，模型的覆盖率越高，其性能就越好，但在检查模型性能时，不应孤立地考虑它。

备注：

确保分类中的标签运行状况良好，这意味着它们具有较高的平均精度，并且没有其他性能警告，并且训练数据是整个数据集的平衡表示。

如果标签状况不佳或训练数据并不能代表数据集，则平台计算的模型覆盖率将不可靠。

如果您使用模型来驱动自动化流程，则具有高覆盖率的模型尤为重要。

考虑覆盖范围在用例中的应用方式，例如自动路由企业中共享电子邮件收件箱收到的不同请求。

对于旨在帮助自动路由不同请求的模型，低覆盖率意味着大量请求未正确路由，或者由于模型无法识别而被发送以进行手动审核。

如果邮箱中的工作团队管理 10 个关键流程，但分类仅有效捕获了其中 7 个，则可能会导致覆盖分数较低。或者，模型可能会像其他流程一样错误地预测剩余流程，因为它没有了解剩余流程的实际情况。这将导致覆盖分数虚高。

在自动化过程中，剩余的三个流程可能会被遗漏，而可能会被发送以进行手动审核，或被错误地分类为其他流程并路由到错误的位置。

同样重要的一点是，对于每个流程，都有足够多的训练示例来捕获讨论流程时使用的各种表达方式。否则，每个标签的召回率都会较低，模型的覆盖率也会较低。

下面的图表演示了此示例在实践中的外观: 我们有多个客户端，通过电子邮件发送多种请求类型。每个客户端可能以不同的方式编写相同的请求类型：

显示三种不同的模型场景，每种场景对覆盖率都有不同的潜在影响：

	并非所有请求类型，即分类涵盖的概念 - 覆盖率可能较低
	涵盖所有请求类型，但有些标签运行状况不佳，并且可能没有足够的示例 – 覆盖率可能较低，并且可能不可靠
	涵盖的所有请求类型和标签都运行正常 – 高覆盖率可能是可靠的