
Communications Mining 用户指南
覆盖是机器学习中经常使用的一个术语,表示模型“覆盖”用于分析的数据的程度。在平台中,这与数据集中包含信息丰富的标签预测的消息所占的比例有关,并在“验证”中以百分比分数显示。
信息丰富的标签是平台通过查看与其他标签一起分配的频率,认为是有用的独立标签的标签。始终分配有另一个标签的标签,例如计算分数时,会降低从未单独分配的父标签或始终与其他标签一起分配的“紧急”父标签的权重。
以下图表显示了整个数据集的低覆盖率与高覆盖率的对比情况。假设阴影圆圈是包含丰富标签预测的消息。
作为一个指标,覆盖率是了解您是否已捕获数据集中所有不同的潜在概念,以及是否已为它们提供足够多样化的训练示例以便平台对其进行有效预测的一种非常有用的方法。
几乎在所有情况下,模型的覆盖率越高,其性能就越好,但在检查模型性能时,不应孤立地考虑它。
确保分类中的标签运行状况良好,这意味着它们具有较高的平均精度,并且没有其他性能警告,并且训练数据是整个数据集的平衡表示。
如果标签状况不佳或训练数据并不能代表数据集,则平台计算的模型覆盖率将不可靠。
如果您使用模型来驱动自动化流程,则具有高覆盖率的模型尤为重要。
考虑覆盖范围在用例中的应用方式,例如自动路由企业中共享电子邮件收件箱收到的不同请求。
对于旨在帮助自动路由不同请求的模型,低覆盖率意味着大量请求未正确路由,或者由于模型无法识别而被发送以进行手动审核。
如果邮箱中的工作团队管理 10 个关键流程,但分类仅有效捕获了其中 7 个,则可能会导致覆盖分数较低。或者,模型可能会像其他流程一样错误地预测剩余流程,因为它没有了解剩余流程的实际情况。这将导致覆盖分数虚高。
在自动化过程中,剩余的三个流程可能会被遗漏,而可能会被发送以进行手动审核,或被错误地分类为其他流程并路由到错误的位置。
同样重要的一点是,对于每个流程,都有足够多的训练示例来捕获讨论流程时使用的各种表达方式。否则,每个标签的召回率都会较低,模型的覆盖率也会较低。
下面的图表演示了此示例在实践中的外观: 我们有多个客户端,通过电子邮件发送多种请求类型。每个客户端可能以不同的方式编写相同的请求类型:
显示三种不同的模型场景,每种场景对覆盖率都有不同的潜在影响:
并非所有请求类型,即分类涵盖的概念 - 覆盖率可能较低 | |
涵盖所有请求类型,但有些标签运行状况不佳,并且可能没有足够的示例 – 覆盖率可能较低,并且可能不可靠 | |
涵盖的所有请求类型和标签都运行正常 – 高覆盖率可能是可靠的 |
在“验证”中, “模型评分”功能提供了在最重要的影响因素中模型性能的详细细分,包括覆盖率。
系统会为用户提供预计具有信息丰富的标签预测的消息比例的百分比分数,这些分数进而与评分以及对整体模型评分的贡献相关联。
平台还提供了至少具有一个预测标签的消息所占比例,但这并不是决定此因素分数和评分的因素。
在以下示例中,我们可以注意到:
- 此模型的覆盖率为 85.2%。
- 换言之,该因素的评估评分为“良好”。
- 这也转化为对 +3 的整体模型评分的正向贡献。
务必记住,覆盖率作为一种性能衡量指标,应始终与分类中标签的运行状况和数据集的平衡性联系起来。在您认为平台提供的覆盖分数可靠之前,您还应确保影响模型评分的其他因素至少具有“良好”级别。
您的覆盖范围至少应该足够高,以便平台提供“良好”评分。如果达到此阶段,您的模型性能良好,您可以根据用例的要求选择进一步优化。
就像人类一样,机器学习模型也有其局限性,因此您不应期望实现 100% 的覆盖率。您可能会接近此值,但前提是您的数据非常简单和重复,或者您标注的数据集的很大一部分比例很高。
取决于数据,达到优秀评级可能具有挑战性;而且,根据用例,并不总是必要。
对于专注于自动化的用例,拥有高覆盖率尤为重要,因此在这些情况下,您可能需要尽可能地优化覆盖率并获得“非常好”评分。
对于专注于分析的用例,拥有非常高的覆盖率并不是那么重要。模型能够识别最频繁出现的概念通常就足够了,因为这些概念为变革和改进提供了最重要的见解以及潜在的机会。
值得注意的是,以分析为中心的模型通常会牺牲一些准确性,以便在其分类中广泛捕获非常广泛的概念。
与其他影响因素一样,平台提供了实用的推荐“次最佳操作”,用户可以采取这些操作来提高模型的覆盖率。有关更多详细信息,请参阅本节和上一节中的映像。
建议操作可充当链接,可直接将您带到建议的训练模式。
对于覆盖率,平台通常会建议在“低置信度”模式下进行训练,因为此模式允许用户标注数据集中所有消息中覆盖率最低的消息。有关更多详细信息,请查看使用低置信度进行训练。
在建议的训练模式下完成合理量的训练(训练量将取决于覆盖率的初始水平)后,用户可以重新训练模型并更新验证,以查看改进情况。如果需要,他们可以重复此过程,以继续提高分数。
当覆盖率非常低时(通常在训练过程的早期),平台还可能会推荐其认为有用的其他训练模式,例如在“发现”中注释相似消息的集群,如以下示例所示。
在评估模型的覆盖率时,该平台能够智能地识别分类中哪些标签是“信息丰富”的,并在“模型评级”中予以呈现。
但是,如果您想评估分类中一组特定标签的预测可能涵盖的数据集比例,可以在“报告”页面中执行。
为此,您可以在“报告”的标签筛选器栏中选择所有相关标签(如下所示)。
报告中页面顶部的消息计数根据应用的筛选器更新。从标签筛选器中选择标签时,计数会更新,以显示可能至少预测了一个选定标签的消息数。
在此示例电子邮件数据集仅与银行的追加保证金流程相关(包含 260,000 封电子邮件)中,您可以看到,260,000 封消息中可能有 237,551 封消息可能至少包含一个选定的预测标签。表明覆盖率良好,约为 91.4%。
这不应该是用于测试模型整体覆盖率的唯一检查。模型评分中提供了整个数据集最可靠的覆盖率衡量指标,并应与分类中标签的整体性能一起考虑。