ixp

latest

false

Communications Mining 用户指南

上次更新日期 2025年11月10日

模型验证为何如此重要

Communications Mining™ 是一个对话式数据智能平台，使用户能够发现、衡量和自动化隐藏在通信渠道中的流程。

典型渠道包括电子邮件、工单、聊天和通话。这些领域中的对话既复杂又细致。因此，通用的机器学习模型表现不佳。相反，Communications Mining 允许任何人轻松创建自定义模型。无需技术知识。

这是一种非常强大的方法。模型可以学习复杂的模式，并像人类一样对未见过的数据进行预测。在某些自然语言任务上，机器学习模型的表现甚至超过了人类。

但和人类一样，机器学习模型也会犯错误。估计模型出错的频率对于机器学习的任何实际应用都至关重要。同样重要的是直观地呈现此内容，并突出显示改进模型的最佳操作。 Communications Mining 使用模型验证来完成所有这些任务。

如何验证模型

在模型构建期间，用户可以为其关心的主题创建标签，并使用适用的标签标记示例。然后，平台会训练机器学习模型，以预测这些示例的正确标签。

为了验证此模型，我们将其预测与人工注释进行比较，并查找错误。手动比较许多示例的预测很困难。相反，我们会计算一个验证分数，以总结模型的运行情况。要对经过训练的模型执行此操作，我们需要两个东西：注释和分数。

注释

要检查预测是否正确，我们需要知道每个示例的正确注释。换句话说，我们需要由用户注释的数据点。

我们已使用批注来训练模型，并且可以在验证期间重用这些批注。但是，就像人类参加测试一样，机器学习模型在以前遇到过的示例上会表现更好。

如果我们使用训练模型的数据对模型进行评分，则可能会高估模型质量。这会让人对模型的工作效果产生误导（称为“过拟合”）。因此，我们使用不同的数据点来训练和验证模型。

标准方法是将注释集随机分为两个不相等的部分

训练集。 用于训练模型的示例集。这通常所占比例较大，例如注释数据总量的 80％
测试集。 剩余的示例 (20%) 用于衡量模型性能。

提示：

在机器学习文献中，您可能已经注意到数据分为三个部分：训练、验证和测试。验证集用于调整模型，测试集与最终模型一起评估，以衡量性能。在 Communications Mining，我们对训练集使用k 折交叉验证来调整模型，并使用最终模型对测试集计算“验证”分数。这使其等同于 ML 文献中的测试性能。

由于测试集与训练集来源相同，因此测试集类似于训练集。当我们检查测试集的性能时，我们模拟模型查看新电子邮件，但我们可以与真实的标签进行比较，以了解模型的质量。

分数

要将模型性能汇总为数字，我们需要一个评分函数。此函数会比较模型预测和人工注释，并输出一个数字。

选择评分函数可能是一个困难的过程。该函数必须符合我们对良好模型的概念，我们需要考虑可能导致分数不准确的常见陷阱。

在 Communications Mining™，我们使用平均精度作为评分函数。这是跨多个标签和用例衡量模型性能的可靠方法。如果您有兴趣了解更多信息，请阅读我们有关指标的博客文章。

使用 Communications Mining™ 进行验证

有了这两个组件，验证就变得很简单。我们需要做的就是获取测试集的模型预测，然后使用我们的分数来衡量模型的性能。每次在 Communications Mining 中训练新模型时，验证流程都会在后台自动运行，并在“验证”页面上报告结果。

实际上，每次训练新模型时，我们都会在后台训练两个模型

验证模型。 我们会在训练集上对其进行训练，并在测试集上对其进行测试，以衡量性能。
生产模型。 系统会在所有带注释的示例（训练集和测试集）上对其进行训练，并用于对实时数据进行预测。此模型可能与验证模型不同，因为它接受了更多数据的训练，但这两个模型共享许多训练示例，因此任何差异都会很小。因此，验证模型性能可以很好地估计生产模型性能。

通过此方法，用于下游应用程序的模型已查看了尽可能多的数据。

验证模型在训练集上进行训练，并在测试集上进行测试，但生产模型则在所有带注释的数据上进行训练 docs image

为什么要关心验证

验证是开发有效的机器学习模型的重要组成部分，可以为用户带来许多好处。如果您不相信，以下是您应该关注的三个关键原因。

已知未知

验证会告诉您模型的性能如何，但它也会突出显示模型可能遇到困难的情况。出现这种情况的原因有很多，具体如下：从实时数据不断变化的趋势到用户和团队之间注释的不一致。模型验证应可解释，这一点很重要，这样您就可以在问题出现时发现问题并快速修复。

验证使您可以检查模型不确定的数据点。然后，您可以改进这方面的模型，或者在任何下游流程中增强稳健性。这意味着您可以确信模型将完全按照您的要求进行操作，不会出现令人不快的意外情况。

在验证页面上，用户可以检查模型并校准下游流程 docs image

无需经验

训练模型时会存在许多通常难以诊断的危险。幸运的是，我们的验证流程意味着您不必成为数据科学家即可构建出色的模型。

验证模型时，我们不会仅返回单个分数。相反，我们会计算模型评分。这包括模型验证分数以及其他因素，例如未审核数据中的模式和带注释的示例中的偏差。

模型评分提供有关绩效的详细反馈，以及有关如何改进的明确说明。用户可以专注于利用其领域知识来解决问题，而无需与开发团队或 AI 专家协作。 Communications Mining 将指导您完成模型开发的每个步骤。

模型评分提供详细的性能信息和用于改进模型的建议操作 docs image

更快的反馈，更好的模型

大多数机器学习模型很少更新，并在部署前验证一次。在 Communications Mining™，我们采取不同的方法。

我们不会在更新之间等待很长时间，而是会持续训练和验证新模型。这意味着模型始终适用于数据的当前状态，并且验证结果是最新的。

快速反馈可最大限度地减少模型迭代时间。任何性能下降都可以尽快修复，用户永远不会浪费时间处理过时的反馈。 Communications Mining 的敏捷验证流程使用户能够在更短的时间内构建高质量的模型。

摘要

验证用于对模型进行评分，并确保在未处理的数据上获得良好的性能。
根据未见过的数据对模型进行评分，以准确估计其性能并避免过度拟合。
我们使用模型评分来提供详细的反馈，因此您可以快速修复问题，并确信模型完全符合预期。

在此页面上

如何验证模型
使用 Communications Mining™ 进行验证
为什么要关心验证
摘要

此页面有帮助吗？

前一个一切尽在数字中 - 使用指标评估模型性能

下一个比较 Communications Mining™ 和 Google AutoML 以实现对话数据智能

获取您需要的帮助

了解 RPA - 自动化课程

UiPath Community 论坛