
Communications Mining 用户指南
- 常规模型训练
- 标签训练
训练模型的目标是什么?
训练模型的目的是创建一组尽可能具有整体数据集代表性的训练数据,以便平台可以准确且有把握地预测每条消息的相关标签和常规字段。 数据集中的标签和常规字段应与用例的整体目标有内在联系,并提供重要的业务价值。
如果我刚刚将数据上传到平台,为什么在“发现” 中看不到任何内容?
数据上传到平台后,平台会立即开始一个称为“无监督学习”的流程,通过该流程将消息分组到具有相似语义意图的集群中。此过程最多可能需要几个小时,具体取决于数据集的大小,完成后系统将显示集群。
训练模型需要多少历史数据?
为了能够训练模型,您需要最少量的现有历史数据。 这可用作训练数据,以便为平台提供必要的信息,以便有把握地预测用于分析和/或自动化的每个相关概念。
对于任何用例,我们的建议是至少使用 12 个月的历史数据,以便正确捕获数据中的任何季节或不规则性,例如月末流程和繁忙季节。
每次进行更改时都需要保存模型吗?
否,您不需要在进行任何更改后保存模型。每次使用数据训练平台时,即批注任何消息时,都会为数据集创建新的模型版本。可以在“验证”页面中查看较旧模型版本的性能统计信息。
如何知道模型的性能如何?
请查看平台中的“验证”页面,该页面会报告各种性能指标,并提供整体模型的运行状况评分。此页面会在每次训练后更新,可用于识别模型可能需要更多训练示例或更正一些标签的领域,以确保一致性。
有关模型性能及其提高方法的完整说明,请查看“验证” 。
为什么只有 30 个可用集群?我们可以单独设置它们吗?
集群是帮助您快速构建分类的实用方法,但用户会将大部分时间花费在“探索”页面而非“发现”页面上进行训练。
如果用户花费过多时间通过集群进行批注,则在进行预测时,模型可能会过度拟合以仅查找适合这些集群的消息。 每个标签的示例越多样化,模型就越能更好地找到表达同一意图或概念的不同方式。 这就是我们一次只显示 30 个集群的主要原因之一。
但是,一旦完成了足够的训练或已将大量数据添加到平台后, “发现”就会重新训练。在重新训练时,它会考虑迄今为止的现有训练,并将尝试提供当前分类未完全涵盖的新集群。
有关更多详细信息,请查看发现。
每个集群中有多少条消息?
总共 30 个集群,每个集群包含 12 条消息。 在平台中,您可以以每页 6 到 12 之间的增量筛选页面上显示的消息数量。 我们的建议是一次注释 6 个消息,以确保降低对任何消息进行部分注释的风险。
是否可以返回到模型的较早版本?
您可以将鼠标悬停在“验证” 页面中的“模型版本” 上,查看早期模型的验证概述。这有助于在训练模型时跟踪和比较进度。
如果您需要将模型回滚到之前已固定的版本,请查看模型回滚以了解更多详细信息。
标签或常规字段旁边的红色拨号盘表示什么? 如何摆脱它?
每个标签/常规字段旁边的红色小刻度盘表示平台是否需要更多示例,以准确估计标签/常规字段的性能。 随着您提供的训练示例数量增加,转盘开始消失。示例数量达到 25 后,转盘将完全消失。
之后,平台将能够有效评估给定标签/通用字段的性能,并且如果标签或通用字段不佳,则可能返回性能警告。
我是否应该避免批注空消息或无关紧要的消息?
只要消息注释正确,平台就能够从空消息和无信息的消息中学习。 但是,值得注意的是,非信息性标签可能需要大量训练示例,并且需要按概念进行松散分组,以确保获得最佳性能。