ixp
latest
false

Communications Mining 用户指南
上次更新日期 2025年8月11日
注意:您必须以 Automation Cloud 用户身份分配“来源 - 读取和数据集 - 审核”权限,或者作为旧版用户分配“查看源”和“审核并批注”权限。
“探索”的最后一个关键步骤是使用低置信度模式进行训练,该步骤会显示信息丰富的标签预测未充分涵盖的消息。对于平台认为内容丰富的标签,这些消息或者没有预测,或者是置信度非常低的预测。
信息丰富的标签是平台通过查看与其他标签一起分配的频率来了解为有用的独立标签的标签。
这对于提高模型的整体覆盖率非常重要。如果您看到应具有为其预测的现有标签的消息,则表示您需要为这些标签完成更多训练。如果您发现当前没有适用的标签的相关消息,可能需要创建新标签来捕获这些消息。
要访问“低置信度”模式,请使用“探索”页面中的下拉菜单,如下图所示:
“低置信度”模式将一次显示 20 条消息,您应在此模式下完成合理的训练量,浏览多个消息页面并应用正确的标签,以帮助提高模型的覆盖率。有关覆盖率的详细说明,请查看何时停止训练模型。
您需要在低置信度下完成的训练总量取决于几个不同的因素:
- 您在“随机播放”和“指导”中完成了多少训练。您在“随机播放”和“学习”中执行的训练越多,训练集在整体上就越具有代表性,而处于“低置信度”状态的相关消息就越少。
- 数据集的用途。如果数据集用于自动化并且需要非常高的覆盖率,则应在“低置信度”下完成较大比例的训练,以识别每个标签的各种边缘用例。
在此模式下,您的目标应该是至少注释 5 页的消息。稍后在“优化”阶段检查覆盖率时,您可能会发现需要在“低置信度”下完成更多训练,以进一步提高覆盖率。