
Communications Mining 用户指南
在验证中,平台会评估与数据集关联的标签和常规字段模型的性能。
具体来说,对于标签模型,它会通过测试许多不同的性能因素来计算模型的整体评分,包括:
- 它使用该数据集中的训练数据子集预测分类中每个标签的能力。
- 信息丰富的标签预测对整个数据集的覆盖程度。
- 训练数据的平衡程度(即数据的分配方式及其在多大程度上代表整个数据集)。
- 训练数据集的大多数。
- 少数测试数据集。
在下图中,彩色点表示数据集中已批注的消息。此拆分由将消息添加到数据集时的消息 ID 确定,并在数据集的整个生命周期中保持一致。
然后,平台仅使用该训练集作为训练数据来训练自身。
然后,该系统会基于此训练尝试预测应将哪些标签应用于测试集中的消息,并根据人类用户应用的实际标签评估精度和召回率结果。
除此之外,平台还会考虑标签的分配方式,即在应用标签时使用的训练模式,以了解是否以有偏差或平衡的方式添加了批注。
然后,验证过程会发布有关最新模型版本标签性能的实时统计信息,但您也可以查看先前固定的模型版本的历史性能统计信息。
为了解模型覆盖数据的效果,平台会查看数据集中的所有未审核数据,以及平台对每条未审核消息做出的预测。
然后,它会评估总消息中至少预测有一个信息标签的比例。
信息丰富的标签是平台通过查看与其他标签一起分配的频率认为独立后有用的标签。始终分配有另一个标签的标签。例如,计算分数时,从未单独分配的父标签或始终与其他标签一起分配的“紧急”标签的权重会降低。
当平台评估模型的平衡能力时,它本质上是在寻找可能导致训练数据和整个数据集之间不平衡的批注偏差。
为此,它使用批注偏差模型来比较已审核的数据和未审核的数据,以确保已批注的数据能够代表整个数据集。如果数据不具有代表性,则模型性能衡量指标可能会具有误导性,并且可能不可靠。
批注偏差通常是用于分配标签的训练模式不平衡的结果,尤其是在使用过多“文本搜索”且“随机播放”不足的情况下。
“重新平衡”训练模式会显示已审核集中代表性不足的消息。在此模式下批注示例将有助于快速解决数据集中的任何不平衡问题。