Communications Mining 用户指南

覆盖

覆盖是机器学习 (ML) 中经常使用的术语，表示模型覆盖其用于分析的数据的程度。在 Communications Mining™ 中，这与数据集中具有信息丰富的标签预测的消息所占的比例相关，并在“验证”页面中以百分比分数显示。

信息丰富的标签是平台通过查看与其他标签一起分配的频率来了解为有用的独立标签的标签。计算分数时，对于始终分配其他标签的标签，系统会降低其权重。例如，从未单独分配的父标签或“紧急”标签（如果始终与其他标签一起分配）。

以下图表显示了整个数据集的低覆盖率与高覆盖率的情况。假设阴影圆圈是包含丰富信息的标签预测的消息：

作为一个指标，覆盖率是一种非常有用的方法，可以了解您是否已捕获数据集中的所有不同的潜在概念，以及是否已为它们提供了足够多样化的训练示例，以便平台进行有效的预测。

几乎在所有情况下，模型的覆盖率越高，其性能就越好，但在检查模型性能时，不应孤立地考虑这一点。

同样非常重要的是，分类中的标签保持良好状态，这意味着它们具有较高的平均精度，并且没有其他性能警告，并且训练数据是整个数据集的平衡表示。

如果标签状况不佳或训练数据并不能代表数据集，则平台计算的模型覆盖率将不可靠。

如果您使用模型来驱动自动化流程，则具有高覆盖率的模型尤为重要。

有关模型覆盖率以及如何检查模型覆盖率的更多详细信息，请参阅了解并提高模型性能。

前一个概念偏移

下一个数据集