
Communications Mining 用户指南
维护生产中的模型
link模型维护的重要性
link创建要部署到生产环境中的合适模型需要时间投资,而持续分析的价值以及通过自动化实现的效率节省可以很快回收这些时间投资。
如果随着时间的推移不能有效地维护模型,则其带来的好处可能会逐渐减少,因为如果不进行定期的补充训练,模型性能可能会下降。
这是由于“概念偏移”(概念偏移)造成的,在这种情况下,模型尝试预测的概念会随着时间的推移以不可预见的方式发生变化,从而使预测的准确性越来越低。
本质上,这涉及到企业会随时间发生的变化,以及企业的内部沟通以及企业与其他企业以及客户的沟通方式。如果模型的训练数据不再能代表您目前的企业运营方式,则在尝试识别通信数据中的概念时,模型会表现更差。
维护生产中的模型
link维护生产模型是一个简单且省力的过程。在部署模型之前,我们已经投入了所需的大部分工作,以创建训练数据。
有两种主要方法可以用于维护模型,这两种方法都可以确保为您的模型提供其他有用且具有代表性的训练示例:
- 异常训练
- 使用重新平衡模式
1. 异常训练
任何用于自动化目的的模型都应设置异常流程,用于识别哪些消息是平台无法可靠或正确识别的异常。有关更多详细信息,请查看实时自动化。
这一点很重要,因为它本质上允许您快速查找和注释平台难以处理的消息,从而提高模型预测未来类似消息的能力。
将设置自动化流程,以使用将其标识为异常的用户属性自动标记消息。然后,您可以在“探索”中筛选这些消息并使用正确的标签进行标注,以确保平台将来能够准确无误地识别类似的消息。
这应该成为常规流程的一部分,旨在持续改进模型。 捕获和注释的异常越多,随着时间的推移,模型的性能就越好,从而最大限度地减少未来异常的数量,并最大程度地提高以自动化为中心的模型所实现的效率节省。
2. 使用平衡与重新平衡模式
理论上,如果一段时间内添加到数据集的最新数据与用于训练模型的旧数据显着不同,则导致决定模型“平衡”评分的相似度分数下降。
在进行异常训练时,检查模型的相似度分数是否下降非常重要。如果是这样,则应解决此问题,因为这可能表明存在概念偏移,意味着生产中的性能最终会下降。
纠正相似度分数下降的最简单方法是使用“重新平衡”模式完成一些训练。
为确保训练代表今天收到的通信类型的最新数据,您还可以在“再平衡”中训练时添加一个时间戳筛选条件,添加到过去 3 或 6 个月。这可确保您的模型不仅仅是依赖旧的训练数据,并且可能无法反映业务中的任何变化。