
Communications Mining 用户指南
分类的结构(包括其中每个标签捕获的内容)是决定模型性能及其与业务目标实现程度的至关重要因素之一。
因此,在训练模型之前考虑目标分类结构非常重要。话虽如此,随着您在培训中的进展,您应该拥有一定程度的灵活性,可以根据需要灵活调整、扩展和增强本模型。这就是我们所说的以数据为主导的训练方法。
最终,分类中的标签以及为每个标签提供的训练示例应创建整个数据集准确且平衡的表示。但是,每个标签也应该是有价值的,能够以某种方式清楚地表示它预测的消息。
如果使用标签来捕获非常广泛、模糊或混淆的概念,则它们不仅很可能表现不佳,而且不太可能提供业务价值。 这可以提供有关该概念的有用见解,或帮助在下游实现流程的完全或部分自动化。
一家公司的不同收件箱每年会收到数百万封来自客户的电子邮件,其中涉及大量问题、查询、建议和投诉等。
该公司决定通过自动将客户的这些电子邮件转换为工作流工单,以提高运营效率、实现流程标准化以及业务动态的可见性。 然后,可以使用指定的流程在设定的时间表内跟踪这些事件并采取相应措施。
为此,他们决定使用该平台来解释这些入站非结构化通信,并提供有关与电子邮件相关的流程和子流程的分类。 此分类用于更新将使用自动化服务自动创建的工作流工单,并确保将其路由到正确的团队或个人。
为确保此用例尽可能成功,并将异常(错误分类或平台无法准确分类的电子邮件)的数量降到最低,每封入站电子邮件都应收到一个可信预测,该预测具有父标签和子标签,即 [流程 X] > [子流程 Y]。
在此用例中,任何电子邮件如果父标签和子标签都不具有置信度预测,则可能会出现异常,将其发送以供手动审核并创建票证。 或者,如果它具有高置信度父标签预测,但没有置信度子标签预测,则仍可使用此预测来部分路由电子邮件或创建工单,并进行一些额外的手动工作来添加相关子流程。
如果我们假设前者为 true,并且每封没有以 [流程] > [子流程] 形式出现的高置信度预测的电子邮件都将成为手动异常,则当训练反映此格式的模型。
分类中的每个父标签都应与与电子邮件中的内容相关的主要流程相关,例如开具发票。每个子标签都应该是位于父标签下的更具体的子流程,例如,发票> 状态请求。
如果使用非常广泛的标签(例如“一般查询”或“其他”)将大量不同的不同主题分组,并且固定的示例之间没有明确的模式或共性,则标签的作用可能非常有限。
在此用例中,当创建工作流工单并将其分类为“一般查询”或“其他”时,它们也不会提供太多的业务价值。有人仍需要仔细阅读报告,以了解报告的内容以及是否与团队相关,然后才能采取行动。
这消除了任何节省时间的优势,并且不会为企业提供有用的 MI,了解团队实际正在完成的工作。