
Communications Mining 用户指南
该平台通常用于自动化流程的最初步骤之一:提取、解释和结构化入站通信,例如客户电子邮件,就像电子邮件到达收件箱时人工所做的那样。
当平台预测适用于通信的标签或标签时,它会为每个预测分配一个置信度分数 (%),以显示标签应用的置信度。
但是,如果要使用这些预测对通信自动进行分类,则需要有一个二元决策,即此标签是否适用。此时就需要设置置信度阈值。
置信度阈值是指一个置信度分数 (%),达到或高于该分数时,RPA 机器人或其他自动化服务会将平台的预测作为二进制文件接收时,此标签不适用。
Make sure you understand confidence thresholds and how to select the appropriate one, in order to achieve the right balance of precision and recall for that label.
- 要为标签选择阈值,请按照以下步骤操作:
- 导航到“验证”页面,然后从标签筛选器栏中选择标签。
- 拖动阈值滑块,或在框中输入百分比数字(如下图所示),以查看该阈值将达到的不同精度和召回率的统计信息
- 精度与召回率图表为您提供了可实现最高精度或召回率,或者在两者之间提供平衡的置信度阈值的可视化:
- 在图 1 中,选择的置信度阈值 (68.7%) 将最大限度地提高精度 (100%),也就是说,平台在此阈值下通常不会做出错误的预测,但召回值会因此降低 (85%)。
- 在图 2 中,所选的置信度阈值 (39.8%) 在精度和召回率(均为 92%)之间实现了良好的平衡。
- 在图 3 中,选择的置信度阈值 (17%) 将最大化召回率 (100%),也就是说,平台应识别应应用此标签的每个实例,但因此会降低精度值 (84%)。
根据您的用例和相关特定标签,您可能需要最大化精度或召回率,或者找到实现两者最佳平衡的阈值。
在考虑需要哪个阈值时,请考虑潜在的结果,例如,如果错误应用或遗漏标签,会给您的企业带来哪些潜在成本或后果。
For each label your threshold should be chosen based on the better outcome for the business if something goes wrong - i.e. something is incorrectly classified (a false positive), or something is missed (a false negative).
例如,如果您希望将入站通信自动分类为不同类别,但也有一个用于将请求路由到高优先级工作队列的“紧急”标签,则可能希望最大限度地提高此标签的召回率,以确保不会有紧急请求被缺少,并接受较低精度的结果。这是因为将一些不太紧急的请求放入优先级队列中可能对业务不会造成很大损失,但如果错过了时间敏感的紧急请求,则可能对业务非常不利。
再举一个例子,如果您要以端到端的方式自动化某种形式的货币交易或高价值请求,您可能会选择一个可最大化精度的阈值,以便仅自动化端到端结束平台最有把握的事务。 然后,系统将手动审核置信度低于阈值的预测。 这是因为如果事务处理不正确,则错误预测(误报)的成本可能非常高。