ixp
latest
false
UiPath logo, featuring letters U and I in white

Communications Mining 用户指南

上次更新日期 2025年8月11日

使用常规字段

在平台中设置和训练常规字段的指南。

定义和设置字段

定义关键数据点(即字段)的字段(即要从 Communications Mining™ 数据中提取的字段)。这些通常有助于下游自动化,但也有助于分析,尤其是在评估自动化机会的潜在成功率和收益时。

以下定义可帮助您了解通用字段与提取字段之间的区别:
  • 通用字段是您可能要提取的字段,可以在数据集中的多个不同主题/标签中找到这些字段。
  • 提取字段是根据特定标签创建的字段。 换句话说,它与您要自动化的特定标签绑定。
注意:如果生成式提取在您您所在的区域可用,建议您使用通用字段作为提取字段的备份,以防消息没有置信度标签预测。 使用链接到特定标签的提取字段以促进端到端自动化,并使用通用字段进行自动分类。

查看官方文档,了解有关生成提取常规字段与提取字段的更多信息。 如果生成式提取在您所在的区域不可用,请继续照常使用通用字段。 本节的其余部分提供有关如何使用通用字段的指南。

最终,通用字段预测与标签相结合,可以提供完成特定任务或流程所需的结构化数据点,从而促进自动化。 将数据集中的通用字段与标签一起训练比先训练一个标签再训练另一个标签更省时 (即在训练标签的完整分类后训练通用字段)。

注意:如果您想自动化地址更改请求,则使用标签来捕获请求类型,而通用字段将捕获地址的各个组成部分(即,地址行、城市、邮政编码等)。 每个预测都可通过 API 进行,从而使系统能够对每条消息执行操作。

了解常规字段

注意:如果生成式提取在您您所在的区域可用,建议您使用通用字段作为提取字段的备份,以防消息没有置信度标签预测。 使用链接到特定标签的提取字段以促进端到端自动化,并使用通用字段进行自动分类。

有关更多详细信息,请查看生成式提取通用字段和提取字段。如果生成式提取未在您所在区域可用,请照常继续使用通用字段。本节的其余部分提供有关如何使用通用字段的指导。

通用字段是结构化数据的附加元素,可以从数据集的消息中提取。通用字段包括货币数量、日期、货币代码、电子邮件地址、URL 以及许多其他行业特定类别等数据点。



只要启用这些字段,平台就可以预测大多数通用字段(从头开始训练的字段除外),因为它可以根据这些字段的典型格式(或在某些情况下非常特定)格式和一组类似通用字段的训练集来识别这些字段。

与标签类似,您可以接受或拒绝预测正确或错误的通用字段,从而增强模型将来识别这些字段的能力。

常规字段的类型

通用字段可以是以下类型:

  • 预训练通用字段,这些字段基于一组标准或自定义定义的规则,例如货币数量、URL 和日期。
  • 从头开始训练的通用字段,这些字段基于机器学习。您可以像训练标签一样训练这些字段。

可训练和不可训练通用字段

可训练的常规字段

所有通用字段:
  • 从头开始训练时,本质上是可训练的。
  • 启用后,可以将所有其他类型的通用字段设为可训练。

Trainable general fields are those that will update live in the platform based on training that users provided. For more details on training general fields, checkReviewing and applying general fields.

如果您对基于一组标准或自定义定义的规则的预训练通用字段启用训练,则可以在这些规则的参数内细化对该通用字段平台的理解。本质上,对这些字段的进一步训练将缩小平台考虑通用字段的范围,但不会扩大其范围。

这是因为许多通用字段需要规范化为结构化数据格式,例如日期(例如明天)和货币数量(例如 20 英镑),以供下游系统使用。此外,对于 ISIN 或 CUSIP 等通用字段,这些字段必须具有设定格式,因此不应让平台预测任何不符合其定义格式的内容。

分配任何可训练通用字段时,平台会同时查看通用字段的文本以及通信其余部分中通用字段的上下文,即同一个段落及其周围的段落。它学习根据值本身以及值在通信上下文中的显示方式更好地预测通用字段。

不可训练的通用字段

如果未将预训练通用字段设置为可训练,您仍然可以接受或拒绝您在数据集中识别的通用字段预测。根据此平台内用户反馈,系统会离线更新和优化这些反馈。

对您在查看消息时接受或拒绝这些通用字段会有所帮助。

要详细了解如何在数据集上启用通用字段,请查看 “启用、禁用、更新和创建通用字段”页面。

通用字段的预构建模板

注意:您可以将所有通用字段启用为可训练字段,以通过训练来细化对平台的理解,并缩小平台视为此类通用字段的范围。

通用字段的标准模板字段类型

配置通用字段类型时,可以在选择字段类型的数据类型时,通过“模板”选项从以下预构建选项中进行选择:

通用字段类型描述
电子邮件电子邮件地址。
币种货币代码,例如 GBP、CHF 或 USD。
URL统一资源定位符,即网址。
SEDOL金融证券标识符,是“证券交易所每日官方名单”的缩写,长度为 7 个字符。
BIC 代码企业标识符代码 (BIC) 是 ISO 9362 下的一项国际标准,用于路由业务事务和识别业务方。 BIC 代码的长度为 8 或 11 个字符。
LEI法人实体标识符 (LEI) 是参与金融交易的法人实体的唯一全局标识符。 LAI 的格式为 20 个字符的字母数字代码。
位于国际证券识别号 (ISIN) 是金融证券的唯一标识。 ISIN 是一个由 12 个字符的字母数字代码组成的代码。

击中市场(MTM 或 M2M)

按市价计算是指资产或负债的公私价值。 按市价计算的价格基于当前市场价格、类似资产和负债的价格或其他客观公正的价值。
CUSIPCUSIP 是一个 9 位数字或一个 9 个字符的字母数字代码,用于标识北美金融证券,以便促进交易的清除和结算。

管理通用字段

备注:
  • 您必须已以 Automation Cloud 用户身份分配了“来源 - 读取”“数据集 - 管理”权限,或者以旧版用户身份分配了“查看源修改数据集”“数据集管理员”权限。
  • 您的默认配额为每个数据集 25 个通用字段。如果您需要超过 25 个通用字段,请通过客户团队请求增加配额。

在新数据集上启用常规字段

要在要创建的新数据集上启用通用字段,请在设置过程中选择通用字段。

在下方所示的框中选择加号+按钮,系统将显示一个下拉菜单,其中包含您可以为该数据集启用的所有通用字段。在创建数据集之前选择要启用的所有通用字段。如果您添加了错误的任何通用字段,可以选择通用字段名称旁边的 X 图标以将其删除。

To understand more about how to create a new dataset, check Create a new dataset.



启用、更新和禁用现有数据集的常规字段

如果要启用、更新或禁用现有数据集的常规字段,可以从顶部导航栏的“设置”选项卡中执行此操作,然后选择“标签和提取字段”选项卡

设置 > 标签和提取字段选项卡

启用通用字段

要启用现有通用字段,请在“通用字段”框中选择,然后从下拉菜单中选择要启用的通用字段。您对选择感到满意后,选择“更新通用字段”(如下所示)。

系统将为您预先选择这些常规字段的设置。 然后,您可以更新它们,包括将其设为可训练,如下所示。

“常规字段”选项卡

更新通用字段

要更新已启用的通用字段,请在“通用字段”框中选择通用字段(如上图所示),如下图所示, “编辑通用字段”模式将显示。

在这里,您可以更新基本常规字段、常规字段的标题API 名称(这些概念将在下面详细介绍),并使常规字段“可训练”。

如果您以前查看过未设置为“可训练”的常规字段类型的常规字段,则系统仍会存储此信息。

编辑常规字段模式

禁用通用字段

要删除任何选定的通用字段,只需选择通用字段名称旁边的“X”图标,然后选择“更新通用字段”。

备注:

如果您删除通用字段并选择“更新通用字段”,则也将删除此数据集该通用字段的训练数据。如果您选择重新启用通用字段,则需要再次训练。

如果您在更新通用字段时出错请选择“重置” ,然后再选择“更新通用字段” ,您的更改将不会应用。

创建新的常规字段

前面的部分介绍了如何为新数据集和现有数据集启用和更新现有预训练通用字段。在每个实例中,您还可以为新的或现有的数据集创建新的通用字段。

新建通用字段可以基于现有的预训练通用字段,也可以像新标签一样从头开始训练。

为此,您可以在“创建数据集”流程或“数据集设置”页面(如前所示)中选择通用字段框中的加号+图标。

这将显示“添加新通用字段”模式,如下所示。

在这里,您可以设置字段类型标题API 名称,并选择通用字段是否 可训练。如前所示,稍后可以更新这些内容。

填写每个字段(如下所述)后,只需选择“创建”。

新建常规字段模态框

Field types

  • 这将作为新常规字段的初始状态,下拉列表将包含您可用的所有预训练常规字段的列表
    • 例如,如果您选择“日期”作为基本常规字段,则预测的所有此类常规字段都将为日期,然后您可以训练平台,使其仅识别特定日期
  • 如果要完全从头开始训练常规字段,则可以选择“无 - 从头开始训练”,然后在训练常规字段时,您实际上是从空白画布开始。 平台对此常规字段的预测将完全基于您提供的训练示例

常规字段标题

  • 常规字段标题是将显示在平台用户界面中的常规字段的名称

Api 名称

  • 常规字段的 API 名称是在提供消息预测时将通过 API 返回的名称
  • API 名称不能包含任何空格或标点符号,短划线 (-) 和下划线 (_) 除外

================================================ ===================

在新数据集上启用常规字段

要在要创建的新数据集上启用通用字段,请在设置过程中选择通用字段。

在下方所示的框中选择加号+按钮,系统将显示一个下拉菜单,其中包含您可以为该数据集启用的所有通用字段。在创建数据集之前选择要启用的所有通用字段。如果您添加了错误的任何通用字段,可以选择通用字段名称旁边的 X 图标以将其删除。

To understand more about how to create a new dataset, check Creating a new dataset.



管理现有数据集的通用字段

要启用、更新或禁用现有数据集的通用字段,请按照以下步骤操作:
  1. 打开现有数据集。
  2. 选择“ 设置” 选项卡。
  3. 选择“分类” ,然后选择“标签和提取字段”

常规字段筛选

注意:您必须以 Automation Cloud 用户的身份分配“来源 - 读取”“数据集 - 读取”权限,并以旧版用户身份分配“查看来源”“查看通用字段”权限。

与标签类似,您可以在“探索”“报告”中,按消息是否具有预测或分配的通用字段来筛选消息。

应用多个通用字段筛选器时,您可以应用“AND”“ANYOF”“NOT”筛选器的任意组合。这些筛选器可以为您在训练和解释数据时提供更大的灵活性,并且可以让您更深入地了解沟通渠道中的情况。

按通用字段预测筛选时可以执行的操作:

  • 在“探索”和“报告”中一次应用多个通用字段筛选器
  • 筛选所预测具有一个选定通用字段的消息。例如,“任何通用字段 X AND 通用字段 Y AND ”依此类推。
  • 筛选以查找包含多个不同预测通用字段的消息。例如,通用字段 X AND 通用字段 Y AND 依此类推。
  • 筛选以显示不包含某些预测通用字段的消息。例如,NOT 通用字段 Y。
  • 搜索包含特定搜索词的通用字段,同时应用通用字段筛选器。

您在数据集上启用的所有通用字段都将如下所示出现在筛选栏中。 查看和应用通用字段详细介绍了分配通用字段

应用高级预测筛选器

现在有两种方法可以应用通用字段筛选器,并且可以将它们结合使用以创建正确类型的查询。

默认状态是不应用筛选器,并且显示所有消息,除非应用了另一个筛选器。



要更新通用字段筛选器,请使用下表中说明的按钮,这些按钮在选中时也会改变颜色:

docs image显示包含任何已批注通用字段的消息。
docs image显示预计会包含通用字段的消息

如果要筛选具有任何已批注通用字段或预测会包含通用字段的消息,请使用顶部的按钮(如上表中所示)。如果要筛选具有特定的已批注通用字段或预测通用字段的消息,请将鼠标指针悬停在相关通用字段上,右侧也会显示相同的两个按钮。

如果要筛选已分配或预测的通用字段,请选择通用字段的名称,系统会显示包含其中任何一个通用字段的消息。

要移除您的选择,请再次选择该按钮;要移除多项选择,请选择全部。您也可以从筛选器栏中选择“全部清除” ,但这将清除已选择的每个筛选器,而不仅仅是通用字段筛选器。

通用字段栏

通用字段分类的功能与普通筛选器栏相同,允许您一次选择多个通用字段(每个通用字段单击一次)。

从列表中选择多个通用字段将创建ANY of类型查询。

如果您在“通用字段”栏中选择了“通用字段 A”、“通用字段 B”和“通用字段 C”,这将创建“显示包含通用字段 A、通用字段 B 或通用字段 C 的消息”预测查询。

筛选特定通用字段时,您可以进行多项选择。例如,您可以筛选以查看已分配地址行通用字段预测了城市通用字段的消息,如下图所示。



添加通用字段筛选器

第二个筛选选项是“+ 添加通用字段筛选器” 按钮。

这将启用下拉通用字段栏,允许您选择更复杂的筛选器,例如从考虑中排除某些通用字段。

从此下拉列表中,您可以通过选择通用字段(适用于已分配和预测)的名称(适用于已分配和预测的通用字段)或单个按钮(对于既未分配也未预测此通用字段,则包括减号),以选择要包含或排除的多个通用字段。

结果如本示例所示,返回预计会分配“发票 ID”通用字段,但不分配或预测“产品 ID”通用字段的消息:



您可以选择多次,以为查询添加其他图层。两个单独的通用字段筛选器会创建一个AND类型查询,而在同一个通用字段筛选器中选择的多个通用字段会创建一个ANYOF类型查询。

在下面的示例中,已单独应用多个通用字段筛选器。 这将创建一个筛选器,该筛选器将返回预计具有第一个筛选器中三个通用字段中任何一个字段的消息,但也会预测“保单编号”通用字段,并且不会预测或分配“英国邮政编码”通用字段。



一个有用的提示是,通过在包含多个通用字段的单个筛选器中选择 & 符号,您可以自动将它们拆分为单独的筛选器。这会将查询从“ANYOF” (预测的任何通用字段)更改为“AND” (即预测的所有通用字段)。

合并常规字段栏筛选器并添加常规字段筛选器

您可以组合使用“通用字段”栏中的筛选器,也可以使用单独添加的通用字段筛选器。在“通用字段”栏中应用的筛选器被视为与任何单独应用的通用字段筛选器的“与”查询。

例如,在下图中,此组合查询将返回所有预测了订单 ID产品 ID 的消息。

使用通用字段栏和单独添加的通用字段筛选器合并通用字段筛选器。

结合常规字段筛选器和按常规字段排序进行训练

这些筛选器还意味着您现在可以应用通用字段筛选器,并按训练模式的特定通用字段进行排序。

“探索”页面示例,显示特定通用字段的“检查通用字段”模式,并应用了其他通用字段排除筛选器:


查看并应用常规字段

注意:您必须以 Automation Cloud 用户的身份分配“来源 - 读取数据集 - 审核”权限,或者以旧版用户的身份分配“查看源”“审核和标记”权限。

识别一般字段预测

预测通用字段显示为颜色高亮显示的文本,如下图所示,对于每种不同的通用字段类型,会显示不同的颜色。通过手动应用或接受预测来确认通用字段后,通用字段将显示为带有粗体深色边框的高亮显示文本,如下图所示。

如果已为某个段落分配、关闭或应用通用字段,则该段落将以灰色高亮显示,如下图中的消息正文所示。



对可训练通用字段进行通用字段预测

在审核可训练通用字段时,平台将从您分配的通用字段值及其在通信中出现的位置的上下文(即围绕值本身使用的其他语言)中学习。

平台会将同一段落中的语言上下文视为通用字段值,也会考虑通用字段所在段落之前和之后的单个段落(用新的分隔行表示)。

注意:对于未设置为“可训练”的通用字段,平台的预测完全基于平台中为该通用字段定义的规则。当通用字段必须遵循下游自动化的设定格式(任何不正确的值都会导致故障或异常)时,这可能非常有用。

一般字段置信度分数

当平台预测哪些常规字段适用于通信时,它会为每个预测分配一个可信度分数 (%),以显示该常规字段适用于高亮显示的文本范围的置信度。 您可以将鼠标悬停在常规字段上,以查看常规字段的置信度分数。

此置信度分数也可通过 API 提供,以便为下游采取的自动化操作提供依据。



接受和拒绝常规字段预测

Once general fields are enabled, the platform will automatically start predicting them within the messages throughout your dataset. For more details, check Reviewing and applying general fields. You can then accept the predictions that are correct or reject them where they are incorrect. Each of these actions sends training signals that will be used to improve the understanding of the platform of that general field.

对于离线训练的预训练通用字段,例如货币数量、URL 等,从改进的角度来看,拒绝或更正错误的预测比接受正确的预测更重要。

对于在平台中实时训练的通用字段,接受正确的预测和拒绝错误的预测同样重要。但是,如果您没有找到错误预测的字段,则不必一直接受这些类型的每个唯一通用字段的许多正确示例。例如,Example Bank是一个独特的组织通用字段。

注意:关键问题是,如果您审核段落中的任何通用字段,则需要审核该段落中的所有其他通用字段。

要审核通用字段预测,请将鼠标悬停在预测上,系统将显示通用字段审核模态,如下图中的示例所示。如要接受,请选择“确认” ,要拒绝,请选择“关闭”

您可以独立训练通用字段和标签。查看消息的标签并不意味着您必须查看该消息中的通用字段。但是,最好同时进行这两项操作,因为这样可以在模型训练时最有效地利用时间。

Important: When training general fields, make sure you consider the best practices explained in this section. The most important best practice is that you do not partially annotate paragraphs.

To understand how well the platform can predict each general field enabled for a dataset, particularly the trainable ones, check Validation for general fields.



注意:请务必拒绝错误的通用字段预测,但是,如果高亮显示的文本实际上是另一个通用字段(对于与日期相关的通用字段更常见),则应应用正确的通用字段预测。有关应用通用字段的更多详细信息,请查看以下部分。

应用常规字段

要将通用字段应用于平台可能未预测到的某些文本,用户只需要高亮显示“测试”的部分,就像您要复制它时一样。

系统将显示一个下拉菜单,如下图所示,其中包含您为数据集启用的所有通用字段。请选择正确的快捷键进行应用,或者按相应的键盘快捷方式。

每个通用字段的默认键盘快捷方式是其开头的字母。如果多个通用字段以相同字母开头,则系统会随机将一个通用字段分配给另一个通用字段。



应用通用字段后,系统将以颜色高亮显示该通用字段,并带有粗体边框,如下图所示。每个通用字段类型都有其自己的特定颜色。



注意:给定通用字段类型的值不能拆分为多个段落。段落中必须包含完整值,才能将其提取为一个通用字段值。

最佳实践

以下是接受、拒绝或应用消息中的通用字段时要考虑的一些最重要的最佳实践:
  • 不要拆分单词。
  • 不要对段落进行部分注释。

不拆分单词

请确保没有拆分单词,因为高亮显示的通用字段应覆盖整个单词或相关的多个单词,而不仅仅是单词的一部分。查看下图,了解错误应用程序和正确应用程序的示例。





不要对段落进行部分批注

标注时,如果用户为消息分配一个标签(即标签),则他们应应用可应用于该消息的所有标签,否则,您将告知模型这些标签不应适用。对于通用字段,情况也是如此,不同之处在于在段落级别而不是整个消息上审核或应用通用字段。

消息中的段落由新行分隔。 电子邮件消息的主题行被视为其自己的单个段落。

如果您查看或应用其中一个通用字段,请确保查看或应用所有通用字段类型中段落中的所有通用字段。在段落中应用、接受或拒绝通用字段意味着平台会将该段落视为已由通用字段角度审核。因此,请务必接受或拒绝该段落中的所有预测。

以下示例显示了电子邮件消息中已审核的不同段落。



下图中描述的消息显示了同一示例,其中用户没有接受或拒绝单个段落中的所有通用字段预测。这是不正确的,因为模型会将货币数量通用字段错误地视为不正确的预测。



常规字段的验证

简介

平台会在“验证” 页面中显示已启用常规字段的验证统计信息、警告和建议操作,这与分类中的每个标签的显示非常类似。

要查看这些内容,请导航到“验证”页面,然后选择顶部的“常规字段”选项卡,如下图所示。



通用字段验证的工作原理

平台验证其正确预测常规字段能力的流程与验证标签的流程非常相似。

首次将消息添加到数据集时,系统会将消息 (80:20) 拆分为训练集和测试集(根据每条消息的消息 ID 随机确定)。 已分配的任何通用字段(已接受或更正的预测)都将属于训练集或测试集,具体取决于最初将其所在消息分配到的集。

有时,一条消息中可能包含大量常规字段,并且无法保证消息是在训练集还是测试集中,因此您可能会看到每个消息集中的常规字段数量存在巨大差异。

在某些情况下,所有分配的常规字段都可能落入训练集。 由于测试集中至少需要一个示例才能计算验证分数,因此此常规字段将需要分配更多示例,直到测试集中出现一些示例。

计算分数

The individual precision and recall statistics for each general field with sufficient training data are calculated in a very similar way to that of labels:

精度= 匹配的常规字段数 / 预测的常规字段数

召回率 = 匹配的常规字段数 / 实际常规字段数

“匹配的通用字段”是指平台已准确预测通用字段的位置(即 无部分匹配项)

F1 分数只是精度召回率的调和平均值。

可训练的常规字段

值得注意的是,此页面中显示的精度和召回率统计信息对于可在平台中实时训练的通用字段最有用,如上面第二列所示,因为为这些通用字段类型审核的所有通用字段将直接影响平台预测这些通用字段的能力。

因此,应尽可能接受正确的常规字段并更正或拒绝错误的常规字段。

预训练常规字段

对于通过模板字段类型预训练的通用字段,为了使验证统计信息准确反映性能,用户需要确保接受大量的正确预测,并更正错误的预测。

如果它们只是为了纠正错误的预测,则训练集和测试集将人为地仅包含平台难以预测一般字段的实例,而不包含平台能够更好地预测的实例。 由于更正这些常规字段的错误预测不会导致这些常规字段的实时更新(它们会定期离线更新),因此验证统计信息可能在一段时间内不会发生变化,并且可能会被人为地降低。

接受大量的正确预测可能并不总是方便,因为这些通用字段通常都能被正确预测。但是,如果这些通用字段的大多数预测都是正确的,则您可能无需担心“验证”页面中其精度和召回率状态的统计信息。

了解摘要统计信息

摘要统计信息(平均精度、平均召回率和平均 F1 分数)是每个单独的常规字段分数的简单平均值。

与标签一样,平均分数中仅包含具有足够训练数据的常规字段。 对于没有足够的训练数据而无法包含在内的实体,其名称旁边会显示警告图标。

注意:摘要统计信息包含所有具有足够训练数据的常规字段,包括可实时训练的字段和预训练的字段。 预训练的一般字段预测通常仅在错误时才会被纠正,而在正确时并不总是被接受。 这意味着它们的精度和召回率统计数据通常可能会人为地降低,从而降低平均分数。

指标

“通用字段验证”页面显示通用字段的平均性能统计信息,以及显示每个通用字段的平均 F1 分数与其训练集大小的图表。该图表还会标记存在黄色或红色性能警告的通用字段。



显示的常规字段性能统计信息如下:

  • F1 平均分数:所有常规字段的 F1 分数平均值,其中包含足够的数据以准确评估性能。 此分数同等衡量召回率和精度。 F1 分数较高的模型产生的误报和漏报较少。
  • 平均精度:所有常规字段的精度分数平均值,其中有足够的数据来准确评估性能。 精度高的模型产生的误报较少。
  • 平均召回率:所有常规字段的召回率分数平均值,其中包含足够的数据以准确评估性能。 召回率高的模型产生的漏报较少。

了解一般现场性能

“验证” 页面的“指标”选项 卡中显示的通用字段性能图表,提供每个通用字段性能的即时可视化指示。有关更多详细信息,请查看上一节。

要使通用字段显示在此图表上,该通用字段必须在验证期间平台使用的训练集中至少存在 20 个固定示例。为确保做到这一点,用户应确保为每个通用字段至少提供来自 25 条不同消息的 25 个(通常更多)已固定示例。

根据模型对常规字段运行方式的理解,每个常规字段都将绘制为三种颜色之一。 下面,我们将解释这些含义:



一般外地绩效指标

  • 蓝色- 在图表上绘制为蓝色的那些通用字段具有良好的性能级别。这取决于许多影响因素,包括示例的数量和类型,以及该通用字段的平均精度
  • 黄色- 绘制为黄色的通用字段的性能稍差。它们的平均精度可能相对较低,或者训练示例数量较少。这些通用字段需要一些训练/更正以提高其性能
  • 红色- 绘制为红色的通用字段是效果不佳的通用字段。它们的平均精度可能非常低或训练示例不足。这些通用字段可能需要进行更多的训练/更正,才能将其性能提升到令人满意的水平
注意:您将在“探索”、“报告”和“验证”的常规字段筛选栏中看到黄色和红色绩效指标。 这有助于在使用分析功能时快速通知您哪些常规字段需要帮助,以及哪些常规字段的预测不应依赖(无需进行一些改进)。

个人常规战地表现

用户可以从通用字段筛选器栏中选择单个通用字段(或通过在“所有通用字段”图表上选择通用字段的图表),以查看通用字段的性能统计信息。

特定的通用字段视图还将显示任何性能警告和推荐的次最佳操作建议,以帮助提高其性能。

通用字段视图将显示通用字段的平均 F1 分数及其精度 和召回率

提供建议操作的通用字段卡示例。

提高常规字段性能

注意:您必须以 Automation Cloud 用户身份分配“数据集 - 审核”权限,或以旧版用户身份分配“审核并标注”权限。

概述

与训练标签类似,训练常规字段是用户使用各种训练模式教会平台哪些常规字段适用于给定消息的过程。

与标签一样,“ 学习” 、“检查” 和“缺失” 模式可用于帮助训练和提高通用字段的性能,您可通过以下方式访问这些模式:1) 在“探索” 页面上使用训练下拉列表;或 2) 验证 页面的“通用字段” 选项卡。

下图显示了探索中包含通用字段训练模式的下拉菜单:



常规字段建议操作

如果特定通用字段存在性能警告,平台会按优先级顺序推荐它认为有助于解决该警告的下一个最佳操作。当您从分类或“所有通用字段”图表中选择特定通用字段时,将显示该字段。

下一步最佳操作建议充当链接,您可以选择这些建议以直接转到平台建议的训练视图,从而提高通用字段的性能。系统会按照优先级最高的操作,对建议进行智能排序,以改进首先列出的通用字段。

这是帮助您了解通用字段性能的最重要工具,在尝试提高通用字段性能时应定期将其用作指南。

查看此通用字段卡示例,以及建议的操作:



常规外业训练模式

下表汇总了平台建议每种常规现场训练模式的时间:

示教通用字段检查通用字段缺少通用字段
  • 显示模型不确定是否适用的标签的预测。
  • 用于训练未审核消息的通用字段。
  • 显示平台认为通用字段可能被误用的消息。
  • 用于在已审核消息上训练通用字段,以尝试查找并更正任何不一致之处。
  • 显示平台认为可能缺少所选通用字段的消息。
  • 用于在已审核消息上训练通用字段,以尝试查找并更正任何不一致之处。

使用“示教常规” 字段

使用“学习通用字段”可提高通用字段性能,因为会向模型提供有关不确定消息的新信息,而不是已对其进行高度置信度预测的消息。



在以下情况下,平台会建议训练通用字段

  • 通用字段旁边显示性能警告,如下图所示。未提供 25 个示例即会出现这种情况。
  • 给定通用字段的 F1 分数较低。
  • 通用字段的文本中可能并不总是有明显的上下文,或者给定类型的通用字段值存在很多变化。

下图包含一个在“示教通用字段”模式下训练通用字段的示例:



使用“检查常规字段”

使用“检查常规字段”有助于识别审核集中的不一致之处,同时通过确保模型具有正确且一致的示例来进行预测,从而提高模型对常规字段的理解。 这将提高对常规字段的召回率。

在以下情况下,平台建议检查通用字段

  • 召回率较低,但精度较高。
  • 平台做出的预测非常准确,但很多时候在应用了通用字段的情况下,它并不能捕获这些示例。
这是在“检查通用字段”模式下训练通用字段的示例:



For more details on calculations for general field validation, check Validation for general field.

使用缺失的常规字段

使用缺少的常规字段有助于在审核集中查找应具有选定常规字段但实际上没有的示例。 它还有助于识别部分注释的消息,这些消息可能不利于模型预测一般字段的能力。 这将提高一般字段的精度,并确保模型具有用于预测的正确且一致的示例。

在以下情况下,平台会建议漏掉通用字段

  • 召回率较高,但精度较低。
  • 您经常错误地预测通用字段,但是当您正确预测通用字段时,您会捕获许多本应存在的示例。
下图包含在“缺失通用字段”模式下训练通用字段的示例:



有关通用字段验证计算的更多详细信息,请查看通用字段验证页面。

构建自定义正则表达式常规字段

备注:
  • 您必须以 Automation Cloud 用户身份分配“数据集 - 管理”权限,或以旧版用户身份分配“修改数据集”权限。
  • 您可以通过“生成式提取”字段注释体验中的“数据集”设置或“管理通用字段”选项构建自定义正则表达式通用字段, “生成式提取”页面中有详细说明。

自定义正则表达式通用字段

使用自定义正则表达式通用字段提取具有已知重复结构的文本并为其设置格式,例如 ID 或参考编号。

对于变化不大的简单、结构化通用字段,这是一个有用的选项。如果通用字段变化很大,并且上下文对预测有很大影响,则基于机器学习的通用字段是正确的选择。您可以在 Communications Mining™ 的任何数据集中使用两者的组合。

更广泛的正则表达式(即用于定义通用字段的规则集)也可以用作自定义通用字段的基础。 这通过 Communications Mining 中的训练将规则与基于机器学习的上下文优化结合在一起,创建复杂的自定义通用字段。 这可提供最佳性能,但会对为自动化提取的值进行必要的限制。

自定义正则表达式模板

自定义正则表达式通用字段由具有正则表达式数据类型的字段类型组成,而该字段类型又具有一个或多个自定义正则表达式模板。 每个模板都表示一种提取(并格式化)通用字段的方法。

这些模板组合在一起,提供了一种灵活而强大的方法来涵盖相同通用字段类型的多种表示。

模板由以下部分组成:

  1. regex(正则表达式),描述了要提取为通用字段的文本范围需要满足的约束。
  2. 格式,表示如何将提取的字符串规范化为更标准的格式。

例如,如果您的客户 ID 是ID单词后跟 7 个数字或包含 9 个字符的字母数字字符串。下图显示了两个模板的外观:





预先输入验证

在“正则表达式”或“格式”的文本框中键入内容时,界面将提供有关输入有效性的即时反馈。 例如,无效的输入正则表达式ID\ d{}将显示:

提取内容预览

可以在文本上测试自定义正则表达式模板,以确保其按预期运行。 使用模板提取的任何常规字段都将显示在一个列表中,其中包含其值以及开始字符和结束字符的位置。

例如,如果正则表达式为\d{4}且格式为ID-{$} ,则以下测试字符串将显示一次提取:


正则表达式

正则表达式是用于在文本中提取通用字段的模式。 请查看语法文档

命名捕获组可用于标识所提取字符串的特定部分,以便进行后续格式化。 捕获组的名称在所有模板中均应唯一,并且应仅包含小写字母或数字。

Formatting

可以提供格式设置,以对提取的常规字段进行后处理。

默认情况下,不应用任何格式,平台返回的字符串将是正则表达式提取的字符串。 但是,如果需要,可以使用以下规则定义更复杂的转换。

变量

正则表达式中定义的任何命名捕获组都可以在格式化逻辑中用作变量,并使用$符号作为前缀。 请注意, $符号本身表示完整的正则表达式匹配。
然后,可以在格式化字符串中使用变量,以将相应的提取范围插入到平台返回的值中;变量名称需要用{}大括号括起来。
例如,如果我们想提取七位数字作为 ID,并返回这七位数字并加上ID-前缀,则正则表达式和格式将为:


或者,使用命名捕获组:


稍后,如果向平台提供“我的标识号为 1234567”文本,它将返回一个通用字段: ID-1234567

字符串操作

可以使用原始字符串,并且可以使用&符号连接字符串。
正则表达式(?P<id1>\b\d{3}\b)|(?P<id2>\b\d{4}\b)
Formatting{$id1 & "-" & $id2}
文本第一个 ID 为 123,第二个 ID 为 4567
平台返回的常规字段123-4567

功能

某些函数也可以在格式化中使用,以转换提取的字符串。 函数名称及其签名受 Excel 启发。

上部

将提取的范围中的所有字符转换为大写:

正则表达式\w{3}
Formatting{upper($)}
文本abc
平台返回的常规字段ABC

降低

将提取的范围中的所有字符转换为小写:

正则表达式\w{3}
Formatting{lower($)}
文本AbC
平台返回的常规字段abc

属性

将提取的跨度大写:

正则表达式\w+\s\w+
Formatting{proper($)}
文本阿尔伯特·爱因斯坦
平台返回的常规字段阿尔伯特·爱因因

填充

使用给定字符将提取的范围填充至给定大小。

函数参数:

  1. 包含要填充的字符的文本
  2. 填充字符串的大小
  3. 用于填充的字符
正则表达式\d{2,5}
Formatting{pad($, 5, "0")}
文本123
平台返回的常规字段00123

替换

将某个字符替换为其他字符。

函数参数:

  1. 包含要替换的字符的文本
  2. 要替换的字符
  3. 旧字符应替换成的内容
正则表达式ab
Formatting{substitute($, "a", "12")}
文本ab
平台返回的常规字段12b

左侧

返回范围中的前 n 个字符。

函数参数:

  1. 包含要提取的字符的文本
  2. 要返回的字符数
正则表达式\w{4}
Formatting{left($, 2)}
文本ABCD
平台返回的常规字段AB

右侧

返回范围中的最后 n 个字符。

函数参数:

  1. 包含要提取的字符的文本
  2. 要返回的字符数
正则表达式\w{4}
Formatting{right($, 2)}
文本ABCD
平台返回的常规字段CD

返回范围中指定位置之后的 n 个字符。

函数参数:

  1. 包含要提取的字符的文本
  2. 要返回的第一个字符的位置
  3. 要返回的字符数
正则表达式\w{5}
Formatting{mid($, 2, 3)}
文本ABCDE
平台返回的常规字段BCD

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo
信任与安全
© 2005-2025 UiPath。保留所有权利。