
Communications Mining 用户指南
在平台中设置和训练常规字段的指南。
定义关键数据点(即字段)的字段(即要从 Communications Mining™ 数据中提取的字段)。这些通常有助于下游自动化,但也有助于分析,尤其是在评估自动化机会的潜在成功率和收益时。
- 通用字段是您可能要提取的字段,可以在数据集中的多个不同主题/标签中找到这些字段。
- 提取字段是根据特定标签创建的字段。 换句话说,它与您要自动化的特定标签绑定。
最终,通用字段预测与标签相结合,可以提供完成特定任务或流程所需的结构化数据点,从而促进自动化。 将数据集中的通用字段与标签一起训练比先训练一个标签再训练另一个标签更省时 (即在训练标签的完整分类后训练通用字段)。
通用字段是结构化数据的附加元素,可以从数据集的消息中提取。通用字段包括货币数量、日期、货币代码、电子邮件地址、URL 以及许多其他行业特定类别等数据点。
只要启用这些字段,平台就可以预测大多数通用字段(从头开始训练的字段除外),因为它可以根据这些字段的典型格式(或在某些情况下非常特定)格式和一组类似通用字段的训练集来识别这些字段。
与标签类似,您可以接受或拒绝预测正确或错误的通用字段,从而增强模型将来识别这些字段的能力。
常规字段的类型
通用字段可以是以下类型:
- 预训练通用字段,这些字段基于一组标准或自定义定义的规则,例如货币数量、URL 和日期。
- 从头开始训练的通用字段,这些字段基于机器学习。您可以像训练标签一样训练这些字段。
可训练和不可训练通用字段
可训练的常规字段
- 从头开始训练时,本质上是可训练的。
- 启用后,可以将所有其他类型的通用字段设为可训练。
可训练通用字段是指将根据用户提供的训练在平台中实时更新的字段。有关训练通用字段的更多详细信息,请查看查看并应用通用字段。
如果您对基于一组标准或自定义定义的规则的预训练通用字段启用训练,则可以在这些规则的参数内细化对该通用字段平台的理解。本质上,对这些字段的进一步训练将缩小平台考虑通用字段的范围,但不会扩大其范围。
这是因为许多通用字段需要规范化为结构化数据格式,例如日期(例如明天)和货币数量(例如 20 英镑),以供下游系统使用。此外,对于 ISIN 或 CUSIP 等通用字段,这些字段必须具有设定格式,因此不应让平台预测任何不符合其定义格式的内容。
分配任何可训练通用字段时,平台会同时查看通用字段的文本以及通信其余部分中通用字段的上下文,即同一个段落及其周围的段落。它学习根据值本身以及值在通信上下文中的显示方式更好地预测通用字段。
不可训练的通用字段
如果未将预训练通用字段设置为可训练,您仍然可以接受或拒绝您在数据集中识别的通用字段预测。根据此平台内用户反馈,系统会离线更新和优化这些反馈。
对您在查看消息时接受或拒绝这些通用字段会有所帮助。
要详细了解如何在数据集上启用通用字段,请查看 “启用、禁用、更新和创建通用字段”页面。
通用字段的标准模板字段类型
配置通用字段类型时,可以在选择字段类型的数据类型时,通过“模板”选项从以下预构建选项中进行选择:
| 通用字段类型 | 描述 |
|---|---|
| 电子邮件 | 电子邮件地址。 |
| 币种 | 货币代码,例如 GBP、CHF 或 USD。 |
| URL | 统一资源定位符,即网址。 |
| SEDOL | 金融证券标识符,是“证券交易所每日官方名单”的缩写,长度为 7 个字符。 |
| BIC 代码 | 企业标识符代码 (BIC) 是 ISO 9362 下的一项国际标准,用于路由业务事务和识别业务方。 BIC 代码的长度为 8 或 11 个字符。 |
| LEI | 法人实体标识符 (LEI) 是参与金融交易的法人实体的唯一全局标识符。 LAI 的格式为 20 个字符的字母数字代码。 |
| 位于 | 国际证券识别号 (ISIN) 是金融证券的唯一标识。 ISIN 是一个由 12 个字符的字母数字代码组成的代码。 |
|
击中市场(MTM 或 M2M) | 按市价计算是指资产或负债的公私价值。 按市价计算的价格基于当前市场价格、类似资产和负债的价格或其他客观公正的价值。 |
| CUSIP | CUSIP 是一个 9 位数字或一个 9 个字符的字母数字代码,用于标识北美金融证券,以便促进交易的清除和结算。 |
- 您必须以 Automation Cloud 用户身份分配“IXP 查看者”或“IXP 分析师”和“IXP 项目管理员”角色,或以旧版用户身份分配“查看源和修改数据集”或“数据集管理员”权限。
- 您的默认配额为每个数据集 25 个通用字段。如果您需要超过 25 个通用字段,请通过客户团队请求增加配额。
在新数据集上启用常规字段
要在要创建的新数据集上启用通用字段,请在设置过程中选择通用字段。
+按钮,系统将显示一个下拉菜单,其中包含您可以为该数据集启用的所有通用字段。在创建数据集之前选择要启用的所有通用字段。如果您添加了错误的任何通用字段,可以选择通用字段名称旁边的 X 图标以将其删除。
要详细了解如何新建数据集,请查看新建数据集。
启用、更新和禁用现有数据集的常规字段
如果要启用、更新或禁用现有数据集的常规字段,可以从顶部导航栏的“设置”选项卡中执行此操作,然后选择“标签和提取字段”选项卡。
启用通用字段
要启用现有通用字段,请在“通用字段”框中选择,然后从下拉菜单中选择要启用的通用字段。您对选择感到满意后,选择“更新通用字段”(如下所示)。
系统将为您预先选择这些常规字段的设置。 然后,您可以更新它们,包括将其设为可训练,如下所示。
更新通用字段
要更新已启用的通用字段,请在“通用字段”框中选择通用字段(如上图所示),如下图所示, “编辑通用字段”模式将显示。
在这里,您可以更新基本常规字段、常规字段的标题和API 名称(这些概念将在下面详细介绍),并使常规字段“可训练”。
如果您以前查看过未设置为“可训练”的常规字段类型的常规字段,则系统仍会存储此信息。
禁用通用字段
要删除任何选定的通用字段,只需选择通用字段名称旁边的“X”图标,然后选择“更新通用字段”。
如果您删除通用字段并选择“更新通用字段”,则也将删除此数据集该通用字段的训练数据。如果您选择重新启用通用字段,则需要再次训练。
如果您在更新通用字段时出错,请选择“重置” ,然后再选择“更新通用字段” ,您的更改将不会应用。
创建新的常规字段
前面的部分介绍了如何为新数据集和现有数据集启用和更新现有预训练通用字段。在每个实例中,您还可以为新的或现有的数据集创建新的通用字段。
新建通用字段可以基于现有的预训练通用字段,也可以像新标签一样从头开始训练。
+图标。
这将显示“添加新通用字段”模式,如下所示。
在这里,您可以设置字段类型、标题和API 名称,并选择通用字段是否 可训练。如前所示,稍后可以更新这些内容。
填写每个字段(如下所述)后,只需选择“创建”。
Field types
- 这将作为新常规字段的初始状态,下拉列表将包含您可用的所有预训练常规字段的列表
- 例如,如果您选择“日期”作为基本常规字段,则预测的所有此类常规字段都将为日期,然后您可以训练平台,使其仅识别特定日期
-
如果要完全从头开始训练常规字段,则可以选择“无 - 从头开始训练”,然后在训练常规字段时,您实际上是从空白画布开始。 平台对此常规字段的预测将完全基于您提供的训练示例
常规字段标题
- 常规字段标题是将显示在平台用户界面中的常规字段的名称
Api 名称
- 常规字段的 API 名称是在提供消息预测时将通过 API 返回的名称
- API 名称不能包含任何空格或标点符号,短划线 (-) 和下划线 (_) 除外
================================================ ===================
在新数据集上启用常规字段
要在要创建的新数据集上启用通用字段,请在设置过程中选择通用字段。
+按钮,系统将显示一个下拉菜单,其中包含您可以为该数据集启用的所有通用字段。在创建数据集之前选择要启用的所有通用字段。如果您添加了错误的任何通用字段,可以选择通用字段名称旁边的 X 图标以将其删除。
要详细了解如何新建数据集,请查看新建数据集。
管理现有数据集的通用字段
- 打开现有数据集。
- 选择“ 设置” 选项卡。
- 选择“分类” ,然后选择“标签和提取字段” 。
与标签类似,您可以在“探索”和“报告”中,按消息是否具有预测或分配的通用字段来筛选消息。
应用多个通用字段筛选器时,您可以应用“AND” 、 “ANYOF”和“NOT”筛选器的任意组合。这些筛选器可以为您在训练和解释数据时提供更大的灵活性,并且可以让您更深入地了解沟通渠道中的情况。
按通用字段预测筛选时可以执行的操作:
- 在“探索”和“报告”中一次应用多个通用字段筛选器
- 筛选所预测具有一个选定通用字段的消息。例如,“任何通用字段 X AND 通用字段 Y AND ”依此类推。
- 筛选以查找包含多个不同预测通用字段的消息。例如,通用字段 X AND 通用字段 Y AND 依此类推。
- 筛选以显示不包含某些预测通用字段的消息。例如,NOT 通用字段 Y。
- 搜索包含特定搜索词的通用字段,同时应用通用字段筛选器。
您在数据集上启用的所有通用字段都将如下所示出现在筛选栏中。 查看和应用通用字段详细介绍了分配通用字段。
应用高级预测筛选器
现在有两种方法可以应用通用字段筛选器,并且可以将它们结合使用以创建正确类型的查询。
默认状态是不应用筛选器,并且显示所有消息,除非应用了另一个筛选器。
要更新通用字段筛选器,请使用下表中说明的按钮,这些按钮在选中时也会改变颜色:
| 显示包含任何已批注通用字段的消息。 | |
| 显示预计会包含通用字段的消息 |
如果要筛选具有任何已批注通用字段或预测会包含通用字段的消息,请使用顶部的按钮(如上表中所示)。如果要筛选具有特定的已批注通用字段或预测通用字段的消息,请将鼠标指针悬停在相关通用字段上,右侧也会显示相同的两个按钮。
如果要筛选已分配或预测的通用字段,请选择通用字段的名称,系统会显示包含其中任何一个通用字段的消息。
要移除您的选择,请再次选择该按钮;要移除多项选择,请选择全部。您也可以从筛选器栏中选择“全部清除” ,但这将清除已选择的每个筛选器,而不仅仅是通用字段筛选器。
通用字段栏
通用字段分类的功能与普通筛选器栏相同,允许您一次选择多个通用字段(每个通用字段单击一次)。
从列表中选择多个通用字段将创建ANY of类型查询。
如果您在“通用字段”栏中选择了“通用字段 A”、“通用字段 B”和“通用字段 C”,这将创建“显示包含通用字段 A、通用字段 B 或通用字段 C 的消息”预测查询。
筛选特定通用字段时,您可以进行多项选择。例如,您可以筛选以查看已分配地址行通用字段或预测了城市通用字段的消息,如下图所示。
添加通用字段筛选器
第二个筛选选项是“+ 添加通用字段筛选器” 按钮。
这将启用下拉通用字段栏,允许您选择更复杂的筛选器,例如从考虑中排除某些通用字段。
从此下拉列表中,您可以通过选择通用字段(适用于已分配和预测)的名称(适用于已分配和预测的通用字段)或单个按钮(对于既未分配也未预测此通用字段,则包括减号),以选择要包含或排除的多个通用字段。
结果如本示例所示,返回预计会分配“发票 ID”通用字段,但不分配或预测“产品 ID”通用字段的消息:
您可以选择多次,以为查询添加其他图层。两个单独的通用字段筛选器会创建一个AND类型查询,而在同一个通用字段筛选器中选择的多个通用字段会创建一个ANYOF类型查询。
在下面的示例中,已单独应用多个通用字段筛选器。 这将创建一个筛选器,该筛选器将返回预计具有第一个筛选器中三个通用字段中任何一个字段的消息,但也会预测“保单编号”通用字段,并且不会预测或分配“英国邮政编码”通用字段。
一个有用的提示是,通过在包含多个通用字段的单个筛选器中选择 & 符号,您可以自动将它们拆分为单独的筛选器。这会将查询从“ANYOF” (预测的任何通用字段)更改为“AND” (即预测的所有通用字段)。
合并常规字段栏筛选器并添加常规字段筛选器
您可以组合使用“通用字段”栏中的筛选器,也可以使用单独添加的通用字段筛选器。在“通用字段”栏中应用的筛选器被视为与任何单独应用的通用字段筛选器的“与”查询。
例如,在下图中,此组合查询将返回所有预测了订单 ID或产品 ID 的消息。
使用通用字段栏和单独添加的通用字段筛选器合并通用字段筛选器。
结合常规字段筛选器和按常规字段排序进行训练
这些筛选器还意味着您现在可以应用通用字段筛选器,并按训练模式的特定通用字段进行排序。
识别一般字段预测
预测通用字段显示为颜色高亮显示的文本,如下图所示,对于每种不同的通用字段类型,会显示不同的颜色。通过手动应用或接受预测来确认通用字段后,通用字段将显示为带有粗体深色边框的高亮显示文本,如下图所示。
如果已为某个段落分配、关闭或应用通用字段,则该段落将以灰色高亮显示,如下图中的消息正文所示。
对可训练通用字段进行通用字段预测
在审核可训练通用字段时,平台将从您分配的通用字段值及其在通信中出现的位置的上下文(即围绕值本身使用的其他语言)中学习。
平台会将同一段落中的语言上下文视为通用字段值,也会考虑通用字段所在段落之前和之后的单个段落(用新的分隔行表示)。
一般字段置信度分数
当平台预测哪些常规字段适用于通信时,它会为每个预测分配一个可信度分数 (%),以显示该常规字段适用于高亮显示的文本范围的置信度。 您可以将鼠标悬停在常规字段上,以查看常规字段的置信度分数。
此置信度分数也可通过 API 提供,以便为下游采取的自动化操作提供依据。
接受和拒绝常规字段预测
启用通用字段后,平台将自动开始在整个数据集中的消息中预测这些字段。有关更多详细信息,请查看查看并应用通用字段。然后,您可以接受正确的预测,也可以拒绝错误的预测。每个操作都会发送训练信号,这些训练信号将用于增强平台对通用字段的理解。
对于离线训练的预训练通用字段,例如货币数量、URL 等,从改进的角度来看,拒绝或更正错误的预测比接受正确的预测更重要。
对于在平台中实时训练的通用字段,接受正确的预测和拒绝错误的预测同样重要。但是,如果您没有找到错误预测的字段,则不必一直接受这些类型的每个唯一通用字段的许多正确示例。例如,Example Bank是一个独特的组织通用字段。
要审核通用字段预测,请将鼠标悬停在预测上,系统将显示通用字段审核模态,如下图中的示例所示。如要接受,请选择“确认” ,要拒绝,请选择“关闭” 。
您可以独立训练通用字段和标签。查看消息的标签并不意味着您必须查看该消息中的通用字段。但是,最好同时进行这两项操作,因为这样可以在模型训练时最有效地利用时间。
要了解平台在预测为数据集启用的每个通用字段时的效果如何,尤其是可训练字段,请查看通用字段的验证。
应用常规字段
要将通用字段应用于平台可能未预测到的某些文本,用户只需要高亮显示“测试”的部分,就像您要复制它时一样。
系统将显示一个下拉菜单,如下图所示,其中包含您为数据集启用的所有通用字段。请选择正确的快捷键进行应用,或者按相应的键盘快捷方式。
每个通用字段的默认键盘快捷方式是其开头的字母。如果多个通用字段以相同字母开头,则系统会随机将一个通用字段分配给另一个通用字段。
应用通用字段后,系统将以颜色高亮显示该通用字段,并带有粗体边框,如下图所示。每个通用字段类型都有其自己的特定颜色。
最佳实践
- 不要拆分单词。
- 不要对段落进行部分注释。
不拆分单词
请确保没有拆分单词,因为高亮显示的通用字段应覆盖整个单词或相关的多个单词,而不仅仅是单词的一部分。查看下图,了解错误应用程序和正确应用程序的示例。
不要对段落进行部分批注
标注时,如果用户为消息分配一个标签(即标签),则他们应应用可应用于该消息的所有标签,否则,您将告知模型这些标签不应适用。对于通用字段,情况也是如此,不同之处在于在段落级别而不是整个消息上审核或应用通用字段。
消息中的段落由新行分隔。 电子邮件消息的主题行被视为其自己的单个段落。
如果您查看或应用其中一个通用字段,请确保查看或应用所有通用字段类型中段落中的所有通用字段。在段落中应用、接受或拒绝通用字段意味着平台会将该段落视为已由通用字段角度审核。因此,请务必接受或拒绝该段落中的所有预测。
以下示例显示了电子邮件消息中已审核的不同段落。
下图中描述的消息显示了同一示例,其中用户没有接受或拒绝单个段落中的所有通用字段预测。这是不正确的,因为模型会将货币数量通用字段错误地视为不正确的预测。
简介
平台会在“验证” 页面中显示已启用常规字段的验证统计信息、警告和建议操作,这与分类中的每个标签的显示非常类似。
要查看这些内容,请导航到“验证”页面,然后选择顶部的“常规字段”选项卡,如下图所示。
通用字段验证的工作原理
平台验证其正确预测常规字段能力的流程与验证标签的流程非常相似。
首次将消息添加到数据集时,系统会将消息 (80:20) 拆分为训练集和测试集(根据每条消息的消息 ID 随机确定)。 已分配的任何通用字段(已接受或更正的预测)都将属于训练集或测试集,具体取决于最初将其所在消息分配到的集。
有时,一条消息中可能包含大量常规字段,并且无法保证消息是在训练集还是测试集中,因此您可能会看到每个消息集中的常规字段数量存在巨大差异。
在某些情况下,所有分配的常规字段都可能落入训练集。 由于测试集中至少需要一个示例才能计算验证分数,因此此常规字段将需要分配更多示例,直到测试集中出现一些示例。
计算分数
在具有足够训练数据的情况下,每个常规字段的单独精度和召回率统计信息的计算方式与标签的方式非常相似:
精度= 匹配的常规字段数 / 预测的常规字段数
召回率 = 匹配的常规字段数 / 实际常规字段数
“匹配的通用字段”是指平台已准确预测通用字段的位置(即 无部分匹配项)
F1 分数只是精度和召回率的调和平均值。
可训练的常规字段
值得注意的是,此页面中显示的精度和召回率统计信息对于可在平台中实时训练的通用字段最有用,如上面第二列所示,因为为这些通用字段类型审核的所有通用字段将直接影响平台预测这些通用字段的能力。
因此,应尽可能接受正确的常规字段并更正或拒绝错误的常规字段。
预训练常规字段
对于通过模板字段类型预训练的通用字段,为了使验证统计信息准确反映性能,用户需要确保接受大量的正确预测,并更正错误的预测。
如果它们只是为了纠正错误的预测,则训练集和测试集将人为地仅包含平台难以预测一般字段的实例,而不包含平台能够更好地预测的实例。 由于更正这些常规字段的错误预测不会导致这些常规字段的实时更新(它们会定期离线更新),因此验证统计信息可能在一段时间内不会发生变化,并且可能会被人为地降低。
接受大量的正确预测可能并不总是方便,因为这些通用字段通常都能被正确预测。但是,如果这些通用字段的大多数预测都是正确的,则您可能无需担心“验证”页面中其精度和召回率状态的统计信息。
了解摘要统计信息
摘要统计信息(平均精度、平均召回率和平均 F1 分数)是每个单独的常规字段分数的简单平均值。
与标签一样,平均分数中仅包含具有足够训练数据的常规字段。 对于没有足够的训练数据而无法包含在内的实体,其名称旁边会显示警告图标。
指标
“通用字段验证”页面显示通用字段的平均性能统计信息,以及显示每个通用字段的平均 F1 分数与其训练集大小的图表。该图表还会标记存在黄色或红色性能警告的通用字段。
显示的常规字段性能统计信息如下:
- F1 平均分数:所有常规字段的 F1 分数平均值,其中包含足够的数据以准确评估性能。 此分数同等衡量召回率和精度。 F1 分数较高的模型产生的误报和漏报较少。
- 平均精度:所有常规字段的精度分数平均值,其中有足够的数据来准确评估性能。 精度高的模型产生的误报较少。
- 平均召回率:所有常规字段的召回率分数平均值,其中包含足够的数据以准确评估性能。 召回率高的模型产生的漏报较少。
了解一般现场性能
“验证” 页面的“指标”选项 卡中显示的通用字段性能图表,提供每个通用字段性能的即时可视化指示。有关更多详细信息,请查看上一节。
要使通用字段显示在此图表上,该通用字段必须在验证期间平台使用的训练集中至少存在 20 个固定示例。为确保做到这一点,用户应确保为每个通用字段至少提供来自 25 条不同消息的 25 个(通常更多)已固定示例。
根据模型对常规字段运行方式的理解,每个常规字段都将绘制为三种颜色之一。 下面,我们将解释这些含义:
一般外地绩效指标
- 蓝色- 在图表上绘制为蓝色的那些通用字段具有良好的性能级别。这取决于许多影响因素,包括示例的数量和类型,以及该通用字段的平均精度
- 黄色- 绘制为黄色的通用字段的性能稍差。它们的平均精度可能相对较低,或者训练示例数量较少。这些通用字段需要一些训练/更正以提高其性能
- 红色- 绘制为红色的通用字段是效果不佳的通用字段。它们的平均精度可能非常低或训练示例不足。这些通用字段可能需要进行更多的训练/更正,才能将其性能提升到令人满意的水平
个人常规战地表现
用户可以从通用字段筛选器栏中选择单个通用字段(或通过在“所有通用字段”图表上选择通用字段的图表),以查看通用字段的性能统计信息。
特定的通用字段视图还将显示任何性能警告和推荐的次最佳操作建议,以帮助提高其性能。
通用字段视图将显示通用字段的平均 F1 分数及其精度 和召回率。
概述
与训练标签类似,训练常规字段是用户使用各种训练模式教会平台哪些常规字段适用于给定消息的过程。
与标签一样,“ 学习” 、“检查” 和“缺失” 模式可用于帮助训练和提高通用字段的性能,您可通过以下方式访问这些模式:1) 在“探索” 页面上使用训练下拉列表;或 2) 验证 页面的“通用字段” 选项卡。
常规字段建议操作
如果特定通用字段存在性能警告,平台会按优先级顺序推荐它认为有助于解决该警告的下一个最佳操作。当您从分类或“所有通用字段”图表中选择特定通用字段时,将显示该字段。
下一步最佳操作建议充当链接,您可以选择这些建议以直接转到平台建议的训练视图,从而提高通用字段的性能。系统会按照优先级最高的操作,对建议进行智能排序,以改进首先列出的通用字段。
这是帮助您了解通用字段性能的最重要工具,在尝试提高通用字段性能时应定期将其用作指南。
常规外业训练模式
下表汇总了平台建议每种常规现场训练模式的时间:
| 示教通用字段 | 检查通用字段 | 缺少通用字段 |
|
|
|
使用“示教常规” 字段
使用“学习通用字段”可提高通用字段性能,因为会向模型提供有关不确定消息的新信息,而不是已对其进行高度置信度预测的消息。
在以下情况下,平台会建议训练通用字段:
- 通用字段旁边显示性能警告,如下图所示。未提供 25 个示例即会出现这种情况。
- 给定通用字段的 F1 分数较低。
- 通用字段的文本中可能并不总是有明显的上下文,或者给定类型的通用字段值存在很多变化。
下图包含一个在“示教通用字段”模式下训练通用字段的示例:
使用“检查常规字段”
使用“检查常规字段”有助于识别审核集中的不一致之处,同时通过确保模型具有正确且一致的示例来进行预测,从而提高模型对常规字段的理解。 这将提高对常规字段的召回率。
在以下情况下,平台建议检查通用字段:
- 召回率较低,但精度较高。
- 平台做出的预测非常准确,但很多时候在应用了通用字段的情况下,它并不能捕获这些示例。
有关通用字段验证计算的更多详细信息,请查看通用字段验证。
使用缺失的常规字段
使用缺少的常规字段有助于在审核集中查找应具有选定常规字段但实际上没有的示例。 它还有助于识别部分注释的消息,这些消息可能不利于模型预测一般字段的能力。 这将提高一般字段的精度,并确保模型具有用于预测的正确且一致的示例。
在以下情况下,平台会建议漏掉通用字段:
- 召回率较高,但精度较低。
- 您经常错误地预测通用字段,但是当您正确预测通用字段时,您会捕获许多本应存在的示例。
有关通用字段验证计算的更多详细信息,请查看通用字段验证页面。
- 您必须作为 Automation Cloud 用户分配IXP 项目管理员角色,或作为旧版用户分配“修改数据集”权限。
- 您可以通过“生成式提取”字段注释体验中的“数据集”设置或“管理通用字段”选项构建自定义正则表达式通用字段,如“生成式提取”页面中的详细说明。
自定义正则表达式通用字段
使用自定义正则表达式通用字段提取具有已知重复结构的文本并为其设置格式,例如 ID 或参考编号。
对于变化不大的简单、结构化通用字段,这是一个有用的选项。如果通用字段变化很大并且上下文对预测有很大影响,则基于机器学习的通用字段将是正确的选择。您可以在 Communications Mining™ 的任何数据集中使用两者的组合。
更广泛的正则表达式(即一组用于定义通用字段的规则)也可以用作自定义通用字段的基础。该方法通过 Communications Mining 中的训练将规则与基于机器学习的上下文优化相结合,创建复杂的自定义通用字段。这可提供最佳性能,并对为自动化提取的值进行必要的限制。
自定义正则表达式模板
自定义正则表达式通用字段由具有正则表达式数据类型的字段类型组成,而该字段类型又具有一个或多个自定义正则表达式模板。 每个模板都表示一种提取(并格式化)通用字段的方法。
这些模板组合在一起,提供了一种灵活而强大的方法来涵盖相同通用字段类型的多种表示。
模板由以下部分组成:
- regex(正则表达式),描述了要提取为通用字段的文本范围需要满足的约束。
- 格式,表示如何将提取的字符串规范化为更标准的格式。
例如,如果您的客户 ID 是ID单词后跟 7 个数字或包含 9 个字符的字母数字字符串。下图显示了两个模板的外观:
预先输入验证
Regex ID\d{}将显示一条消息,指出您应该修复模板的任何问题,以查看通用字段提取内容:
提取内容预览
可以在文本上测试自定义正则表达式模板,以确保其按预期运行。 使用模板提取的任何常规字段都将显示在一个列表中,其中包含其值以及开始字符和结束字符的位置。
\d{4}且格式为ID-{$} ,则以下测试字符串将显示一次提取:
正则表达式
正则表达式是用于在文本中提取通用字段的模式。 请查看语法文档。
命名捕获组可用于标识所提取字符串的特定部分,以便进行后续格式化。 捕获组的名称在所有模板中均应唯一,并且应仅包含小写字母或数字。
Formatting
可以提供格式设置,以对提取的常规字段进行后处理。
默认情况下,不应用任何格式,平台返回的字符串将是正则表达式提取的字符串。 但是,如果需要,可以使用以下规则定义更复杂的转换。
变量
$符号作为前缀。 请注意, $符号本身表示完整的正则表达式匹配。
{和}大括号括起来。
ID-前缀,则正则表达式和格式将为:
ID-1234567字符串操作
&符号连接字符串。
| 正则表达式 | (?P<id1>\b\d{3}\b)|(?P<id2>\b\d{4}\b) |
| Formatting | {$id1 & "-" & $id2} |
| 文本 | 第一个 ID 为 123,第二个 ID 为 4567 |
| 平台返回的常规字段 | 123-4567 |
功能
某些函数也可以在格式化中使用,以转换提取的字符串。 函数名称及其签名受 Excel 启发。
上部
将提取的范围中的所有字符转换为大写:
| 正则表达式 | \w{3} |
| Formatting | {upper($)} |
| 文本 | abc |
| 平台返回的常规字段 | ABC |
降低
将提取的范围中的所有字符转换为小写:
| 正则表达式 | \w{3} |
| Formatting | {lower($)} |
| 文本 | AbC |
| 平台返回的常规字段 | abc |
属性
将提取的跨度大写:
| 正则表达式 | \w+\s\w+ |
| Formatting | {proper($)} |
| 文本 | 阿尔伯特·爱因斯坦 |
| 平台返回的常规字段 | 阿尔伯特·爱因因 |
填充
使用给定字符将提取的范围填充至给定大小。
函数参数:
- 包含要填充的字符的文本
- 填充字符串的大小
- 用于填充的字符
| 正则表达式 | \d{2,5} |
| Formatting | {pad($, 5, "0")} |
| 文本 | 123 |
| 平台返回的常规字段 | 00123 |
替换
将某个字符替换为其他字符。
函数参数:
- 包含要替换的字符的文本
- 要替换的字符
- 旧字符应替换成的内容
| 正则表达式 | ab |
| Formatting | {substitute($, "a", "12")} |
| 文本 | ab |
| 平台返回的常规字段 | 12b |
左侧
返回范围中的前 n 个字符。
函数参数:
- 包含要提取的字符的文本
- 要返回的字符数
| 正则表达式 | \w{4} |
| Formatting | {left($, 2)} |
| 文本 | ABCD |
| 平台返回的常规字段 | AB |
右侧
返回范围中的最后 n 个字符。
函数参数:
- 包含要提取的字符的文本
- 要返回的字符数
| 正则表达式 | \w{4} |
| Formatting | {right($, 2)} |
| 文本 | ABCD |
| 平台返回的常规字段 | CD |
中
返回范围中指定位置之后的 n 个字符。
函数参数:
- 包含要提取的字符的文本
- 要返回的第一个字符的位置
- 要返回的字符数
| 正则表达式 | \w{5} |
| Formatting | {mid($, 2, 3)} |
| 文本 | ABCDE |
| 平台返回的常规字段 | BCD |
- 定义和设置字段
- 了解常规字段
- 常规字段的类型
- 可训练和不可训练通用字段
- 通用字段的预构建模板
- 通用字段的标准模板字段类型
- 管理通用字段
- 在新数据集上启用常规字段
- 启用、更新和禁用现有数据集的常规字段
- 启用通用字段
- 更新通用字段
- 禁用通用字段
- 创建新的常规字段
- Field types
- 常规字段标题
- 在新数据集上启用常规字段
- 管理现有数据集的通用字段
- 常规字段筛选
- 应用高级预测筛选器
- 通用字段栏
- 添加通用字段筛选器
- 合并常规字段栏筛选器并添加常规字段筛选器
- 结合常规字段筛选器和按常规字段排序进行训练
- 查看并应用常规字段
- 识别一般字段预测
- 对可训练通用字段进行通用字段预测
- 一般字段置信度分数
- 接受和拒绝常规字段预测
- 应用常规字段
- 最佳实践
- 常规字段的验证
- 简介
- 通用字段验证的工作原理
- 计算分数
- 可训练的常规字段
- 预训练常规字段
- 了解摘要统计信息
- 指标
- 了解一般现场性能
- 个人常规战地表现
- 提高常规字段性能
- 概述
- 常规字段建议操作
- 常规外业训练模式
- 使用“示教常规” 字段
- 使用“检查常规字段”
- 使用缺失的常规字段
- 构建自定义正则表达式常规字段
- 自定义正则表达式通用字段
- 自定义正则表达式模板
- 预先输入验证
- 提取内容预览
- 正则表达式
- Formatting
- 变量
- 字符串操作
- 功能
- 上部
- 降低
- 属性
- 填充
- 替换
- 左侧
- 右侧
- 中