Document Understanding 活动

基于正则表达式的提取程序

UiPath.IntelligentOCR.Activities.DataExtraction.RegexBasedExtractor

描述

用于创建和使用自定义的基于正则表达式的提取程序来从文档中提取信息。该活动只能与数据提取程序作用域活动一起使用。

备注：

This activity cannot work with set or boolean fields.

项目兼容性

Windows - Legacy | Windows

配置

设计器面板

配置表达式- 打开“配置正则表达式”向导。

属性面板

常见

“显示名称”- 活动的显示名称。

输入

Configuration - Specifies the configuration value for the extractor as a JSON escaped string. Use the extractor wizard to generate the configuration. You can keep the configuration in the Properties panel, as a string, or you can define it by using the wizard and bind it to a variable. It is advisable to edit the Configuration field by using the wizard and not the Properties panel.
Timeout - Specifies the timeout value for any Regex search, in milliseconds. A timeout of 0, or negative, is interpreted as infinite. The default value is 2000.
UseVisualAlignment - If selected, the regular expressions are applied to a text version generated based on visual word alignments (a visual word alignment includes words separated by a single space character, lines separated by a single newline character, and pages separated by two lines characters). The default value is False. This option can be used for complex layouts where it is easier for users to write regular expressions based on how words are visually organized on lines, ignoring any sentence, paragraph, or layout group otherwise identified in the document.

其他

“私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。

使用配置正则表达式向导

在“数据提取作用域”活动中，向工作流添加“基于正则表达式的提取程序”活动。
选择“配置表达式” ，配置正则表达式。系统将打开“向导”窗口。

图 1.“配置正则表达式”向导概览
展开文档类型条目，以查看所有已定义的字段，并开始配置您的正则表达式。系统会自动从项目的分类中读取文档类型及其相应字段。“正则表达式”配置选项可用于分类中的每个字段。检查您可能会在向导中遇到的以下配置选项：
- 您可以拥有一种文档类型，当您展开该文档类型时，系统会显示一个常规字段。对于简单字段，只能使用“配置正则表达式”向导定义单个正则表达式。当您选择该字段旁边的“编辑”时，该向导会打开。
图 2. “配置正则表达式”向导中定义的常规字段的文档类型
- 您可以使用一种文档类型，在展开该文档类型时，系统会显示一个表格字段，其中显示表格的配置选项，例如适用于整个表格内容的“表达式” ，或适用于各个行的“表达式” 。查看以下列表，了解可用于表格字段配置的多个设置和选项：
  - “表格值正则表达式”可用于捕获整个表格区域。如果在“表格”字段行中未添加任何值，则系统会将文档的整个文本内容视为进行后续表格处理。
  - “行值正则表达式”可用于捕获给定表格捕获中的整个行。如果“行”字段行中未添加任何值，则按行尾分隔表格区域。从此刻开始，系统会将每个捕获的值视为要应用列提取的行。
  - “列值正则表达式”可用于从每个捕获的行中捕获特定列的值。
图 3.“配置正则表达式”向导中定义的表格字段的文档类型

使用表格、行和列正则表达式的场景

查看以下可能发生的场景，以使用可用的表格正则表达式选项：

如果您将“表格正则表达式”和“行正则表达式”字段留空，则文档文本版本中的所有行都将用于应用“列级别正则表达式”来标识单元格值。
如果您定义了一个正则表达式来捕获表格区域，但将“行正则表达式”留空，则使用每个“列正则表达式”单独处理表格中的所有行，以捕获单元格值。
如果您将“表格正则表达式”留空，但定义了“行正则表达式”，则使用“行正则表达式”捕获的所有文本，并应用“列正则表达式”捕获每一行的单元格值。
如果您同时填写“表格”和“行正则表达式”，则该活动将应用“表格正则表达式”来标识表格字符串，然后应用“行正则表达式”来标识每一行，再应用“列级别正则表达式”来捕获单元格值。

在“表达式”字段中添加您的正则表达式。您可以选择在“表达式”字段中写入整个正则表达式，也可以使用“编辑”选项构建它。

重要提示：
对于您定义的任何正则表达式，请确保至少有一个捕获组。只有表达式中已捕获的部分可用于报告值。
选择“正则表达式选项”列中的下拉列表。您可以在该多选选项中设置“正则表达式选项”。

您可以从以下选项中进行选择：
- “CultureInvariant” - 指定忽略语言文化差异。
- ECMAScript - 为表达式启用 ECMA（欧洲计算机制造商协会）脚本合规行为。此值只能与“忽略大小写”和“多行”选项一起使用。
- “显式捕获” - 指定唯一有效的捕获是显式命名或编号并定义为(?<name> subexpression)的组。任何未命名的括号都将被忽略。
- “忽略大小写” - 指定搜索不区分大小写。
- “忽略模式空白” - 从定义的模式中消除未转义的空格，并启用标有# （标签符号）的注释。此选项不适用于标记单个正则表达式语言元素开头的字符类、数字量词或令牌。
- “单行” - 指定在单行中启动搜索。点 (.) 匹配所有字符，包括异常 \n。
- “多行” - 指定在多行中启动搜索。对于此选项，特殊字符 ^ 和 $ 可匹配任何行的开头和结尾。
- “从右到左” - 指定从右到左执行搜索。
  
  备注：
  有关可以使用的正则表达式选项的更多信息，请访问正则表达式选项枚举。

图 4.展开的“正则表达式选项”下拉列表，显示可用选项

正则表达式编辑器向导

选择“编辑”以编辑该字段的选项和正则表达式的格式。“正则表达式构建器”向导将打开。

图 5. “正则表达式构建器”向导概览
在“测试文本”字段中输入所需的文本。这是您要根据您选择的搜索条件应用正则表达式的文本。之后，在正则表达式的“值”字段中插入一个值，该值也会在“测试文本”字段中高亮显示。

图 6.在“测试文本”字段中输入文本，并使用“值”字段高亮显示其中的某个值
从下拉列表中选择一种正则表达式类型。这将设置正则表达式以匹配以下特征之一：
- “文字” - 匹配您指定的确切字符。此选项区分大小写。
- “数字” - 匹配数字。
- “其中之一” - 匹配集合中存在的单个字符。
- “非其中之一” - 匹配集合中不存在的单个字符。
- “任何内容” - 匹配除 \n 以外的任何字符。
- “任何单词字符” - 匹配任何字母和数字。
- “空格” - 匹配一个空格。
- “开头为” - 从行开始的位置开始搜索。
- “结尾为” - 在行尾处开始搜索。
- “高级” - 需要自定义表达式。
- “电子邮件” - 匹配电子邮件地址。
- “URL” - 匹配 URL。
- “美国日期” - 匹配美国日期格式。
- “美国电话号码” - 匹配美国电话号码格式。
图 7. 显示正则表达式可用特征的下拉列表

备注：
有关.NET 中正则表达式的更多信息，请访问 .NET 正则表达式。
使用“值”字段以写入正则表达式的值。
从“量词”下拉列表中选择一个量词。您可以从以下选项中进行选择：
- “精确” - 精确匹配前面指定的元素次数。默认情况下，它设置为 1。
- “任何（0 次或更多）” - 匹配前面的元素零次或多次，但次数越少越好。
- “至少一次（1 次或更多）” - 匹配前面的元素一次或多次。
- “零次或一次” - 匹配前面的元素零次或一次，但次数越少越好。
- “在 x 次和 y 次之间” - 匹配前面的元素的次数为 x 次和 y 次之间，其中 x 和 y 是整数，但次数越少越好。
要编辑字段，可以使用以下选项：
1. 选择“添加”以添加额外的正则表达式字段。
2. 选择上移和下移在层次结构中上下移动字段。
3. 选择“删除” 。单击“删除字段”。
如果要提取该特定字段，请选中“捕获”选项的复选框。
“完整表达式”字段会准确显示您自定义的整个表达式。
从“正则表达式选项”下拉列表中选择一个或多个选项。

图 8.“正则表达式选项”下拉列表中的可用选项
完成所有配置后，选择“保存”以退出“编辑”模式。
再次选择“保存” ，以关闭向导。