- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- ContentValidationData Class
- EvaluatedBusinessRulesForFieldValue Class
- EvaluatedBusinessRuleDetails Class
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- FieldValue Class
- FieldValueResult Class
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- Rule Class
- RuleResult Class
- RuleSet Class
- RuleSetResult Class
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- FieldValueDetails Class
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- 基本数据点类 - 预览
- 提取结果处理程序类 - 预览
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding
- 智能 OCR
- 发行说明
- 关于“智能 OCR”活动包
- 项目兼容性
- 加载分类
- 将文档数字化
- 分类文档作用域
- 基于关键词的分类器
- Document Understanding 项目分类器
- 智能关键词分类器
- 创建文档分类操作
- 创建文档验证工件
- 检索文档验证工件
- 等待文档分类操作然后继续
- 训练分类器范围
- 基于关键词的分类训练器
- 智能关键词分类训练器
- 数据提取作用域
- Document Understanding 项目提取程序
- Document Understanding 项目提取程序训练器
- 基于正则表达式的提取程序
- 表单提取程序
- 智能表单提取程序
- 文档脱敏
- 创建文档验证操作
- 等待文档验证操作然后继续
- 训练提取程序范围
- 导出提取结果
- 机器学习提取程序
- 机器学习提取程序训练器
- 机器学习分类器
- 机器学习分类训练器
- 生成分类器
- 生成式提取程序
- 配置身份验证
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式

Document Understanding 活动
基于正则表达式的提取程序
UiPath.IntelligentOCR.Activities.DataExtraction.RegexBasedExtractor
描述
用于创建和使用自定义的基于正则表达式的提取程序来从文档中提取信息。该活动只能与数据提取程序作用域活动一起使用。
This activity cannot work with set or boolean fields.
项目兼容性
Windows - Legacy | Windows
配置
设计器面板
配置表达式- 打开“配置正则表达式”向导。
属性面板
常见
- “显示名称”- 活动的显示名称。
输入
- Configuration - Specifies the configuration value for the extractor as a
JSONescaped string. Use the extractor wizard to generate the configuration. You can keep the configuration in the Properties panel, as a string, or you can define it by using the wizard and bind it to a variable. It is advisable to edit the Configuration field by using the wizard and not the Properties panel. - Timeout - Specifies the timeout value for any Regex search, in milliseconds. A timeout of
0, or negative, is interpreted as infinite. The default value is2000. - UseVisualAlignment - If selected, the regular expressions are applied to a text version generated based on visual word alignments (a visual word alignment includes words separated by a single space character, lines separated by a single newline character, and pages separated by two lines characters). The default value is False. This option can be used for complex layouts where it is easier for users to write regular expressions based on how words are visually organized on lines, ignoring any sentence, paragraph, or layout group otherwise identified in the document.
其他
- “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
使用配置正则表达式向导
-
在“数据提取作用域”活动中,向工作流添加“基于正则表达式的提取程序”活动。
-
选择“配置表达式” ,配置正则表达式。系统将打开“向导”窗口。
图 1.“配置正则表达式”向导概览

-
展开文档类型条目,以查看所有已定义的字段,并开始配置您的正则表达式。系统会自动从项目的分类中读取文档类型及其相应字段。“正则表达式”配置选项可用于分类中的每个字段。检查您可能会在向导中遇到的以下配置选项:
- 您可以拥有一种文档类型,当您展开该文档类型时,系统会显示一个常规字段。对于简单字段,只能使用“配置正则表达式”向导定义单个正则表达式。当您选择该字段旁边的“编辑”时,该向导会打开。
图 2. “配置正则表达式”向导中定义的常规字段的文档类型

- 您可以使用一种文档类型,在展开该文档类型时,系统会显示一个表格字段,其中显示表格的配置选项,例如适用于整个表格内容的“表达式” ,或适用于各个行的“表达式” 。查看以下列表,了解可用于表格字段配置的多个设置和选项:
- “表格值正则表达式”可用于捕获整个表格区域。如果在“表格”字段行中未添加任何值,则系统会将文档的整个文本内容视为进行后续表格处理。
- “行值正则表达式”可用于捕获给定表格捕获中的整个行。如果“行”字段行中未添加任何值,则按行尾分隔表格区域。从此刻开始,系统会将每个捕获的值视为要应用列提取的行。
- “列值正则表达式”可用于从每个捕获的行中捕获特定列的值。
图 3.“配置正则表达式”向导中定义的表格字段的文档类型

使用表格、行和列正则表达式的场景
查看以下可能发生的场景,以使用可用的表格正则表达式选项:
- 如果您将“表格正则表达式”和“行正则表达式”字段留空,则文档文本版本中的所有行都将用于应用“列级别正则表达式”来标识单元格值。
- 如果您定义了一个正则表达式来捕获表格区域,但将“行正则表达式”留空,则使用每个“列正则表达式”单独处理表格中的所有行,以捕获单元格值。
- 如果您将“表格正则表达式”留空,但定义了“行正则表达式”,则使用“行正则表达式”捕获的所有文本,并应用“列正则表达式”捕获每一行的单元格值。
- 如果您同时填写“表格”和“行正则表达式”,则该活动将应用“表格正则表达式”来标识表格字符串,然后应用“行正则表达式”来标识每一行,再应用“列级别正则表达式”来捕获单元格值。
-
在“表达式”字段中添加您的正则表达式。您可以选择在“表达式”字段中写入整个正则表达式,也可以使用“编辑”选项构建它。
重要提示:对于您定义的任何正则表达式,请确保至少有一个捕获组。只有表达式中已捕获的部分可用于报告值。
-
选择“正则表达式选项”列中的下拉列表。您可以在该多选选项中设置“正则表达式选项”。
您可以从以下选项中进行选择:
-
“CultureInvariant” - 指定忽略语言文化差异。
-
ECMAScript - 为表达式启用 ECMA(欧洲计算机制造商协会)脚本合规行为。此值只能与“忽略大小写”和“多行”选项一起使用。
-
“显式捕获” - 指定唯一有效的捕获是显式命名或编号并定义为
(?<name> subexpression)的组。任何未命名的括号都将被忽略。 -
“忽略大小写” - 指定搜索不区分大小写。
-
“忽略模式空白” - 从定义的模式中消除未转义的空格,并启用标有
#(标签符号)的注释。此选项不适用于标记单个正则表达式语言元素开头的字符类、数字量词或令牌。 -
“单行” - 指定在单行中启动搜索。点
(.)匹配所有字符,包括异常\n。 -
“多行” - 指定在多行中启动搜索。对于此选项,特殊字符
^和$可匹配任何行的开头和结尾。 -
“从右到左” - 指定从右到左执行搜索。
备注:有关可以使用的正则表达式选项的更多信息,请访问正则表达式选项枚举。
-
图 4.展开的“正则表达式选项”下拉列表,显示可用选项

正则表达式编辑器向导
-
选择“编辑”以编辑该字段的选项和正则表达式的格式。“正则表达式构建器”向导将打开。
图 5. “正则表达式构建器”向导概览

-
在“测试文本”字段中输入所需的文本。这是您要根据您选择的搜索条件应用正则表达式的文本。之后,在正则表达式的“值”字段中插入一个值,该值也会在“测试文本”字段中高亮显示。
图 6.在“测试文本”字段中输入文本,并使用“值”字段高亮显示其中的某个值

-
从下拉列表中选择一种正则表达式类型。这将设置正则表达式以匹配以下特征之一:
- “文字” - 匹配您指定的确切字符。此选项区分大小写。
- “数字” - 匹配数字。
- “其中之一” - 匹配集合中存在的单个字符。
- “非其中之一” - 匹配集合中不存在的单个字符。
- “任何内容” - 匹配除
\n以外的任何字符。 - “任何单词字符” - 匹配任何字母和数字。
- “空格” - 匹配一个空格。
- “开头为” - 从行开始的位置开始搜索。
- “结尾为” - 在行尾处开始搜索。
- “高级” - 需要自定义表达式。
- “电子邮件” - 匹配电子邮件地址。
- “URL” - 匹配 URL。
- “美国日期” - 匹配美国日期格式。
- “美国电话号码” - 匹配美国电话号码格式。
图 7. 显示正则表达式可用特征的下拉列表
备注:有关.NET 中正则表达式的更多信息,请访问 .NET 正则表达式。
-
使用“值”字段以写入正则表达式的值。
-
从“量词”下拉列表中选择一个量词。您可以从以下选项中进行选择:
- “精确” - 精确匹配前面指定的元素次数。默认情况下,它设置为
1。 - “任何(0 次或更多)” - 匹配前面的元素零次或多次,但次数越少越好。
- “至少一次(1 次或更多)” - 匹配前面的元素一次或多次。
- “零次或一次” - 匹配前面的元素零次或一次,但次数越少越好。
- “在 x 次和 y 次之间” - 匹配前面的元素的次数为
x次和y次之间,其中x和y是整数,但次数越少越好。
- “精确” - 精确匹配前面指定的元素次数。默认情况下,它设置为
-
要编辑字段,可以使用以下选项:
- 选择添加
添加额外的正则表达式字段。 - 选择上移
和下移
以在层次结构中上下移动字段。 - 选择删除
以删除字段。
- 选择添加
-
如果要提取该特定字段,请选中“捕获”选项的复选框。
-
“完整表达式”字段会准确显示您自定义的整个表达式。
-
从“正则表达式选项”下拉列表中选择一个或多个选项。
图 8.“正则表达式选项”下拉列表中的可用选项

-
完成所有配置后,选择“保存”以退出“编辑”模式。
-
再次选择“保存” ,以关闭向导。
Document Understanding 集成
基于正则表达式的提取程序活动是 Document Understanding 解决方案的一部分。