- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- ContentValidationData Class
- EvaluatedBusinessRulesForFieldValue Class
- EvaluatedBusinessRuleDetails Class
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- FieldValue Class
- FieldValueResult Class
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- Rule Class
- RuleResult Class
- RuleSet Class
- RuleSetResult Class
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- FieldValueDetails Class
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- Document Understanding 数字化器
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding
- 智能 OCR
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式

Document Understanding 活动
UiPath.IntelligentOCR.Activities.TaxonomyManagement.LoadTaxonomy
taxonomy.json
文件转变为可进一步与其他活动配合使用的变量。
常见
- “显示名称”- 活动的显示名称。
其他
- “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
输出
-
分类 - 要加载的分类,存储在
DocumentTaxonomy
变量中。您随后可在接收分类作为输入的活动中使用该输出。重要提示:如果您使用的是 Intel Xe GPU 且分类管理器未正确显示,我们建议将图形驱动程序更新到最新版本。有关详细信息,请参阅此页面。
Serialize()
:对DocumentTaxonomy
对象调用Serialize()
方法,该方法将返回对象的JSON
表示,以便存储和检索以供日后使用。Deserialize(String)
:DocumentTaxonomy.Deserialize(jsonString)
静态扩展返回一个DocumentTaxonomy
对象,该对象与作为参数传递的 JSON 编码数据结合使用。GetFields(String)
:对DocumentTaxonomy
对象执行调用后,使用DocumentTypeId
字符串调用的GetFields()
方法将返回在该文档类型中定义的字段列表。
分类管理器可用于创建和编辑特定于当前自动化项目的分类文件。该分类文件包含由用户定义并按“组”和“类别”分类的文档类型。
您可以使用“加载分类”活动将分类文件转换为 .NET 数据类型,然后将其作为输入传递给以下活动:
只有在安装 v1.6.0 或更高版的 UiPath.IntelligentOCR.Activities 包作为项目依赖项后,才能访问分类管理器。包安装完成后,“向导”部分的功能区中会显示“分类管理器”按钮。
第一步是创建组或文档类型。两者之间的区别在于,组涉及层次结构,而文档类型可以创建为单个文件。复杂的项目意味着创建组、类别和文档类型,而简单的项目只能要求创建一种或两种文档类型。
创建组
创建组时,要为在组内创建的文档类型也创建类别。这可以通过点击“组”按钮来完成。选择组名称后,可以使用“保存”按钮或使用 Enter 键来保存该名称。
创建类别
定义并选择组后,您可以使用其定义的按钮在组内创建“类别”和/或“文档类型”。选择“保存”或使用 Enter 键以保存配置。
创建文档类型
“文档类型”可以作为组的一部分或单个文档进行创建。在组内创建时,请确保选中该组,然后选择“文档类型” 。
如果将“文档类型”创建为单个文件,请确保未选择任何组,然后选择“文档类型” 。选择“文档类型”后,输入文件的名称,然后选择“保存” 。
您可通过选择已创建的“文档类型”来更改其名称、将其唯一 ID 复制到剪贴板或将其重新分配给另一个组或类别。您还可以输入文档类型的代码。
Group.Category.Document
类型的结构,可以复制到剪贴板。 文档类型 ID 代码是一项可选功能,可用于查找文档或将文档映射到您在分类中定义的文档类型。
配置文档类型的显示设置
- OCR 可信度阈值:在文档类型级别设置最低可信度阈值。
当在验证站点中显示文档时,字段的OCR 置信度和提取置信度级别必须高于您在分类管理器中配置的阈值。
OCR 可信度阈值的默认值为 90%。
- 日期显示格式:针对文档类型显示的日期格式。
默认值为
YYYY-MM-DD
。 - 数字小数分隔符:要用于文档类型的数字小数分隔符。
- 千位数分隔符:要用于文档类型的千位数分隔符。
创建字段
选择“文档类型”后, “字段”按钮将可用以创建新字段。选择字段按钮后,您可以为字段输入名称,然后从下拉列表中选择其类型。
“字段”类别有两个选项卡: “详细信息”和“规则” 。详细信息选项卡提供有关所选字段的信息,例如字段名称、分配的热键或字段类型,而规则选项卡则允许您创建字段的提取结果需要满足的规则。
提供以下字段类型:
- 文本
- 数字
- 日期 - 选择此类型后,便可指定预期格式(可选)。
备注:
如果要添加预期格式,请使用符合 MSDN (Microsoft Developer Network) 的格式。
提取程序可能会使用此格式,并且在尝试将日期解析为日、月和年等组成部分时,数据提取作用域活动也会使用此格式。
- 名称
- Address
- 设置 - 选择此类型后,即可从预先建立的列表中向字段添加多个值。
- 布尔值
- 表格 - 选择此类型后,便可编辑表格结构,其中包括添加列及编辑列名称和类型。
详细信息选项卡
创建新字段后,选中该字段以查看更多信息。默认情况下,当您打开字段时,系统将显示“详细信息”选项卡,您可以在其中修改字段的名称、颜色或热键。您还可以指定它是否为多值(“是多值”),或者是否允许处理文档中没有证据的值(“需要参考”)。多值选项允许一个字段具有多个值,但不限于特定列表。
- 为多值:如果某个字段设置为多值,则可以为该特定字段报告多个值。例如,您想要提取一个“总监列表”,其中的条目数量不定。想象一下像单列表格这样的多值字段。
- 需要引用:当需要引用字段时,仅当您从验证站点中看到的文档中选择某些内容时,才可以为其添加值。对于要捕获可能在文档中不可见的值的特殊字段,您可以将“需要引用”切换到“关闭”。这样一来,用户即可添加值,而无需在文档中指定该值的来源位置。
您还可从下拉列表中选择字段的“类型”,或添加“默认值”。使用“默认值”字段定义要在“提取结果”中填充的值,以防文档中标识的字段没有值。
验证设置
在“验证设置”下,您可以选择设置“提取可信度”阈值。在“验证站点”中验证字段时会考虑此阈值。要设置提取的可信度阈值,请转到“提取可信度阈值” ,然后输入一个 0 到 100 之间的值。
- “只读” :如果启用,人工验证者可以将“ 验证站点 ” 中“ 提取 结果” 字段上设置的任何验证人备注视为消息。如果禁用(默认状态),则人工验证者还可以在“验证站点”中编辑该注释,从而将有关所做决策的信息传达回机器人。
- 文本:如果选择“文本”,则验证程序注释将在“验证站点” 中显示为文本消息(启用编辑时为可编辑文本)。 人工验证者可以在 “验证站点” 中查看、编辑或添加最多 200 个字符的消息。
- 选项:如果选择选项,则可以配置一系列单选按钮,人工验证者可以查看这些单选按钮,如果不是只读模式,则可以在“验证站点” 中进行选择。 您最多可以添加 10 个选项。
GetFieldValidatorNotes(<fieldId>)
and SetFieldValidatorNotes(<fieldId>, <validatorNote>)
.
可以使用旁边显示的“删除”按钮删除已创建的字段,也可以使用拖放功能对其进行重新排序。
也可以通过选择“删除”,从“详细信息”窗口中删除字段。
重复以上步骤即可创建多个组、类别和文档类型,您后续还可使用“搜索”字段对其进行筛选。
规则选项卡
字段规则可帮助您优化提取结果,并在运行工作流时自动对其进行验证。它们的作用是提高提取效率,并通过高亮显示来帮助您轻松验证需要在验证站点中注意的字段。您可以创建适用于一个字段的多个规则。
您可以通过设置 评估者类型 和 严重性级别来定义规则。
评估者类型
使用“评估程序类型” 指定应如何评估已定义的规则。 您可以选择两种赋值器类型: AND和 OR。
评估者类型 |
描述 |
示例 |
---|---|---|
AND |
当需要执行所有规则时,请使用此赋值器类型。 |
规则 :发票编号以 A 开头,以 X 结尾。
|
或 |
只需执行其中一个规则。 |
规则 : 发票编号以 A 开头,或为 123。
|
严重性级别
指示为字段定义的所有规则的重要性。 如果在验证站点会话中违反规则,则无法设置 MUST 级别。 您可以从两个关键性级别中选择:“ 必须”、“ 应该”。
识别出设置的严重性级别后,将触发创建的规则。
当您要提交规则时,“ 必须 ”规则要求 100% 成功,否则“ 提交 ”操作将失败。 “ 应该 ”规则允许您 提交 ,即使该规则已被破坏。
You can always check if a rule is broken by using the helper method from the ExtractionResult Class class, that resides in the UiPath.DocumentProcessing.Contracts activity package.
描述 | |
---|---|
MUST |
当创建的规则必须包含在“提取结果”流程中时,请使用此严重性级别。 |
SHOULD |
当创建的规则是可选的时,请使用此严重性级别。 |
选择“ 评估者类型 ” 和“ 严重性级别” 后,您必须设置适用于新创建规则的类型。 您可以选择多个选项。 以下是所有可用列表的完整列表:
- 不为空
- 可能的值
- 开头为
- 结尾为
- 包含
- 定长
- 是电子邮件
- 正则表达式注意:您为其创建了规则的字段类型决定了规则类型的数量,您可以从中选择规则类型。例如,“文本”类型字段显示所有可能的规则类型,而“日期”类型字段仅显示两种规则类型,即“非空”和“可能”值。
规则类型
描述 | 字段类型 | 严重性级别 | 评估者类型 | |
---|---|---|---|---|
不为空 | 提取的值不能为空,这意味着该字段为必填字段。 如果缺少该值,则需要验证/手动输入。 | 适用于以下类型的字段:
|
MUST SHOULD | AND
或 |
可能的值 | 用户定义所有可能的值,提取的数据是创建规则时作为输入添加的值之一(例如,员工类型为“全职”、“兼职”或“实习生”)。 | 适用于以下类型的字段:
|
MUST SHOULD | AND
或 |
表达式 | 定义用作提取数据规则的数学表达式。 | 适用于数字类型字段。
配置规则时,条件为必填项。 选择以下选项之一:
必须提供数学表达式。使用预定义的运算符来定义表达式。查看以下示例:
|
MUST SHOULD | AND
或 |
开头为 | 这是一个固定规则,这意味着提取的值需要以用户添加的其中一个值开头。 | 适用于以下类型的字段:
|
MUST SHOULD | AND
或 |
结尾为 | 这是一个固定规则,意味着提取的值需要以用户添加的其中一个值结尾。 | 适用于以下类型的字段:
|
MUST SHOULD | AND
或 |
包含 | 这是一个固定规则,表示提取的值需要包含用户添加的其中一个值。 | 适用于以下类型的字段:
|
MUST SHOULD | AND
或 |
定长 | 这是一个固定规则,意味着提取的值需要具有一定的固定长度。 | 适用于以下类型的字段:
|
MUST SHOULD | AND
或 |
是电子邮件 | 这是一个固定规则,表示提取的值需要以电子邮件格式写入。 | 适用于以下类型的字段:
|
MUST SHOULD | AND
或 |
正则表达式 | 这是一个固定规则,意味着提取的值需要包含与用户添加的其中一个值相似的正则表达式。 | 适用于以下类型的字段:
|
MUST SHOULD | AND
或 |
使用规则
- 在“分类”面板中选择一个字段。
- 转到“规则”选项卡。
- 选择“新增”,以添加新规则。
- 输入
full address
规则,该规则的“类型”为“包含”,其“表达式”为st, str, street
。 - 选择“评估程序类型”。
在此示例中,选择“或”。
- 选择“严重性级别”。
在此示例中,选择“必须”。
- 选择“新增”。
- 输入
phone number
规则,该规则的“类型”为“非空”。 - 选择“新增”。
- 输入
city or state
规则,该规则的“类型”为“包含”,其“表达式”为city, state
。
以下动图显示了前述步骤。
其他选项
正在编辑
您可以“编辑”已创建的任何组、类别或文档类型的名称。这可以通过选择三个配置级别中的其中一个级别,然后编辑“名称”字段来完成。
正在删除
您也可以删除组、类别和文档类型。有两个可用选项:
- 选择“删除”
,在要删除的对象的父元素中。
- 选择“删除”
,同时选择要删除的对象。
在这两种情况下,系统都会显示弹出窗口,要求您确认删除操作。选择“删除”以批准该操作。
自定义和辅助功能
热键和颜色会自动分配给新创建的字段。您可以使用它们来提高可见性并更快地浏览分类。通过单击热键或颜色代码字段来自定义它们。
A customized field with color and hotkey can instruct the Validation Station and the Template Manager to use the assigned color when displaying the field and to use the assigned hotkey as a shortcut for providing values to fields. Visit Validation Station for more information about how to use the field shortcuts to assign values to a field.
要为字段分配颜色和热键,请选择该字段,在“颜色”字段中选择特定的颜色代码,然后从“热键”菜单中选择特定的热键。
您可以使用键盘快捷键浏览分类管理器。选择“显示可用的键盘快捷方式”,然后激活“切换键盘快捷方式”选项,以避免意外触发键盘快捷方式。也可以折叠节点。
taxonomy.json
文件中。