activities
latest
false
重要 :
请注意,此内容已使用机器翻译进行了部分本地化。 新发布内容的本地化可能需要 1-2 周的时间才能完成。
UiPath logo, featuring letters U and I in white

Document Understanding 活动

上次更新日期 2025年9月11日

加载分类

UiPath.IntelligentOCR.Activities.TaxonomyManagement.LoadTaxonomy

将借助“分类管理器”创建的 taxonomy.json 文件转变为可进一步与其他活动配合使用的变量。

属性

常见
  • “显示名称”- 活动的显示名称。
其他
  • “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
输出
  • 分类 - 要加载的分类,存储在 DocumentTaxonomy 变量中。您随后可在接收分类作为输入的活动中使用该输出。
    重要提示:如果您使用的是 Intel Xe GPU 且分类管理器未正确显示,我们建议将图形驱动程序更新到最新版本。有关详细信息,请参阅此页面

分类扩展方法

  • Serialize() :对DocumentTaxonomy对象调用Serialize()方法,该方法将返回对象的JSON表示,以便存储和检索以供日后使用。
  • Deserialize(String)DocumentTaxonomy.Deserialize(jsonString)静态扩展返回一个DocumentTaxonomy对象,该对象与作为参数传递的 JSON 编码数据结合使用。
  • GetFields(String) :对DocumentTaxonomy 对象执行调用后,使用DocumentTypeId字符串调用的GetFields()方法将返回在该文档类型中定义的字段列表。

分类管理器可用于创建和编辑特定于当前自动化项目的分类文件。该分类文件包含由用户定义并按“”和“类别”分类的文档类型。

您可以使用“加载分类”活动将分类文件转换为 .NET 数据类型,然后将其作为输入传递给以下活动:

只有在安装 v1.6.0 或更高版的 UiPath.IntelligentOCR.Activities 包作为项目依赖项后,才能访问分类管理器。包安装完成后,“向导”部分的功能区中会显示“分类管理器”按钮。

图 1. Studio 功能区中“分类管理器”概述

使用分类管理器

“分类管理器”窗口用于创建按组和类别组织的文档类型。首次在项目中打开“分类管理器”时,系统不会定义任何组、类别或文档类型。

图 2. 映射任何文档类型或字段之前的“分类管理器”

建立结构

第一步是创建组或文档类型。两者之间的区别在于,组涉及层次结构,而文档类型可以创建为单个文件。复杂的项目意味着创建组、类别和文档类型,而简单的项目只能要求创建一种或两种文档类型。

创建组

创建组时,要为在组内创建的文档类型也创建类别。这可以通过点击“组”按钮来完成。选择组名称后,可以使用“保存”按钮或使用 Enter 键来保存该名称。

创建类别

定义并选择组后,您可以使用其定义的按钮在组内创建“类别”和/或“文档类型”。选择“保存”或使用 Enter 键以保存配置。

创建文档类型

“文档类型”可以作为组的一部分或单个文档进行创建。在组内创建时,请确保选中该组,然后选择“文档类型”

如果将“文档类型”创建为单个文件,请确保未选择任何组,然后选择“文档类型” 。选择“文档类型”后,输入文件的名称,然后选择“保存”

注意:使用 Studio 2020.10 版从 Orchestrator 提交 Document Understanding 操作时,确保分类不包含在没有类别的情况下创建的文档类型。

您可通过选择已创建的“文档类型”来更改其名称、将其唯一 ID 复制到剪贴板或将其重新分配给另一个组或类别。您还可以输入文档类型的代码。

保存文档类型后,系统会为其生成 文档类型 ID 。 打开文档进行编辑,会在“ 文档类型名称” 选项卡旁边显示 ID。 文档类型 ID 具有 Group.Category.Document 类型的结构,可以复制到剪贴板。 文档类型 ID 代码是一项可选功能,可用于查找文档或将文档映射到您在分类中定义的文档类型。
配置文档类型的显示设置
创建文档类型后,您可以配置其显示设置。在“分类管理器”中选择文档类型,然后转到“显示设置” 。您可以更改以下配置:
  • OCR 可信度阈值:在文档类型级别设置最低可信度阈值。

    当在验证站点中显示文档时,字段的OCR 置信度和提取置信度级别必须高于您在分类管理器中配置的阈值。

    OCR 可信度阈值的默认值为 90%。

  • 日期显示格式:针对文档类型显示的日期格式。
    默认值为 YYYY-MM-DD
  • 数字小数分隔符:要用于文档类型的数字小数分隔符。
  • 千位数分隔符:要用于文档类型的千位数分隔符。
创建字段

选择“文档类型”后, “字段”按钮将可用以创建新字段。选择字段按钮后,您可以为字段输入名称,然后从下拉列表中选择其类型。

“字段”类别有两个选项卡: “详细信息”“规则”详细信息选项卡提供有关所选字段的信息,例如字段名称、分配的热键或字段类型,而规则选项卡则允许您创建字段的提取结果需要满足的规则。

提供以下字段类型:

  • 文本
  • 数字
  • 日期 - 选择此类型后,便可指定预期格式(可选)。
    备注:

    如果要添加预期格式,请使用符合 MSDN (Microsoft Developer Network) 的格式。

    提取程序可能会使用此格式,并且在尝试将日期解析为日、月和年等组成部分时,数据提取作用域活动也会使用此格式。

  • 名称
  • Address
  • 设置 - 选择此类型后,即可从预先建立的列表中向字段添加多个值。
  • 布尔值
  • 表格 - 选择此类型后,便可编辑表格结构,其中包括添加列及编辑列名称和类型。

详细信息选项卡

创建新字段后,选中该字段以查看更多信息。默认情况下,当您打开字段时,系统将显示“详细信息”选项卡,您可以在其中修改字段的名称、颜色或热键。您还可以指定它是否为多值(“是多值”),或者是否允许处理文档中没有证据的值(“需要参考”)。多值选项允许一个字段具有多个值,但不限于特定列表。

有关如何使用这两个字段的更多信息,请查看以下说明:
  • 为多值:如果某个字段设置为多值,则可以为该特定字段报告多个值。例如,您想要提取一个“总监列表”,其中的条目数量不定。想象一下像单列表格这样的多值字段。
  • 需要引用:当需要引用字段时,仅当您从验证站点中看到的文档中选择某些内容时,才可以为其添加值。对于要捕获可能在文档中不可见的值的特殊字段,您可以将“需要引用”切换到“关闭”。这样一来,用户即可添加值,而无需在文档中指定该值的来源位置。

您还可从下拉列表中选择字段的“类型”,或添加“默认值”。使用“默认值”字段定义要在“提取结果”中填充的值,以防文档中标识的字段没有值。

验证设置

“验证设置”下,您可以选择设置“提取可信度”阈值。在“验证站点”中验证字段时会考虑此阈值。要设置提取的可信度阈值,请转到“提取可信度阈值” ,然后输入一个 0 到 100 之间的值。

图 3. 字段的“详细信息”选项卡概览

您可以从“ 详细信息 ”选项卡中选择启用 验证程序注释 。通过设置验证者注释,人工验证者可以添加有关他们在验证期间做出的决策的注释。 您可以配置以下设置:
  • “只读” :如果启用,人工验证者可以将“ 验证站点 ” 中“ 提取 结果” 字段上设置的任何验证人备注视为消息。如果禁用(默认状态),则人工验证者还可以在“验证站点”中编辑该注释,从而将有关所做决策的信息传达回机器人。
  • 文本:如果选择“文本”,则验证程序注释将在“验证站点” 中显示为文本消息(启用编辑时为可编辑文本)。 人工验证者可以在 “验证站点” 中查看、编辑或添加最多 200 个字符的消息。
  • 选项:如果选择选项,则可以配置一系列单选按钮,人工验证者可以查看这些单选按钮,如果不是只读模式,则可以在“验证站点” 中进行选择。 您最多可以添加 10 个选项。
Tip: Check the ExtractionResult Class page from the UiPath.DocumentProcessing.Contracts section for more information on the two methods related to validator notes, GetFieldValidatorNotes(<fieldId>) and SetFieldValidatorNotes(<fieldId>, <validatorNote>).

可以使用旁边显示的“删除”按钮删除已创建的字段,也可以使用拖放功能对其进行重新排序。

也可以通过选择“删除”,从“详细信息”窗口中删除字段。

重复以上步骤即可创建多个组、类别和文档类型,您后续还可使用“搜索”字段对其进行筛选。

规则选项卡

字段规则可帮助您优化提取结果,并在运行工作流时自动对其进行验证。它们的作用是提高提取效率,并通过高亮显示来帮助您轻松验证需要在验证站点中注意的字段。您可以创建适用于一个字段的多个规则。

您可以通过设置 评估者类型严重性级别来定义规则。

评估者类型

使用“评估程序类型” 指定应如何评估已定义的规则。 您可以选择两种赋值器类型: ANDOR

表 1.该表格显示了评估程序的类型、说明及其示例

评估者类型

描述

示例

AND

当需要执行所有规则时,请使用此赋值器类型。

规则 :发票编号以 A 开头,以 X 结尾。

  • 有效结果 : 有效字段值为 A123X。
  • 无效结果 : 有效字段值为 A123。

只需执行其中一个规则。

规则 : 发票编号以 A 开头,或为 123。

  • 无效结果 : 有效字段值为 A123、123。
  • 无效结果 : 有效字段值为 234、1A23。

严重性级别

指示为字段定义的所有规则的重要性。 如果在验证站点会话中违反规则,则无法设置 MUST 级别。 您可以从两个关键性级别中选择:“ 必须”、“ 应该”。

识别出设置的严重性级别后,将触发创建的规则。

当您要提交规则时,“ 必须 ”规则要求 100% 成功,否则“ 提交 ”操作将失败。 “ 应该 ”规则允许您 提交 ,即使该规则已被破坏。

You can always check if a rule is broken by using the helper method from the ExtractionResult Class class, that resides in the UiPath.DocumentProcessing.Contracts activity package.

表 2. 显示“严重性级别”及其描述的表格
 

描述

MUST

当创建的规则必须包含在“提取结果”流程中时,请使用此严重性级别。

SHOULD

当创建的规则是可选的时,请使用此严重性级别。

选择“ 评估者类型 ” 和“ 严重性级别” 后,您必须设置适用于新创建规则的类型。 您可以选择多个选项。 以下是所有可用列表的完整列表:

  • 不为空
  • 可能的值
  • 开头为
  • 结尾为
  • 包含
  • 定长
  • 是电子邮件
  • 正则表达式
    注意:您为其创建了规则的字段类型决定了规则类型的数量,您可以从中选择规则类型。例如,“文本”类型字段显示所有可能的规则类型,而“日期”类型字段仅显示两种规则类型,即“非空”和“可能”值。

规则类型

下表显示了每个可用规则类型的详细信息,并根据严重性级别和评估程序类型进行分类。
表 3. 规则类型及其说明,取决于严重性级别和评估程序类型
 描述字段类型严重性级别评估者类型
不为空提取的值不能为空,这意味着该字段为必填字段。 如果缺少该值,则需要验证/手动输入。 适用于以下类型的字段:
  • 数字
  • text
  • 日期
  • 地址
  • name
  • SET
  • boolean

MUST

SHOULD

AND

可能的值用户定义所有可能的值,提取的数据是创建规则时作为输入添加的值之一(例如,员工类型为“全职”、“兼职”或“实习生”)。 适用于以下类型的字段:
  • 数字
  • text
  • 日期

MUST

SHOULD

AND

表达式定义用作提取数据规则的数学表达式。 适用于数字类型字段。
配置规则时,条件为必填项。 选择以下选项之一:
  • 等于
  • 不等于
  • 大于
  • 大于或等于
  • 小于或等于
必须提供数学表达式。使用预定义的运算符来定义表达式。查看以下示例:
  • 总数量 * 净单价\n- 总计 = 小计 + 交货
  • 折扣 - “求和”运算符收集表格列中的所有值。

MUST

SHOULD

AND

开头为这是一个固定规则,这意味着提取的值需要以用户添加的其中一个值开头。 适用于以下类型的字段:
  • text
  • 地址
  • name

MUST

SHOULD

AND

结尾为这是一个固定规则,意味着提取的值需要以用户添加的其中一个值结尾。 适用于以下类型的字段:
  • text
  • 地址
  • name

MUST

SHOULD

AND

包含这是一个固定规则,表示提取的值需要包含用户添加的其中一个值。 适用于以下类型的字段:
  • text
  • 地址
  • name

MUST

SHOULD

AND

定长这是一个固定规则,意味着提取的值需要具有一定的固定长度。 适用于以下类型的字段:
  • text
  • 地址
  • name

MUST

SHOULD

AND

是电子邮件这是一个固定规则,表示提取的值需要以电子邮件格式写入。 适用于以下类型的字段:
  • text
  • 地址
  • name

MUST

SHOULD

AND

正则表达式这是一个固定规则,意味着提取的值需要包含与用户添加的其中一个值相似的正则表达式。 适用于以下类型的字段:
  • text
  • 地址
  • name

MUST

SHOULD

AND

使用规则

我们举一个例子来更好地理解这些规则的适用性。我们将为文档的“地址”字段创建一组规则。查看以下示例步骤,了解如何为字段创建一个新规则或一组规则:
  1. 在“分类”面板中选择一个字段。
  2. 转到“规则”选项卡。
  3. 选择“新增”,以添加新规则。
  4. 输入 full address 规则,该规则的“类型”为“包含”,其“表达式”为 st, str, street
  5. 选择“评估程序类型”。

    在此示例中,选择“或”。

  6. 选择“严重性级别”。

    在此示例中,选择“必须”。

  7. 选择“新增”。
  8. 输入 phone number 规则,该规则的“类型”为“非空”。
  9. 选择“新增”。
  10. 输入 city or state 规则,该规则的“类型”为“包含”,其“表达式”为 city, state

以下动图显示了前述步骤。

图 4. 显示如何为字段添加三个规则的动图

其他选项

正在编辑

您可以“编辑”已创建的任何组、类别或文档类型的名称。这可以通过选择三个配置级别中的其中一个级别,然后编辑“名称”字段来完成。

正在删除

您也可以删除组、类别和文档类型。有两个可用选项:

  • 选择“删除”删除,在要删除的对象的父元素中。
  • 选择“删除”删除,同时选择要删除的对象。

在这两种情况下,系统都会显示弹出窗口,要求您确认删除操作。选择“删除”以批准该操作。

自定义和辅助功能

热键和颜色会自动分配给新创建的字段。您可以使用它们来提高可见性并更快地浏览分类。通过单击热键或颜色代码字段来自定义它们。

A customized field with color and hotkey can instruct the Validation Station and the Template Manager to use the assigned color when displaying the field and to use the assigned hotkey as a shortcut for providing values to fields. Visit Validation Station for more information about how to use the field shortcuts to assign values to a field.

要为字段分配颜色和热键,请选择该字段,在“颜色”字段中选择特定的颜色代码,然后从“热键”菜单中选择特定的热键。

您可以使用键盘快捷键浏览分类管理器。选择“显示可用的键盘快捷方式”,然后激活“切换键盘快捷方式”选项,以避免意外触发键盘快捷方式。也可以折叠节点。

注意:您在分类管理器中所做的更改将自动保存到特定于项目的 taxonomy.json 文件中。
  • 属性
  • 分类扩展方法
  • 使用分类管理器
  • 建立结构

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo
信任与安全
© 2005-2025 UiPath。保留所有权利。