UiPath Documentation
activities
latest
false
重要 :
请注意,此内容已使用机器翻译进行了部分本地化。 新发布内容的本地化可能需要 1-2 周的时间才能完成。
UiPath logo, featuring letters U and I in white

Document Understanding 活动

上次更新日期 2026年4月27日

表单提取程序

UiPath.IntelligentOCR.Activities.DataExtraction.FormExtractor

描述

备注:

Due to licensing purposes, the Form Extractor activity requires an Internet connection to run the robot.

表单提取程序最适合通过分析单词在文档中的位置或检测签名来提取、匹配和报告特定信息。该活动只能与数据提取程序作用域活动一起使用。如果将表单提取程序活动与UiPath 文档 OCR活动一起使用,则也可以检测手写文本。

项目兼容性

Windows - Legacy | Windows

配置

属性面板

常见

  • “显示名称”- 活动的显示名称。

输入

  • ApiKey - Specifies the API key of the account. The API Key field is automatically pre-populated if defined in local project settings or in the Document Understanding framework.
  • 端点- UiPath™ 服务器的 URL。默认情况下,端点为https://du.uipath.com/svc/formextractor 。有关更多信息,请访问Document Understanding 公共端点
  • MinOverlapPercentage - Specifies the minimum overlap area (in percentage) between a box in the document and a box in the template required to make an extraction. The percentage value can be set between 0 and 100. The default value is 65.
  • Timeout - Specifies the amount of time (in milliseconds) to wait for a response from the server before an error is thrown. The default value is 100000 milliseconds (100 seconds).

其他

  • “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
    备注:

    Multiple templates can be defined for one Document Type. When the activity is run, the extractor selects the best matching template based on the information found on the first page.

模板管理器向导

允许您为分类中定义的文档类型创建、编辑、管理和导出/导入模板。

创建模板
  1. 在“数据提取作用域”内,向工作流添加“表单提取程序”活动。

  2. 通过选择“管理模板”来配置提取程序。

    系统将打开“模板管理器”窗口。

    图 1.“模板管理器”向导概览

    “模板管理器”向导概览

  3. 选择“创建模板”以创建新模板。图 2. “新建模板”配置字段概览

    “新建模板”配置字段概览

    备注:

    如果 UiPath.IntelligentOCR.Activities 程序包已更新到 v5.1.0,则强制应用 OCR 参数已替换为将 OCR 应用于 PDF 参数。以下是新旧参数之间的兼容性:

    • 强制应用 OCR = True”替换为“将 OCR 应用于 PDF = ”;
    • 强制应用 OCR = False”替换为“将 OCR 应用于 PDF = 自动”;
    • “强制应用 OCR =空白”替换为“将 OCR 应用于 PDF =自动”
    • “强制应用 OCR = <user-defined variable>替换为“将 OCR 应用于 PDF =自动”

    “将 OCR 应用于 PDF”选项确定是否应将 OCR 流程应用于 PDF 文档。下拉列表中提供三个选项: TrueFalse自动。如果设置为True ,则 OCR 将应用于文档的所有 PDF 页面。如果设置为False ,则仅提取数字输入的文本。默认值为“自动” ,根据输入文档确定文档是否需要应用 OCR 算法。每个 OCR 引擎都有自己的自定义选项集。请访问OCR 引擎,了解有关每个 OCR 引擎可用的所有选项的更多详细信息。默认的 OCR 引擎是UiPath 文档 OCR

  4. 从“文档类型”下拉列表中选择模板的文档类型。

    备注:

    所有文档类型均基于分类。确保在项目文件夹中添加或创建分类。

  5. 在“模板名称”字段中添加模板的名称。选择反映文档版本或版式的相关名称。

  6. “模板文档”字段中添加文档的路径。使用“浏览”选项导航到文件的路径。

  7. 从“OCR 引擎”下拉列表中选择一个 OCR,并根据需要进行配置。

  8. 选择“配置”以触发模板编辑。

如果您已创建模板,则可以对其进行编辑、导出或删除。仅当至少选择了一个模板时, “删除”“导出”选项才可用。单个模板的“编辑”“删除”选项始终可用。

图 3. 为模板选择“删除”“导出”选项的动图

为模板选择“删除”或“导出”选项的动图

配置布尔值字段处理

对于包含复选框的文档,您可以为“是”“否”选项添加已知同义词,也可以从 UiPath™ 编制的列表开始(选择“添加建议的 ” )。这些值用于Boolean内容解释,即将捕获的值映射到“是”“否”报告的值。

图 4. 动图显示了为“Yes 的同义词”“No 的同义词”字段选择“添加推荐”后生成的建议

图动图显示了为“Yes 的同义词”和“No 的同义词”字段选择“添加建议的值”后生成的建议

备注:

如果添加的同义词区分大小写,则需要选中“区分大小写”复选框。

导出和导入模板

You can import templates created and exported from other workflows. Use these features to share templates between projects. Once a document type is configured using the Form Extractor, you don't need to reconfigure the templates in a new implementation.

导出程序

以下是导出模板时需要遵循的步骤:

  1. 按照本页开头说明的步骤创建一个或多个模板。

  2. 选择要导出的模板。

  3. 选择“导出”选项:

    1. 与原始文件一起导出与原始文件一起导出会将原始文件附加到导出文件中。

    2. 不带原始文件导出

      图 5.选择“使用原始文件导出”选项的操作

      选择“使用原始文件导出”选项的操作

  4. 使用所需名称保存模板的存档。

  5. 保存模板后,系统将显示一条消息。选择“确定”。

    图 6. “X 个模板已成功导出”消息

    “X 个模板已成功导出”消息

    备注:

    如果您无法共享构建模板时依据的文档内容,请使用“不带原始文件导出”选项。您仍然可以在其他项目中共享和导入模板档案,但无法再编辑或查看模板档案。

    在将模板导入到其他项目后,如果您希望能够再编辑该模板,请确保在导出时以及之后导入时使用“不带原始文件导出”选项。

导入程序

以下是导入模板时需要遵循的步骤:

  1. 选择“导入”

    图 7.在“模板管理器”向导中选择“导入”的操作

    在“模板管理器”向导中选择“导入”的操作

  2. 选择存档。导入向导随即出现,并显示所选导出存档中的所有文档类型和所有可用模板。选择要导入的模板,然后选择所需的“导入”选项:

    1. 带原始文件导入

    2. 不带原始文件导入图 8.“模板管理器”向导中的“导入”选项

      “模板管理器”向导中的“导入”选项

      备注:
      • 导入模板时,将在项目的分类中自动创建文档类型。如果已经存在名称相同的文档类型,则通过将计数附加到文档类型名称来创建另一个文档类型。
      • 如果要导入已导出但不包含原始文件的模板,或者您选择导入不包含原始文件的模板,则这些模板没有查看或编辑选项。

导入模板时的特殊情况

导入模板时,可能会发生几种特殊情况。以下列表说明了每种情况及其特殊性:

  • 新文档类型:如果导入了新的文档类型,则会在向导配置器中添加一个新字段,通知您将创建一个新模板。
  • 复制文档类型:如果导入相同的文档类型,则会显示“此模板已存在,且会被覆盖”的警告消息。
  • 扩展模板:如果导入的文档类型模板包含比现有文档类型更多的字段,则会显示“此文档类型将进行如下更新:以下字段不存在,系统将创建相应字段”的警告消息。
  • 扩展文档类型:如果用户导入的文档类型包含的字段比现有字段多,则会出现“此文档类型将进行如下更新:以下字段没有要导入的配置”的警告消息。
  • 名称相同但内容不同的文档类型:如果用户导入的文档类型与现有文档类型名称相同但字段不同,则系统会显示以下警告消息:“此文档类型将进行如下更新”:
    • “以下字段不存在,系统将创建相应字段”
    • “以下字段没有要导入的配置”
  • 包含缺失的表格的文档类型:如果用户导入的文档类型不包含表格,则会显示“此文档类型将进行如下更新:以下字段没有要导入的配置”的警告消息。
  • 包含扩展表格的文件类型:如果用户导入的文档类型所包含的表格具有额外列,则会显示“此文档类型将进行如下更新:以下字段不存在,系统将创建相应字段”的警告消息。
  • 包含不完整表格的文档类型:如果用户导入的文档类型包含列缺失的表格,则会显示“此文档将进行如下更新:以下字段没有要导入的配置”的警告消息。
  • 具有不同文档类型的表格模板:如果导入的文档类型模板包含具有不同文档类型的表格,则系统将创建一个新模板。如果您的分类包含一个表格,并且该表格中的一个字段具有不同的文档类型,则会显示以下消息:“ID 为xyz字段同时显示在导入分类和现有分类中,但它们的类型不兼容(两者都应为表格,或者两者都不是)。"

模板编辑器向导

一般注意事项

模板编辑器依托于“验证站点”的功能构建而成。要访问它,请选择“编辑”编辑对于模板。

访问“验证站点” ,了解“验证站点”的基本用法。

除了在“验证站点”屏幕右侧提供的选项之外,还有两个特定于模板编辑器的选项:

  • 锚点:设置锚点选择模式;
  • 清除锚点:清除整个锚点选择。

新建模板时,首次打开模板编辑器时会显示说明文本。如果您想再次访问这些文本,请转到右侧的 “文档视图”部分,选择“更多选项” ,然后选择 “显示说明文本”

图 9.显示说明文本的操作

显示说明文本的操作

表格信息可以在单元格或表格级别修改。有关如何在单元格级别和表格级别配置表格的更多信息,请访问呈现验证站点

配置锚点

模板管理器打开模板编辑器后,即可以定义锚点,并且可以在“选择模式”选项中找到锚点。

定义或编辑页面级别模板时,尽管是可选的,但首先需要选择“第 1 页匹配信息”。仅对于固定表单模板,此步骤是必需的。

“第 1 页匹配信息”选项位于屏幕左侧,需要模板第一页中的文本输入(仅接受令牌),该文本始终位于该特定模板布局中的相同位置,并形成为特定文档类型定义的所有模板中唯一的字词图表(考虑词之间的相对距离和角度)。

换句话说,“第 1 页匹配信息”(以及所有其他“页面匹配信息”字段)相当于特定页面的“指纹”,广泛用于在运行时识别正确的匹配模板。

For this reason, for the Page 1 Matching Info field, it is strongly recommended to select 10 to 20 words, preferably longer, spread across the entire page area.

仅当您尝试从该特定页面提取数据且不再需要跨模板唯一性时,才必须填写其他“页面匹配信息”字段(每个模板页面一个字段)。如果不需要从特定页面提取任何字段,则不必定义该页面的页面级别匹配信息。

配置简单字段

对于表格以外的所有字段,配置模板包括选择一个自定义区域并将其分配给特定字段。

对于固定表单配置,只能使用“自定义区域”选择来配置数据字段。

对于字段,您可以使用“添加”按钮定义一个或多个此类“自定义区域” 。如果为单个字段定义了两个或多个“自定义区域” ,则在运行时,如果在“分类”中将该字段定义为“单一值” ,则所有值都将连接到单个报告值。如果将该字段定义为“多重值” ,则将分别报告每个值。

每个字段旁边的图标表示支持选择的类型:令牌自定义区域

图 10. 显示示例字段支持的选择类型的动图

显示示例字段支持的选择类型的动图

备注:

如果选择了空白区域,则所选内容将自动设置为“自定义区域”。如果在选定区域内检测到文本,则系统会要求您在“令牌”或“自定义区域”之间选择所需内容的类型。

使用验证站点的“选择模式”功能锁定您在“令牌”和“自定义区域”之间做出的选择。

配置表格

如上所述,有些字段只能通过使用令牌(如“页面匹配信息”字段)或自定义区域(如简单字段)来添加信息。对于“表格”字段,您可以执行以下操作:

  • 逐一定义每个单元格,方法是在展开表格编辑器后,分别向每个单元格添加“自定义区域”选择;
  • 使用表格标记功能 - 通过标记表格区域、绘制行和列分隔符,然后将如此标记的表格分配给字段。确保提取的区域具有与模板区域相同的列数和行数。

要使用表格标记功能,请执行以下操作:

  1. 选择表格字段的“更多选项”
  2. 选择“提取新表格”
  3. 选择要提取的表格。
  4. 对于每个表格列上方的每个字段,选择要字段表示的列名称。您也可以选择“提取标头”
  5. 最后,选择“保存新表格”

图 11. 使用表格标记功能的示例动图

使用表格标记功能的示例动图

锚点配置

定义要从中提取数据的自定义区域范围的一种独特方法是使用字段级别锚点。这些锚点使您能够根据字段级别配置提取数据,从而更灵活地定义表单提取规则。

因此,表单提取程序在运行时知道如何执行以下操作:

  • 确定页面级别模板是否匹配,并根据其确定为最匹配的页面级别模板提取信息;
  • 确定任何基于锚点的设置是否匹配,并根据这些设置在待处理文档中的应用提取信息;
  • 计算所有可能匹配项的相应置信度分数,以便报告所有可用选项的最佳结果(概率最高的匹配项)。
创建新的锚点设置
  1. Make sure you are in the Anchor Selection mode.

  2. 在值区域周围绘制一个方框。

  3. 使用以下方法之一为值区域选择标签(主锚点):

    • 选择第一个单词,然后对所选内容的最后一个单词使用 Ctrl + Select
    • 选择,拖动,然后释放以捕获词范围。
      备注:

      标签只能包含同一视觉行中的连续词。

  4. 选择将用于唯一标识您的标签的任何其他锚点。相同的选择原则也适用。

  5. 通过选择特定字段的“提取值”,将锚点结构分配给相应字段。

    图 12. 为一个字段创建多个锚点的示例

    为一个字段创建多个锚点的示例

    备注:

    您还可以使用此页面之前的示例来了解如何创建模板以及定义提取区域和锚点。

编辑现有锚点设置
  1. 高亮显示您的锚点设置。

  2. 对其进行更改(根据需要删除任何锚点或标签,甚至是删除值区域,以及添加新元素等)。

  3. 为字段锚点选择“更多选项” ,然后使用“更改提取值”选项更新字段关联。图 13.更改字段的提取值的示例

    更改字段的提取值的示例

    备注:
    • 如果删除目标区域,则会删除所有锚点,并且您需要重新开始。
    • 如果删除标签(主锚点),则第一个锚点(按照创建顺序)将变为新标签。
删除现有锚点设置

要删除锚点设置,您可以使用以下选项之一:

  • 对字段锚点选择“更多选项” ,对已保存的值使用“标记为缺失”选项。

    图 14.使用“标记为缺失”选项删除锚点设置的示例

    使用“标记为缺失”选项删除锚点设置的示例

  • 如果是给定字段定义的一系列锚点,则为字段锚点选择“更多选项” ,然后使用“删除值”选项。

    图 15.使用“移除值”选项删除锚点设置的示例

    使用“移除值”选项删除锚点设置的示例

混合和匹配配置

您可以为同一文档类型定义任意数量的模板。您可以拥有多个页面级别模板,同一个字段可以有多个锚点,模板甚至可以同时包含页面级别锚点和字段级别锚点。

备注:
  • 定义字段级别锚点时,请确保标签靠近值区域,并且如果可以在同一个文档的多个位置找到相同的文本构造,则其他锚点会支持该标签。
  • 标签和锚点越长,您得到的精度就越高。
  • 值区域始终根据其相对于标签(主锚点)的相对位置来计算。请据此选择主锚点。
  • 有了字段级别锚点,字段可以在模板内移动并仍被捕获,从而为更改文档版式提供了更大的灵活性。

Document Understanding 集成

表单提取程序活动是 Document Understanding 解决方案的一部分。如需了解详情,请访问Document Understanding 指南

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新