UiPath Documentation
document-understanding
latest
false
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。
UiPath logo, featuring letters U and I in white

Document Understanding classic user guide

上次更新日期 2026年4月23日

数据提取概述

什么是数据提取

Data Extraction is a component in the Document UnderstandingTM Framework that helps in identifying very specific information that you are interested in, from your document types.

可作为数据提取目标的信息在项目分类中定义,即其中定义的特定文档类型的字段列表。对于项目分类中未显示的字段,无法进行自动数据提取配置。

Document Understanding 框架的数据提取步骤可确保以正确的顺序为正确的字段列表和处理中文件的正确页面范围调用配置的提取程序。这意味着,如果在同一文件中发现两种或两种以上文档类型(针对不同的页面范围),建议您多次执行数据提取步骤,每个分类结果执行一次。对具有特定页面范围的一个分类结果执行数据提取,可确保作为提取目标的数据仅出自这些页面,并且仅用于该文档类型。

如何使用数据提取组件

Data Extraction is done through the Data Extraction Scope activity. To extract data from documents, you can use one or more extractors, as the scope activity has the role of configuring and executing one or more algorithms for data extraction and of offering an easy, unitary configuration option for all your needs.

简而言之,“数据提取作用域”的执行内容如下:

  • 为所有提取程序(提取算法)提供运行所需的必要配置和输入。
  • 接受一个或多个提取程序。
  • 允许在提取程序级别执行字段级别激活、分类映射和最低可信度阈值设置。
  • 以统一方式报告提取的数据,而不论报告该特定数据的提取程序为何。

“数据提取作用域”允许您使用配置提取程序向导对其进行配置。您可以自定义以下内容:

  • 从每个提取程序请求哪些字段,
  • 每个分类器可接受的给定数据点提取程序的最低可信度阈值是多少,
  • 项目分类和提取程序的内部分类(如有)之间在字段级别的分类映射是什么。

You can mix and match extractors, in a hybrid approach, in which you can request a few fields be extracted by a certain Extractor, while other fields are extracted by a different extractor.

您甚至可以实施“回退”规则进行数据提取:如果某个特定的提取程序未针对给定字段报告可接受的值,则调用备份提取程序。

务必注意,数据提取作用域中提取程序的顺序非常重要:

  • 按从左到右的优先顺序执行提取程序;
  • 只有当某个字段的提取值的可信度等于或高于为该提取程序设置的最低可信度阈值时,系统才会接受该提取值;
  • 仅针对规定的分类页面范围执行提取程序,并且仅针对根据数据提取作用域配置请求的字段以及尚未从前面的提取程序获得可接受结果的字段执行提取程序。
    重要提示:

    If the Data Extraction Scope does not request any field from a given extractor, then that extractor is not executed. This may be the case of an extractor not configured for a certain incoming document type, or the case of an extractor being used as "fall-back" and the previous extractors reported all expected data already.

可用的提取程序

根据用例的要求,您可以从多种数据提取算法(称为“提取程序”)中选择。

You can use any extractor that is available in the UiPath.IntelligentOCR.Activities or UiPath.DocumentUnderstanding.ML.Activities package.

可用的提取程序包括:

您总是可以使用公共文档处理合同来构建自己的提取程序,因而能够实现任何适合自己用例的算法。

  • 什么是数据提取
  • 如何使用数据提取组件
  • 可用的提取程序

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新