- 概述
- 入门指南
- Activities (活动)
- Insights 仪表板
- Document Understanding 流程
- 快速入门教程
- 框架组件
- 模型详细信息
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 流量限制
- OCR 配置
- 管道
- OCR 服务
- 支持的语言
- 深度学习
- 数据与安全性
- 许可和计费逻辑

Document Understanding classic user guide
数据提取概述
什么是数据提取
Data Extraction is a component in the Document UnderstandingTM Framework that helps in identifying very specific information that you are interested in, from your document types.
可作为数据提取目标的信息在项目分类中定义,即其中定义的特定文档类型的字段列表。对于项目分类中未显示的字段,无法进行自动数据提取配置。
Document Understanding 框架的数据提取步骤可确保以正确的顺序为正确的字段列表和处理中文件的正确页面范围调用配置的提取程序。这意味着,如果在同一文件中发现两种或两种以上文档类型(针对不同的页面范围),建议您多次执行数据提取步骤,每个分类结果执行一次。对具有特定页面范围的一个分类结果执行数据提取,可确保作为提取目标的数据仅出自这些页面,并且仅用于该文档类型。
如何使用数据提取组件
Data Extraction is done through the Data Extraction Scope activity. To extract data from documents, you can use one or more extractors, as the scope activity has the role of configuring and executing one or more algorithms for data extraction and of offering an easy, unitary configuration option for all your needs.
简而言之,“数据提取作用域”的执行内容如下:
- 为所有提取程序(提取算法)提供运行所需的必要配置和输入。
- 接受一个或多个提取程序。
- 允许在提取程序级别执行字段级别激活、分类映射和最低可信度阈值设置。
- 以统一方式报告提取的数据,而不论报告该特定数据的提取程序为何。
“数据提取作用域”允许您使用配置提取程序向导对其进行配置。您可以自定义以下内容:
- 从每个提取程序请求哪些字段,
- 每个分类器可接受的给定数据点提取程序的最低可信度阈值是多少,
- 项目分类和提取程序的内部分类(如有)之间在字段级别的分类映射是什么。
You can mix and match extractors, in a hybrid approach, in which you can request a few fields be extracted by a certain Extractor, while other fields are extracted by a different extractor.
您甚至可以实施“回退”规则进行数据提取:如果某个特定的提取程序未针对给定字段报告可接受的值,则调用备份提取程序。
务必注意,数据提取作用域中提取程序的顺序非常重要:
- 按从左到右的优先顺序执行提取程序;
- 只有当某个字段的提取值的可信度等于或高于为该提取程序设置的最低可信度阈值时,系统才会接受该提取值;
- 仅针对规定的分类页面范围执行提取程序,并且仅针对根据数据提取作用域配置请求的字段以及尚未从前面的提取程序获得可接受结果的字段执行提取程序。
重要提示:
If the Data Extraction Scope does not request any field from a given extractor, then that extractor is not executed. This may be the case of an extractor not configured for a certain incoming document type, or the case of an extractor being used as "fall-back" and the previous extractors reported all expected data already.
可用的提取程序
根据用例的要求,您可以从多种数据提取算法(称为“提取程序”)中选择。
You can use any extractor that is available in the UiPath.IntelligentOCR.Activities or UiPath.DocumentUnderstanding.ML.Activities package.
可用的提取程序包括:
您总是可以使用公共文档处理合同来构建自己的提取程序,因而能够实现任何适合自己用例的算法。