- 概述
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- 990 - ML 包 - 预览
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 护照 - ML 包
- 工资单 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 硬件要求
- 管道
- Document Manager
- OCR 服务
- 支持的语言
- 深度学习
- Insights 仪表板
- 部署在 Automation Suite 中的 Document Understanding
- 在 AI Center 独立版中部署的 Document Understanding
- 许可
- Activities (活动)
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.Intelligent OCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Document Understanding 用户指南
简介
The UiPath® Document UnderstandingTM framework facilitates the processing of incoming files, from file digitization to extracted data validation, all in an open, extensible, and versatile environment.
Document Understanding 旨在帮助您结合使用不同的方法,从多种文档类型中提取信息。其主要目的是尽量简化数据提取过程:创建一个可从各种文档中提取数据的工作流。
在使用 Document Understanding 框架之前,建议您先了解以下 Document Understanding 框架组件:
- 分类 What documents need to be processed and what data is required from them? Used to define the document types and the pieces of information targeted for data extraction (fields) for each document type, and formalizes this information into a dedicated Taxonomy structure. This metadata information is managed through the Taxonomy Manager.
- 数字化 此文件包含哪些内容?用于获取传入文档的文本内容和结构,将文件转换为计算机可读内容,以便在下游做进一步处理。
- 文档分类 此文件包含分类中的哪些文档类型?用于自动确定在数字化的文件中可以找到哪些文档类型。
- 文档分类验证 分类预测是否正确?我就是通过这种方式来执行审核和更正的。用于协助人工验证和更正自动分类及文档拆分结果。
- 分类训练 数据是否经过人工审核?机器人正是通过这种方式来学习的。用于将人工验证后的信息传递回分类器,用于改进分类器未来的预测功能。
- 数据提取 在此特定文档中可以找到哪些数据?用于在给定的输入文档和分类页面范围内捕获已识别的文档类型所需的信息。
- 数据提取验证 提取的信息是否正确?我就是通过这种方式来执行审核和更正的。用于协助人工验证和更正自动提取的数据结果。
- 数据提取训练 数据是否经过人工审核?机器人正是通过这种方式来学习的。用于将人工验证后的提取数据传递回提取程序,利用它来改进提取预测。
- 数据消耗用于导出经验证的数据以便使用。
- 计量和收费逻辑用于说明每个可用服务的每页消耗量。
下图显示 Document Understanding 框架的各个组件以及它们之间的相互关系:

The Document Understanding framework is found in the UiPath.IntelligentOCR.Activities package. Once the UiPath.IntelligentOCR.Activities package is installed, the Taxonomy Manager wizard appears in the top ribbon of the UiPath Studio. This same package contains all the core document understanding framework activities.
这些“作用域”活动(“对文档作用域进行分类”、“数据提取作用域”、“训练分类器作用域”、“训练提取程序作用域”)属于 Document Understanding 框架的一部分,允许您使用适合用例的任何文档分类和数据提取算法,然后训练这些算法。
The Document Understanding framework can be used not only with the out-of-the-box classifiers and extractors but also with any custom-built ones. These can be created using the abstract classes from the UiPath.DocumentProcessing.Contracts package and can be implemented as classification or data extraction activities. Custom-built OCR engines can also be created using the abstract classes from the UiPath.OCR.Contracts package.
资源
可以在 UiPath RPA Academy 中找到专门的 Document Understanding 课程。
UiPath Community 论坛是通过我们不断发展的用户社区获得支持的地方。