UiPath Documentation
document-understanding
2024.10
false
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。
UiPath logo, featuring letters U and I in white

Document Understanding 用户指南

上次更新日期 2026年4月6日

简介

The UiPath® Document UnderstandingTM framework facilitates the processing of incoming files, from file digitization to extracted data validation, all in an open, extensible, and versatile environment.

Document Understanding 旨在帮助您结合使用不同的方法,从多种文档类型中提取信息。其主要目的是尽量简化数据提取过程:创建一个可从各种文档中提取数据的工作流。

在使用 Document Understanding 框架之前,建议您先了解以下 Document Understanding 框架组件

  • 分类 What documents need to be processed and what data is required from them? Used to define the document types and the pieces of information targeted for data extraction (fields) for each document type, and formalizes this information into a dedicated Taxonomy structure. This metadata information is managed through the Taxonomy Manager.
  • 数字化 此文件包含哪些内容?用于获取传入文档的文本内容和结构,将文件转换为计算机可读内容,以便在下游做进一步处理。
  • 文档分类 此文件包含分类中的哪些文档类型?用于自动确定在数字化的文件中可以找到哪些文档类型。
  • 文档分类验证 分类预测是否正确?我就是通过这种方式来执行审核和更正的。用于协助人工验证和更正自动分类及文档拆分结果。
  • 分类训练 数据是否经过人工审核?机器人正是通过这种方式来学习的。用于将人工验证后的信息传递回分类器,用于改进分类器未来的预测功能。
  • 数据提取 在此特定文档中可以找到哪些数据?用于在给定的输入文档和分类页面范围内捕获已识别的文档类型所需的信息。
  • 数据提取验证 提取的信息是否正确?我就是通过这种方式来执行审核和更正的。用于协助人工验证和更正自动提取的数据结果。
  • 数据提取训练 数据是否经过人工审核?机器人正是通过这种方式来学习的。用于将人工验证后的提取数据传递回提取程序,利用它来改进提取预测。
  • 数据消耗用于导出经验证的数据以便使用。
  • 计量和收费逻辑用于说明每个可用服务的每页消耗量。

下图显示 Document Understanding 框架的各个组件以及它们之间的相互关系:

Document Understanding 框架示意图

The Document Understanding framework is found in the UiPath.IntelligentOCR.Activities package. Once the UiPath.IntelligentOCR.Activities package is installed, the Taxonomy Manager wizard appears in the top ribbon of the UiPath Studio. This same package contains all the core document understanding framework activities.

这些“作用域”活动(“对文档作用域进行分类”、“数据提取作用域”、“训练分类器作用域”、“训练提取程序作用域”)属于 Document Understanding 框架的一部分,允许您使用适合用例的任何文档分类和数据提取算法,然后训练这些算法。

The Document Understanding framework can be used not only with the out-of-the-box classifiers and extractors but also with any custom-built ones. These can be created using the abstract classes from the UiPath.DocumentProcessing.Contracts package and can be implemented as classification or data extraction activities. Custom-built OCR engines can also be created using the abstract classes from the UiPath.OCR.Contracts package.

资源

可以在 UiPath RPA Academy 中找到专门的 Document Understanding 课程。

UiPath Community 论坛是通过我们不断发展的用户社区获得支持的地方。

  • 资源

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新