UiPath Documentation
document-understanding
latest
false
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。
UiPath logo, featuring letters U and I in white

Document Understanding 用户指南

上次更新日期 2026年4月27日

关键概念

Familiarize yourself with the core concepts around UiPath® Document UnderstandingTM.

主动学习

Active learning is our modern approach to creating models for Document UnderstandingTM.

主动学习提供了一种交互式体验,其中学习算法可以查询用户,以使用所需的输出标记数据。此流程有助于将训练机器学习模型所需的时间和数据减少多达 80%。AI 用于指导流程,其中包括自动标注,这通常是最耗时的任务。该模型还使用内容丰富的数据集提供专家建议,以提高准确性。

图 1. 主动学习的工作原理 该图展示了用于改进 ML(机器学习)模型的主动学习工作流。该流程从在 ML 模型中评估性能开始。主动学习可识别信息最丰富的数据点,从而提高模型性能。系统会将这些数据点发送到“人工批注”步骤,以进行手动审核。然后,这些注释用于重新训练和重新部署 ML 模型,创建用于持续改进的反馈循环。箭头表示 ML 模型、主动学习和人工批注之间的流程。

使用主动学习,您还可以通过分析功能监控自动化。

文档类型

文档类型是指根据文档的内容、格式、目的或其他区别因素对文档进行的分类。相关示例包括发票、收据、合同、报告、医疗记录、法律文档等。

某些文档类型具有高度结构化的内容,而其他文档类型则主要包含自由文本。基于此,文档分为三种主要格式:

  • 结构化:旨在以特定格式收集信息的文档。例如,调查、税表、护照或许可证都属于结构化文档。
  • 半结构化:不遵循严格格式,也不绑定到指定数据字段的文档。半结构化文档包括发票、收据、水电费账单、银行对账单等。
  • 非结构化:不遵循特定或组织模式的文档。例如,合同、租约或新闻文章都属于非结构化文档。

要了解有关文档类型的更多信息,请查看文档类型部分。

生成式 AI

备注:

Feature availability depends on the cloud platform that you use. For details, refer to the Choosing the deployment type page.

生成式 AI 是 AI 技术的一种形式,它利用机器学习 (ML) 模型创建和生成新的内容、数据或信息。

大多数生成式 AI 任务的关键是大型语言模型 (LLM)。这些是基于大量文本数据进行训练的 ML 模型,旨在生成拟人化文本。LLM 还可以通过拟人化的方式完成句子或段落来理解和回应提示。

In the context of Document UnderstandingTM, generative AI helps with:

  • 信息提取:生成式 AI 模型可用于从非结构化或半结构化文档中提取特定信息。例如,它可以浏览发票以检索日期、账单金额和公司名称等详细信息。
  • 文档分类:ML 模型用于根据文档内容对文档进行自动分类。这些算法会“读取”文档,了解其上下文,并可将其归入预定义的类别。
  • 数据验证:每当置信度分数过低时,生成式 AI 都可以检查 ML 模型的输出。如果两个 ML 模型(生成式模型和专用化模型)具有相同的输出,则人工可以跳过验证该文档的步骤。这可以通过在第二个生成模型的帮助下检查输出来减少用于验证文档的时间,并提高模型的性能。

ML 模型

ML 模型就像虚拟助理,经过训练,可以从数据中学习并做出预测或决策。这些模型本质上是学习根据历史数据识别模式的算法。它们接触的数据越多,随着时间推移,就越能改进自己的预测或决策。

You can find several out of the box ML models in Document UnderstandingTM. These models help you classify and extract any commonly occurring data points from semi-structured or unstructured documents, with no setup required.

请查看“预训练文档类型”页面,了解预训练模型及其字段的完整列表。

只要 OCR 能够以高置信度识别文档和文本,就可以在大多数语言上训练 ML 模型。

光学字符识别

光学字符识别 (OCR) 是一种特殊技术,用于将不同类型的文档(例如扫描的纸质文档、PDF 文件或数码相机拍摄的图像)转换为可编辑和可搜索的数据。

OCR 引擎的准确性通常取决于原始文档的质量。采用可读字体的清晰且格式良好的文本通常会产生最佳输出。

For more information on the languages supported by the OCR engines options provided by UiPath®, check the OCR Supported Languages page.

  • 主动学习
  • 文档类型
  • 生成式 AI
  • ML 模型
  • 光学字符识别

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新