UiPath Documentation
document-understanding
latest
false
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。
UiPath logo, featuring letters U and I in white

Document Understanding 新式项目用户指南

上次更新日期 2026年3月24日

可训练的拆分器(预览版)

概述

可训练的拆分器使用 Helix Classifier 模型对多文档数据包进行拆分和分类。它会自动检测文档边界,并为每个检测到的子文档分配文档类型。

该模式仅适用于欧洲和美国的租户。

何时使用

在以下情况下,请使用可训练拆分器:

  • 抵押贷款应用程序:拆分包含 ID、申请表和银行对账单的数据包。
  • 医疗保健登记:验证是否存在所需文件,例如诊断书、NPI 表格和身份证。
  • 保险索赔:单独的索赔表、医疗记录和收据。
  • 发票处理:处理多供应商发票数据包。
  • 文档清理:删除不相关的页面,以便仅在下游处理相关内容。

创建新项目

创建新项目时,欧洲和美国的租户可以启用新的拆分器和分类器模型。经过训练,可以训练此可训练模型拆分和分类复杂文档,从而处理文档数据包。

请按照此页面上的说明创建一个Document Understanding TM项目并启用新的拆分器和分类器模型。

先决条件

开始之前,请确保满足以下条件:

  • 您的租户位于欧洲或美国。
  • 已安装 IntelligentOCR.Activities 版本 6.27.0 或更高版本。
  • 已在您的 Automation Cloud 租户中启用新式项目。
  • 您有代表生产用例的示例文档数据包。
  1. 打开 Document Understanding
  2. 选择“创建项目”
  3. 输入所需的项目名称。
  4. 选择“新式”以享受新式体验。
  5. 如果需要,请配置高级选项
    1. 打开“启用拆分” 开关,以允许模型在分类之前将文档拆分为单独的文件。您也可以从“项目设置”屏幕启用此选项。
      重要提示:关闭“启用拆分”选项时,模型以“仅分类”模式运行:
      • 拆分注释界面不可用。
      • 无法手动拆分文档。
      • 对于训练,请上传相同类型的单页或多页文档。
      • 所有其他功能保持不变。


    2. “OCR 方法”下拉列表中选择 OCR 方法。
    3. 输入“OCR API 密钥”
      注意:如果您选择UiPath™ OCR,则系统会自动填充此字段。
    4. 输入OCR URL() 。有关 UiPath OCR URL 的完整列表,请参阅“公共端点”页面。
    5. 选择是否在 PDF 上应用 OCR 。默认情况下为“自动”
  6. 选择“创建”。

结果

项目已创建。“构建”部分将变为可用,您可以在其中上传文档以进行提取或分类。

选择两个可用选项之一:

  • 从文档中提取数据:从文档中拉取特定字段,例如发票编号、日期和总计。需要从文档中提取字段时,请使用此选项。
  • 对文档进行分类和拆分: 按类型对文档进行排序,并拆分单个文件中的多个文档。需要拆分文档并进行分类时,请使用此选项。

从文档中提取数据

  1. 选择文档类型。
  2. 选择“上传”或将文件拖放到新文档类型中。等待上传完成。

对文档进行分类和拆分

某些复杂文件包含多种文档类型。可训练的拆分器会检测每个子文档的开始和结束位置,并相应地对每个部分进行分类。

  1. 选择“分类并拆分文档”
  2. 上传您的文档数据包。等待上传和处理完成。
  3. 从“上传”部分选择一个文档。
  4. 选择“拆分” 。拆分注释界面将打开。
    注意:如果项目已有经过训练的模型,则系统会使用该模型为上传的文档预先添加批注。这有助于加快注释速度,并允许您查看新文档的预测结果。
  5. 选择“新建文档类型” ,为分类中的每个项目创建文档类型。选择预定义的文档类型或创建自定义文档类型。

    对于自定义文档类型,请提供以下信息:

    • 名称:文档类型的清晰描述性名称。
    • 说明:用一到三句话解释文档的目的及其与类似类型的区别。
    • 关键指标:用于唯一标识此文档类型的逗号分隔字段或术语。


    描述和关键指标直接影响模型准确性。如果分类分数较低,请在添加更多训练数据之前优化描述。

    发票文档类型示例:

    • 说明:卖方向买方发出的正式付款请求,会列出行项目、数量和应付总金额。
    • 关键指标:发票编号、发票日期、总金额、卖方信息、买方信息、付款条件

    编写有效说明的小贴士:

    • 包括特定于文档类型的术语。
    • 如果经常混淆两种文档类型,请为两种说明添加区别详细信息。
  6. 将不需要下游处理的页面分配给“未知”类型。这包括封页、空白页和分隔页。模型会在运行时将这些页面预测为“未知”。
  7. 选择文档类型之间的边界,以指示每个文档的开始位置和结束位置。
  8. 使用下拉菜单将每个页面范围分配给一种文档类型。
  9. 完成文档注释后,选择“确认”

结果

每个子文档都会显示在“构建”部分中相应的文档类型下。每个子文档都使用所分配的文档类型的架构预先批注。

训练最佳实践

在原始的、未拆分的生产文档数据包上进行训练,而不是在预拆分的单个文档上进行训练。

模型从每种文档类型周围的上下文中学习文档捆绑模式:实际数据包中之前和之后出现的内容。在预拆分文档上进行训练可删除此上下文,并降低拆分准确性。

推荐的方法:

  • 上传包含多种文档类型的生产包。
  • 包括表示生产中排序和文档计数范围的数据包。
  • 力求获得所有文档类型的平衡数据集。
注意:对拆分前的文档进行训练会生成工作模型,但拆分准确性低于对原始数据包进行训练时的准确性。

模型训练

在满足以下两个条件后,模型训练将自动开始:

  • 已创建并批注至少五个子文档。
    注意:例如,如果您使用的是单个 PDF,则它必须至少包含五个子文档。如果您使用的是两个 PDF,则一个 PDF 必须包含至少两个子文档,另一个至少包含三个。
  • 文档已确认。

训练状态显示在“分类”窗格的右上角。



训练数据要求

要求详细信息
最低文档类型1
样本总数下限涵盖所有文档类型的 5 个文档
每种类型的最小样本数量1
推荐用于获得可靠的结果50 至 100 个数据包
最大文档大小160 MB 或 500 页
训练/测试拆分自动:80% 训练,20% 测试

改善培训结果

如果性能令人不满意,请使用以下方法之一:

  1. 优化效果不佳的文档类型的描述和关键指标。
  2. 为准确度较低的文档类型添加更多训练样本。

拆分和分类预测

每当训练新模型时,项目中的所有文档都会收到经过训练的模型的预测。这可用于查看分类模型的性能。

“类型”列显示真实值,即批注的文档类型。“预测的类型”列显示模型预测的类型。

默认情况下,仅显示文档数据包。要查看每个包中的子文档,请选择“查看”,然后选中“包括子文档”

通过启用“显示预测”开关,您也可以在注释界面中使用预测。

了解指标

选择“衡量”选项卡,以审核模型性能。

指标衡量的内容质量低时处理
拆分 F1独立于分类的文档边界检测准确性 添加具有更多样边界示例的训练数据
分类 F1不受限制的文档类型分配准确性 针对效果不佳的文档类型,添加更多训练页面
总体 F1综合分数:边界和类型分配必须均正确 确定是拆分还是分类,并先解决问题

仅当边界检测和类型分配都正确时,子文档才被视为正确的子文档。

注意:测试集中包含许多未知页面的大型文档可能会大大降低分数。如果分数出奇低,请检查异常值文档是否影响了测试集。

在运行时使用模型

通过“智能 OCR”活动

使用 IntelligentOCR 包中的Document Understanding 项目分类器活动。在项目中启用拆分后,活动将返回多个分类结果,每个检测到的子文档一个。遍历结果以对每个子文档执行验证或提取。

通过 Document Understanding 活动

使用“分类文档”活动。

通过 API

使用classify端点。在项目版本中启用拆分时,端点会执行拆分,并返回每个已识别子文档的分类结果。

导入和导出

导出经过训练的模型数据集

如果项目版本包含经过训练的拆分器分类器,则有两个导出选项可用:

  • “文档类型数据集导出”:批注数据的标准导出。
  • 拆分器和分类器导出:完整的项目导出,包括经过训练的模型。

只有具有经过训练的拆分器分类器的项目版本才会显示在拆分器和分类器导出下拉列表中。

导入到新项目

导入选项在空的分类页面上可用。导入 zip 文件会自动将文档分配到其文档类型,并自动触发训练。

限制

  • 仅在位于欧洲和美国的租户中可用。
  • 无法在注释界面中对页面重新排序或删除。
  • 拆分信息在监控页面中不可用。
  • 不支持从 Action Center 对拆分和分类模型进行重新训练。

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新