document-understanding
latest
false
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。
UiPath logo, featuring letters U and I in white

Document Understanding 新式项目用户指南

上次更新日期 2025年11月20日

可训练的拆分器(预览版)

创建新项目

创建新项目时,位于欧洲和美国的租户可以启用我们新的拆分器和分类器模型。这种可训练的模型可以通过训练对复杂文档进行拆分和分类,以便您处理文档包。

按照此页面中的 Document UnderstandingTM 项目说明进行操作,并启用新的拆分器和分类器模型:

  1. 打开 Document Understanding
  2. 选择“创建项目”
  3. 填写所需的项目名称。
  4. 选择“新式”以享受新式体验。
  5. 打开“启用新的拆分器和分类器模型”开关。
  6. 如果需要,请配置高级选项
    1. 打开“启用拆分”开关,使模型能够在分类之前将文档拆分为单独的文件。您还可以在“项目设置”屏幕中启用此功能。
      重要:当“启用拆分”选项关闭时,所有文档都将作为一个整体进行分类。
    2. 从“OCR 方法”下拉列表中选择要用于新项目的 OCR。
    3. 填写 OCR API 密钥
      注意:如果您选择 UiPath™ OCR,则系统会自动填充此字段。
    4. 填写 OCR URL。有关 UiPath OCR URL 的完整列表,请查看“公共端点”页面。
    5. 选择是否要在 PDF 上应用 OCR。默认情况下设置为“自动”。
  7. 选择“创建”。

成功创建项目后,您可以从“构建”部分上传文档。

选择两个可用选项之一:

  • 从文档中提取数据:从文档中提取特定字段,例如发票编号、日期、总数等。
    注意:需要从文档中提取字段时,建议选择此选项。
  • 对文档进行分类和拆分:按类型对文档进行分类,并拆分单个文件中的多个文档。
    注意:需要对文档拆分和分类时,建议选择此选项。

从文档中提取数据

  1. 选择文档类型。
  2. 选择“上传”或将文件拖放到新文档类型中。等待上传完成。

对文档进行分类和拆分

某些复杂文件包含多种文档类型。我们的新模型可以检测每个子文档的开始和结束位置,并相应地对每个部分进行分类。

  1. 单击“对文档进行分类和拆分”,然后上传您的文档包。等待文档完成上传和处理。

  2. 从“上传”部分中选择任何文档,然后单击“拆分”。此时将打开拆分批注界面。

    注意:如果项目已有训练过的模型,则会使用该模型对上传的文档进行预批注。这有助于加快批注速度,并查看新文档的预测结果。
  3. 单击“新建文档类型”,为所需分类中的每个项目创建文档类型。您可以选择预定义的文档类型或创建自定义文档类型。

    注意:对于自定义文档类型,请提供名称、解释其用途的简短描述,以及有助于识别该文档类型、用逗号分隔的关键指标(例如唯一字段或术语)。
  4. 指明文档分割的位置。使用下拉菜单将每个页面的范围分配给一个文档类型。完成文档批注后,单击“确认”。

    注意:单击“确认”会触发文档处理。处理后,每个子文档将显示在“构建”部分的相应文档类型下。
    注意:每个移动到文档类型的子文档都会通过文档类型架构进行预批注。

模型训练

只有在以下情况下,才会触发模型训练:

  • 至少已创建五个子文档并进行了批注
    注意:例如,如果您使用的是单个 PDF,请确保其中至少包含五个子文档,以开始训练。如果您使用的是两个 PDF,一个应至少包含两个子文档,另一个应至少包含三个子文档。
  • 文档已确认。

可以在“分类”窗格的右上角查看训练状态。

重要提示:
  • 文档大小上限为 160MB 或 500 页。
  • 页面无法重新排序或删除。

拆分和分类预测

每当训练新模型时,项目中的所有文档都会收到来自已训练模型的预测结果。这样,您就可以查看分类模型的性能。

类型”列显示基本事实,即被批注的文档类型。“预测类型”列显示模型预测的类型。

默认情况下,用户界面中仅显示文档包。要查看每个包中的子文档,请单击“查看”,然后选中“包括子文档”复选框。

还可以启用“显示预测”开关,在批注界面中查看预测结果。

  • 创建新项目
  • 从文档中提取数据
  • 对文档进行分类和拆分

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo
信任与安全
© 2005-2025 UiPath。保留所有权利。