UiPath Documentation
document-understanding
latest
false
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。
UiPath logo, featuring letters U and I in white

Document Understanding classic user guide

上次更新日期 2026年4月23日

导入文档

“导入数据”对话框用于轻松导入要添加标签或修订的新文档。

Select the Import button 导入图标 from the management bar.

该对话框包含以下控件:

  • “批处理名称”文本字段 - 必须输入导出名称,否则将禁用“浏览或拖放文件”部分;有效名称最多可包含 24 个字符,并且不应包含特殊字符。

  • Make this an evaluation set checkbox - if selected, the dataset is used for evaluation purposes.

  • Browse or drop files section - select Browse files to upload to navigate through your directory or simply drag and drop the files inside the frame.

  • Status section - select (load previous import log) to check to check the status of the latest import; when uploading data, in the Status section you receive an overview of your files and you are prompted to proceed with the import by selecting YES or abort the import by selecting CANCEL.

    “导入数据”界面的屏幕截图。

导入类型

Document Manager 中支持 4 种类型的导入:

  • 架构导入
  • Raw documents import (max 2000 pages and 4000 MiB per import)
  • Document Manager dataset import (4000 MiB per import)
  • Validation Station dataset import (max 2000 pages and 4000 MiB per import)

架构导入

如果要使用与现有会话相同的架构启动新的 Document Manager 会话,可以按照以下步骤操作:

  1. Select the Export button from the management bar.
  2. 在“导出文件”对话框中,选中“架构”选项。
  3. Select the Export button inside the dialog box. A .zip file is exported.
  4. Select the Import button from the management bar.
  5. Upload or drag & drop the .zip file directly into the new Document Manager session (do not unzip). In this step, you can also upload a predefined schema.
  6. Select YES in the Status section to proceed with the import. The schema is imported.

也可以将架构导入应用于多值字段。

重要提示:

请注意,多值字段仅与版本 2022.10 或更高版本的模型兼容。

原始文档导入

可以导入以添加标签的文档类型包括:.pdf.tiff.png.jpg

原始文档导入不支持 .zip 文件。

导入前需要配置 OCR 设置。

  1. Select the Import button 导入图标. The Import data dialog box is displayed.
  2. 在“批次名称”字段中提供批次名称。这使您日后可以使用“搜索”下拉列表轻松筛选和查找这些文档。
    • 如果要使用此文档批次来训练 ML 模型,请取消选中“将此作为评估集”复选框。
    • 如果要使用此文档批次来评估 ML 模型(即衡量其性能),请选中“将此作为评估集”复选框。这可确保训练管道忽略数据。
  3. 上传一个或一组文件,或者将文件拖放到“浏览或拖放文件”部分。
  4. Select YES. The file or set of files are imported.

Document Manager 数据集导入

要导入先前在另一个 Document Manager 会话中标记的数据集,您需要获取最初导出的 .zip 文件,并将其直接导入到新的 Document Manager 实例中。

如果新的 Document Manager 实例完全为空(无任何数据且未定义任何字段),则系统将同时导入带标签的文档和架构。

如果新的 Document Manager 实例已定义字段,则新导入的数据集需要具有相同字段或这些字段的子集。否则,导入将被拒绝。

如果您从 Automation Cloud™ 环境导出数据库,然后将其导入到本地部署中,则需要执行以下步骤:

  1. 解压缩数据集文件。
  2. 编辑存档中的 scheman.json 文件。
  3. json 文件中删除所有 display_name 属性,然后保存该文件。
  4. 重新压缩数据集,并将其导入到本地部署会话中。
拆分大型数据集

To import Document Manager datasets larger than 1GB or that have more than 1500 files, we recommend you to use this script which splits the .zip files into multiple .zip files that are smaller than 1GB and that have less than 1500 files.

验证站点数据集导入

As your RPA workflow processes documents using an existing ML model, some documents may require human validation using the Validation Station activity (available on attended bots or in the browser using Orchestrator Action Center).

The validated data generated in Validation Station can be exported using Machine Learning Extractor Trainer activity and can be used to train ML models.

备注:

对于验证站点数据集导入,则必须定义架构。

  1. 配置机器学习提取程序训练器,以将数据输出到路径为 <Trainer/Output/Folder> 的文件夹中(使用任何空文件夹路径)。
  2. 运行 RPA 工作流,包括验证站点机器学习提取程序训练器
  3. 机器学习提取程序训练器将在输出文件夹中创建三个子文件夹:文档、元数据和预测。
  4. 压缩 <Trainer/Output/Folder> 以获取 .zip 文件,例如 TrainerOutputFolder.zip
  5. .zip 文件导入到 Document Manager 中,该文件管理器会检测导入是否包含机器学习提取程序训练器生成的数据,并相应地导入数据。

如果缺少数据集所需的字段,则导入对话框中将显示错误消息。

“导入数据”界面的屏幕截图。

  • 导入类型
  • 架构导入
  • 原始文档导入
  • Document Manager 数据集导入
  • 验证站点数据集导入

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新