Document Understanding 用户指南

重新训练提取程序

备注：

功能可用性取决于您使用的云平台。有关详细信息，请参阅“选择部署类型”页面。

您可以使用在验证站点中验证的文档，进一步提高模型的性能。

您可以使用以下活动重新训练文档经过处理的文档：

UiPath.DocumentUnderstanding.Activities：使用此活动包处理并在验证站点中验证的所有文档都会自动收集，可用于重新训练。
UiPath.IntelligentOCR.Activities （从 6.25.0 预览版开始）：要重新训练使用此活动包处理的文档，请在工作流中使用“ Document Understanding 项目提取程序训练器”活动。这样便可收集文档以用于重新训练目的。

现在，对于相应文档类型，在“构建”部分中始终可见“审核异常”按钮。如果未收集任何文档，则该按钮将保持可用状态，并显示 0 个计数。

备注：

收集的文档不会自动包含在训练集中。查看文档，并确认将其添加到训练集中。然后在文档类型的注释页面上选择“开始训练” ，将包含所添加文档的新训练运行加入队列。有关详细信息，请参阅开始运行训练。

待审核的异常

按照此过程中的步骤，使用验证站点中的文档微调模型。

备注：

针对异常情况收集的文档将存储 90 秒，在此期限后，系统会将其自动删除。系统不会为持续时间超过 7 天的验证任务收集文档。

选择“待审核的异常”按钮。
查看“待微调的异常”菜单中的异常文档。

每个文档都提供以下信息：
- 文件名称：包含异常的文档的文件名称。
- 状态：文档的状态。
- 页面：文档包含的页面数。
- 项目版本：包含文档的项目版本。
- 处理日期：处理文档的日期。
- 提取字段的数量：包含异常的文档的提取字段数量。
- 更正字段的数量：在验证阶段被修改的字段数量。
- 验证者姓名：验证文档的人员的用户名。
备注：
“微调例外”列表可能包括从其他 Document Understanding 项目或环境导入的文档。
从列表中选择你想要用于微调的文档。

每个文档都提供以下信息：
- 此时将显示所有提取的字段以及模型的置信度。如果置信度的值为 N/A，这表示该字段未自动提取，而是由验证者手动添加的。
- 更正的字段的提取字段名称旁边标记有黄点。
- 以下信息可用于所有更正的字段：
  - 预测值：模型预测的值。
  - 更正的值：如果手动更改，则为验证后的值。如果验证后未更改文档类型，则该值将为N/A 。
  - 参考：文档中高亮显示的原始值。如果您决定使用文档进行微调，则此值将用于注释。
- 您可以轻松按置信度排序查看置信度低的字段，无需进行更正。
- 您也可以筛选出已更正的字段，专注于这类字段。
如果您想进一步标注此文档，请选择“标注”，如果您想使用此文档重新训练模型，请选择“用于模型微调”。
- 用于模型微调：
  - 当文档是模型微调的理想样本、且所有字段在文档中引用正确时选择此项。
  - 文档导入训练中时带有“异常”标签，而且所有标注均已完成确认。文档将用于微调。
- 标注：
  - 如果文档是模型微调的良好示例，但存在一些验证错误，例如并非所有字段都在文档中正确引用，需要进一步更正，则请选择此选项。
  - 文档导入训练集中时带有“异常”标签，而且所有标注均未确认。标注必须在构建部分中完成确认，文档才能用于微调模型。
  - 如果您选择进一步标注文档，请查看“标注文档”页面，了解有关如何标注文档的更多信息。
- 排除：
  - 当文档并非理想样本，且需将其从待审核异常列表中移除，而且在未来审核会话中无需审核该文档时选择此项。
  - 您可以更改文档的状态以恢复更改。
图 1. 用于微调或标注的选定文档

选择所有文档进行微调后，系统会使用验证站点中的新数据重新训练您的模型。

您可以创建新的项目版本，并使用“度量”部分中的“比较模型”功能对模型性能进行比较。

[预览] 导出和导入重新训练候选对象

Document Understanding 允许您从一个环境导出重新训练候选对象，然后将其导入到另一个环境。

此设置通常用于以下场景：您维护开发 - 测试 - 生产环境结构，您的流程涉及在更高层次的环境（例如测试、UAT 或生产）中创建开发 Document Understanding 项目的副本。在此安排中，重新训练文档会被收集到生产项目中，导出 - 导入功能允许您将文档带回开发环境以进行模型重新训练，然后将更新推回更高层次的环境。

导出重新训练候选对象

您可以选择“导出”按钮，直接从“待审核的异常”页面导出重新训练候选对象。选择“查看导出”，以访问已导出文件的列表。

您可以选择导出所有收集的文档或仅导出所选子集，具体取决于您喜欢如何管理审核流程，如下例所述：

您可以导出所有收集的文档，在计划导入文档并重新训练模型的环境中对其进行分类。
您可以在当前环境中完成审核，并仅导出要用于重新训练的特定文档。

导入重新训练候选对象

从“待审核的例外”页面导入。导入的文档的显示方式与自动从“验证站点”收集的文档类似，并具有“目标审核”状态。

已导入的文档将作为重新训练候选对象添加。要对模型进行微调，只需执行与直接在项目中收集的文档相同的步骤。请记住，在将重新训练候选对象添加到训练集中之前，请查看并确认它们。

在此页面上

待审核的异常
[预览] 导出和导入重新训练候选对象
导出重新训练候选对象
导入重新训练候选对象

此页面有帮助吗？

前一个开始训练运行

下一个训练分类器

Document Understanding 用户指南

待审核的异常​

[预览] 导出和导入重新训练候选对象​

导出重新训练候选对象​

导入重新训练候选对象​

此页面有帮助吗？

待审核的异常

[预览] 导出和导入重新训练候选对象

导出重新训练候选对象

导入重新训练候选对象