- 概述
- 入门指南
- 构建模型
- 使用模型
- 模型详细信息
- Automation Cloud 和 Test Cloud 的公共端点
- Automation Cloud 和 Test Cloud 公共部门的公共端点
- 1040 - 文档类型
- 1040 计划 C - 文档类型
- 1040 计划 D - 文档类型
- 1040 计划 E - 文档类型
- 1040x - 文档类型
- 3949a - 文档类型
- 4506T - 文档类型
- 709 - 文档类型
- 941x - 文档类型
- 9465 - 文档类型
- ACORD125 - 文档类型
- ACORD126 - 文档类型
- ACORD131 - 文档类型
- ACORD140 - 文档类型
- ACORD25 - 文档类型
- 银行对账单 - 文档类型
- 提单 - 文档类型
- 公司注册证书 - 文档类型
- 原产地证书 - 文档类型
- 支票 - 文档类型
- 儿童产品证书 - 文档类型
- CMS 1500 - 文档类型
- 欧盟符合性声明 - 文档类型
- 财务报表 - 文档类型
- FM1003 - 文档类型
- I9 - 文档类型
- 身份证 - 文档类型
- 发票 - 文档类型
- 发票 2 - 文档类型
- 澳大利亚发票 - 文档类型
- 发票中国 - 文档类型
- 希伯来语发票 - 文档类型
- 发票印度 - 文档类型
- 日本发票 - 文档类别
- 发票运输 - 文档类型
- 装箱单列表 - 文档类型
- 工资单 - 文档类型
- 护照 - 文档类型
- 采购订单 - 文档类型
- 收据 - 文档类型
- 收据 2 - 文档类型
- 日本收据 - 文档类型
- 汇款通知书 - 文档类型
- UB04 - 文档类型
- 美国抵押贷款平交披露 - 文档类型
- 公用事业账单 - 文档类型
- 车辆标题 - 文档类型
- W2 - 文档类型
- W9 - 文档类型
- 支持的语言
- Insights 仪表板
- 数据与安全性
- 日志记录
- 许可
- 如何
- 故障排除

Document Understanding 用户指南
重新训练提取程序
功能可用性取决于您使用的云平台。有关详细信息,请参阅“选择部署类型”页面。
您可以使用在验证站点中验证的文档,进一步提高模型的性能。
您可以使用以下活动重新训练文档经过处理的文档:
- UiPath.DocumentUnderstanding.Activities:使用此活动包处理并在验证站点中验证的所有文档都会自动收集,可用于重新训练。
- UiPath.IntelligentOCR.Activities (从 6.25.0 预览版开始):要重新训练使用此活动包处理的文档,请在工作流中使用“ Document Understanding 项目提取程序训练器”活动。这样便可收集文档以用于重新训练目的。
现在,对于相应文档类型,在“构建”部分中始终可见“审核异常”按钮。 如果未收集任何文档,则该按钮将保持可用状态,并显示 0 个计数。
收集的文档不会自动包含在训练集中。您需要查看文档并确认将其添加到训练集中,以重新训练模型。
待审核的异常
按照此过程中的步骤,使用验证站点中的文档微调模型。
针对异常情况收集的文档将存储 90 秒,在此期限后,系统会将其自动删除。系统不会为持续时间超过 7 天的验证任务收集文档。
-
选择“待审核的异常”按钮。
-
查看“待微调的异常”菜单中的异常文档。
每个文档都提供以下信息:
- 文件名称:包含异常的文档的文件名称。
- 状态:文档的状态。
- 页面:文档包含的页面数。
- 项目版本:包含文档的项目版本。
- 处理日期:处理文档的日期。
- 提取字段的数量:包含异常的文档的提取字段数量。
- 更正字段的数量:在验证阶段被修改的字段数量。
- 验证者姓名:验证文档的人员的用户名。
备注:“微调例外”列表可能包括从其他 Document Understanding 项目或环境导入的文档。

-
从列表中选择你想要用于微调的文档。
每个文档都提供以下信息:
- 此时将显示所有提取的字段以及模型的置信度。如果置信度的值为 N/A,这表示该字段未自动提取,而是由验证者手动添加的。
- 更正的字段的提取字段名称旁边标记有黄点。
- 以下信息可用于所有更正的字段:
- 预测值:模型预测的值。
- 更正的值:如果手动更改,则为验证后的值。如果验证后未更改文档类型,则该值将为N/A 。
- 参考:文档中高亮显示的原始值。如果您决定使用文档进行微调,则此值将用于注释。
- 您可以轻松按置信度排序查看置信度低的字段,无需进行更正。
- 您也可以筛选出已更正的字段,专注于这类字段。

-
如果您想进一步标注此文档,请选择“标注”,如果您想使用此文档重新训练模型,请选择“用于模型微调”。
- 用于模型微调:
- 当文档是模型微调的理想样本、且所有字段在文档中引用正确时选择此项。
- 文档导入训练中时带有“异常”标签,而且所有标注均已完成确认。文档将用于微调。
- 标注:
- 如果文档是模型微调的良好示例,但存在一些验证错误,例如并非所有字段都在文档中正确引用,需要进一步更正,则请选择此选项。
- 文档导入训练集中时带有“异常”标签,而且所有标注均未确认。标注必须在构建部分中完成确认,文档才能用于微调模型。
- 如果您选择进一步标注文档,请查看“标注文档”页面,了解有关如何标注文档的更多信息。
- 排除:
- 当文档并非理想样本,且需将其从待审核异常列表中移除,而且在未来审核会话中无需审核该文档时选择此项。
- 您可以更改文档的状态以恢复更改。
图 1. 用于微调或标注的选定文档

- 用于模型微调:
选择所有文档进行微调后,系统会使用验证站点中的新数据重新训练您的模型。
您可以创建新的项目版本,并使用“度量”部分中的“比较模型”功能对模型性能进行比较。
[预览] 导出和导入重新训练候选对象
Document Understanding 允许您从一个环境导出重新训练候选对象,然后将其导入到另一个环境。
此设置通常用于以下场景:您维护开发 - 测试 - 生产环境结构,您的流程涉及在更高层次的环境(例如测试、UAT 或生产)中创建开发 Document Understanding 项目的副本。 在此安排中,重新训练文档会被收集到生产项目中,导出 - 导入功能允许您将文档带回开发环境以进行模型重新训练,然后将更新推回更高层次的环境。
导出重新训练候选对象
您可以选择“导出”按钮,直接从“待审核的异常”页面导出重新训练候选对象。 选择“查看导出”,以访问已导出文件的列表。

您可以选择导出所有收集的文档或仅导出所选子集,具体取决于您喜欢如何管理审核流程,如下例所述:
-
您可以导出所有收集的文档,在计划导入文档并重新训练模型的环境中对其进行分类。
-
您可以在当前环境中完成审核,并仅导出要用于重新训练的特定文档。

导入重新训练候选对象
从“待审核的例外”页面导入。导入的文档的显示方式与自动从“验证站点”收集的文档类似,并具有“目标审核”状态。
已导入的文档将作为重新训练候选对象添加。 要对模型进行微调,只需执行与直接在项目中收集的文档相同的步骤。 请记住,在将重新训练候选对象添加到训练集中之前,请查看并确认它们。