- 概述
- 入门指南
- 构建模型
- 使用模型
- 模型详细信息
- 公共端点
- 1040 - 文档类型
- 1040 计划 C - 文档类型
- 1040 计划 D - 文档类型
- 1040 计划 E - 文档类型
- 1040x - 文档类型
- 3949a - 文档类型
- 4506T - 文档类型
- 709 - 文档类型
- 941x - 文档类型
- 9465 - 文档类型
- ACORD125 - 文档类型
- ACORD126 - 文档类型
- ACORD131 - 文档类型
- ACORD140 - 文档类型
- ACORD25 - 文档类型
- 银行对账单 - 文档类型
- 提单 - 文档类型
- 公司注册证书 - 文档类型
- 原产地证书 - 文档类型
- 支票 - 文档类型
- 儿童产品证书 - 文档类型
- CMS 1500 - 文档类型
- 欧盟符合性声明 - 文档类型
- 财务报表 - 文档类型
- FM1003 - 文档类型
- I9 - 文档类型
- 身份证 - 文档类型
- 发票 - 文档类型
- 发票 2 - 文档类型
- 澳大利亚发票 - 文档类型
- 发票中国 - 文档类型
- 希伯来语发票 - 文档类型
- 发票印度 - 文档类型
- 日本发票 - 文档类别
- 发票运输 - 文档类型
- 装箱单列表 - 文档类型
- 工资单 - 文档类型
- 护照 - 文档类型
- 采购订单 - 文档类型
- 收据 - 文档类型
- 收据 2 - 文档类型
- 日本收据 - 文档类型
- 汇款通知书 - 文档类型
- UB04 - 文档类型
- 美国抵押贷款平交披露 - 文档类型
- 公用事业账单 - 文档类型
- 车辆标题 - 文档类型
- W2 - 文档类型
- W9 - 文档类型
- 支持的语言
- Insights 仪表板
- 数据与安全性
- 日志记录
- 许可
- 如何
- 故障排除

Document Understanding 新式项目用户指南
在以下情况下,请使用可训练拆分器:
- 抵押贷款应用程序:拆分包含 ID、申请表和银行对账单的数据包。
- 医疗保健登记:验证是否存在所需文件,例如诊断书、NPI 表格和身份证。
- 保险索赔:单独的索赔表、医疗记录和收据。
- 发票处理:处理多供应商发票数据包。
- 文档清理:删除不相关的页面,以便仅在下游处理相关内容。
创建新项目时,欧洲和美国的租户可以启用新的拆分器和分类器模型。经过训练,可以训练此可训练模型拆分和分类复杂文档,从而处理文档数据包。
请按照此页面上的说明创建一个Document Understanding TM项目并启用新的拆分器和分类器模型。
先决条件
开始之前,请确保满足以下条件:
- 您的租户位于欧洲或美国。
- 已安装 IntelligentOCR.Activities 版本 6.27.0 或更高版本。
- 已在您的 Automation Cloud 租户中启用新式项目。
- 您有代表生产用例的示例文档数据包。
- 打开 Document Understanding。
- 选择“创建项目” 。
- 输入所需的项目名称。
- 选择“新式”以享受新式体验。
- 如果需要,请配置高级选项。
- 打开“启用拆分” 开关,以允许模型在分类之前将文档拆分为单独的文件。您也可以从“项目设置”屏幕启用此选项。
重要提示:关闭“启用拆分”选项时,模型以“仅分类”模式运行:
- 拆分注释界面不可用。
- 无法手动拆分文档。
- 对于训练,请上传相同类型的单页或多页文档。
- 所有其他功能保持不变。
- 从“OCR 方法”下拉列表中选择 OCR 方法。
- 输入“OCR API 密钥” 。
注意:如果您选择UiPath™ OCR,则系统会自动填充此字段。
- 输入OCR URL() 。有关 UiPath OCR URL 的完整列表,请参阅“公共端点”页面。
- 选择是否在 PDF 上应用 OCR 。默认情况下为“自动” 。
- 打开“启用拆分” 开关,以允许模型在分类之前将文档拆分为单独的文件。您也可以从“项目设置”屏幕启用此选项。
- 选择“创建”。
结果
项目已创建。“构建”部分将变为可用,您可以在其中上传文档以进行提取或分类。
选择两个可用选项之一:
- 从文档中提取数据:从文档中拉取特定字段,例如发票编号、日期和总计。需要从文档中提取字段时,请使用此选项。
- 对文档进行分类和拆分: 按类型对文档进行排序,并拆分单个文件中的多个文档。需要拆分文档并进行分类时,请使用此选项。
某些复杂文件包含多种文档类型。可训练的拆分器会检测每个子文档的开始和结束位置,并相应地对每个部分进行分类。
- 选择“分类并拆分文档” 。
- 上传您的文档数据包。等待上传和处理完成。
- 从“上传”部分选择一个文档。
- 选择“拆分” 。拆分注释界面将打开。
注意:如果项目已有经过训练的模型,则系统会使用该模型为上传的文档预先添加批注。这有助于加快注释速度,并允许您查看新文档的预测结果。
- 选择“新建文档类型” ,为分类中的每个项目创建文档类型。选择预定义的文档类型或创建自定义文档类型。
对于自定义文档类型,请提供以下信息:
- 名称:文档类型的清晰描述性名称。
- 说明:用一到三句话解释文档的目的及其与类似类型的区别。
- 关键指标:用于唯一标识此文档类型的逗号分隔字段或术语。
描述和关键指标直接影响模型准确性。如果分类分数较低,请在添加更多训练数据之前优化描述。
发票文档类型示例:
- 说明:卖方向买方发出的正式付款请求,会列出行项目、数量和应付总金额。
- 关键指标:发票编号、发票日期、总金额、卖方信息、买方信息、付款条件
编写有效说明的小贴士:
- 包括特定于文档类型的术语。
- 如果经常混淆两种文档类型,请为两种说明添加区别详细信息。
- 将不需要下游处理的页面分配给“未知”类型。这包括封页、空白页和分隔页。模型会在运行时将这些页面预测为“未知”。
- 选择文档类型之间的边界,以指示每个文档的开始位置和结束位置。
- 使用下拉菜单将每个页面范围分配给一种文档类型。
- 完成文档注释后,选择“确认” 。
结果
每个子文档都会显示在“构建”部分中相应的文档类型下。每个子文档都使用所分配的文档类型的架构预先批注。
在原始的、未拆分的生产文档数据包上进行训练,而不是在预拆分的单个文档上进行训练。
模型从每种文档类型周围的上下文中学习文档捆绑模式:实际数据包中之前和之后出现的内容。在预拆分文档上进行训练可删除此上下文,并降低拆分准确性。
推荐的方法:
- 上传包含多种文档类型的生产包。
- 包括表示生产中排序和文档计数范围的数据包。
- 力求获得所有文档类型的平衡数据集。
在满足以下两个条件后,模型训练将自动开始:
- 已创建并批注至少五个子文档。
注意:例如,如果您使用的是单个 PDF,则它必须至少包含五个子文档。如果您使用的是两个 PDF,则一个 PDF 必须包含至少两个子文档,另一个至少包含三个。
- 文档已确认。
训练状态显示在“分类”窗格的右上角。
训练数据要求
| 要求 | 详细信息 |
|---|---|
| 最低文档类型 | 1 |
| 样本总数下限 | 涵盖所有文档类型的 5 个文档 |
| 每种类型的最小样本数量 | 1 |
| 推荐用于获得可靠的结果 | 50 至 100 个数据包 |
| 最大文档大小 | 160 MB 或 500 页 |
| 训练/测试拆分 | 自动:80% 训练,20% 测试 |
改善培训结果
如果性能令人不满意,请使用以下方法之一:
- 优化效果不佳的文档类型的描述和关键指标。
- 为准确度较低的文档类型添加更多训练样本。
每当训练新模型时,项目中的所有文档都会收到经过训练的模型的预测。这可用于查看分类模型的性能。
“类型”列显示真实值,即批注的文档类型。“预测的类型”列显示模型预测的类型。
默认情况下,仅显示文档数据包。要查看每个包中的子文档,请选择“查看”,然后选中“包括子文档” 。
通过启用“显示预测”开关,您也可以在注释界面中使用预测。
选择“衡量”选项卡,以审核模型性能。
| 指标 | 衡量的内容 | 质量低时处理 |
|---|---|---|
| 拆分 F1 | 独立于分类的文档边界检测准确性 | 添加具有更多样边界示例的训练数据 |
| 分类 F1 | 不受限制的文档类型分配准确性 | 针对效果不佳的文档类型,添加更多训练页面 |
| 总体 F1 | 综合分数:边界和类型分配必须均正确 | 确定是拆分还是分类,并先解决问题 |
仅当边界检测和类型分配都正确时,子文档才被视为正确的子文档。
通过“智能 OCR”活动
使用 IntelligentOCR 包中的Document Understanding 项目分类器活动。在项目中启用拆分后,活动将返回多个分类结果,每个检测到的子文档一个。遍历结果以对每个子文档执行验证或提取。
通过 Document Understanding 活动
使用“分类文档”活动。
通过 API
classify端点。在项目版本中启用拆分时,端点会执行拆分,并返回每个已识别子文档的分类结果。
导出经过训练的模型数据集
如果项目版本包含经过训练的拆分器分类器,则有两个导出选项可用:
- “文档类型数据集导出”:批注数据的标准导出。
- 拆分器和分类器导出:完整的项目导出,包括经过训练的模型。
只有具有经过训练的拆分器分类器的项目版本才会显示在拆分器和分类器导出下拉列表中。
导入到新项目
导入选项在空的分类页面上可用。导入 zip 文件会自动将文档分配到其文档类型,并自动触发训练。