- 概述
- 入门指南
- 构建模型
- 使用模型
- 模型详细信息
- 公共端点
- 1040 - 文档类型
- 1040 计划 C - 文档类型
- 1040 计划 D - 文档类型
- 1040 计划 E - 文档类型
- 1040x - 文档类型
- 3949a - 文档类型
- 4506T - 文档类型
- 709 - 文档类型
- 941x - 文档类型
- 9465 - 文档类型
- ACORD125 - 文档类型
- ACORD126 - 文档类型
- ACORD131 - 文档类型
- ACORD140 - 文档类型
- ACORD25 - 文档类型
- 银行对账单 - 文档类型
- 提单 - 文档类型
- 公司注册证书 - 文档类型
- 原产地证书 - 文档类型
- 支票 - 文档类型
- 儿童产品证书 - 文档类型
- CMS 1500 - 文档类型
- 欧盟符合性声明 - 文档类型
- 财务报表 - 文档类型
- FM1003 - 文档类型
- I9 - 文档类型
- 身份证 - 文档类型
- 发票 - 文档类型
- 发票 2 - 文档类型
- 澳大利亚发票 - 文档类型
- 发票中国 - 文档类型
- 希伯来语发票 - 文档类型
- 发票印度 - 文档类型
- 日本发票 - 文档类别
- 发票运输 - 文档类型
- 装箱单列表 - 文档类型
- 工资单 - 文档类型
- 护照 - 文档类型
- 采购订单 - 文档类型
- 收据 - 文档类型
- 收据 2 - 文档类型
- 日本收据 - 文档类型
- 汇款通知书 - 文档类型
- UB04 - 文档类型
- 美国抵押贷款平交披露 - 文档类型
- 公用事业账单 - 文档类型
- 车辆标题 - 文档类型
- W2 - 文档类型
- W9 - 文档类型
- 支持的语言
- Insights 仪表板
- 数据与安全性
- 许可
- 如何
- 故障排除

Document Understanding 新式项目用户指南
标注文档
link成功创建项目并将文档上传到特定文档类型后,系统会自动为文档预添加批注。这是根据文档类型的架构,将生成式和专用模型结合使用来完成的。架构明确定义了要从特定文档类型中提取的字段。要查找文档类型的架构,请转到“批注”页面并查看“字段”部分。
预测在文档中的文本上显示为下划线,无法删除。如果这些信息不正确且无法与特定字段匹配,您可以忽略它们。在训练流程期间,只有确认的字段会被用于训练,而不会考虑下划线。
随着您继续添加更多标注,预测下划线应会逐渐与您的输入对齐。开头下划线和用户标注字段之间可能存在一些不一致。但是,随着您创建的标注数量增加以及模型的改进,下划线与用户提供的数据之间的排列应该会更加精确。
在以下图像中,送货地址被错误预测为包含人员姓名。
要解决此问题,您只需确认收货地址。无需删除与名称相关的带下划线的文本。当您继续批注并更正此类错误时,带下划线的文本与已确认的字段不一致的情况应该会减少。
提取视图
link您可以使用提取视图菜单更改提取视图模式。要访问此功能,请选择文档类型名称右侧的三点图标 ⁝,然后选择“提取视图”。
筛选值由只读的预测和可供用户编辑的标注组成。
- 按列合并:模型预测显示在没有任何标注的列中。选择此功能用于较小的表,您可以在其中查看和验证整个列。
- 按行合并:模型预测显示在没有任何标注的行中。当您的表格较大且想逐行检查时,选择此选项。
- 仅确认:仅显示从用户确认的标注提取的值。
- 仅预测:仅显示模型预测。 重新训练模型且不可编辑时会自动更新。
- 显示侧面板:在左侧显示带标注字段的面板。
- 显示表格:显示表格标注面板。
验证预测的文档
link上传并预测所有文档后,您的目标是验证或修改预批注的字段。对于所有字段均被准确预测的文档,请选择“确认”以一次性确认所有字段。文档确认后,将在文档列表中显示绿色盾牌符号。
如果文档仅部分确认,则系统会在文档列表中以空的盾牌符号对其进行标记。这表示此特定文档的批注流程为“正在进行”。您的最终目标是确保所有文档都是“确认”状态。
- 预测正确,应进行验证。
- 预测不正确,该字段存在于文档中。
- 预测不正确,文档中缺少该字段。
- 没有预测。
预测正确,应进行验证
预测不正确,且该字段位于文档中
如果预测不正确,请从文档中选择正确的文本和从下拉列表中选择相应的字段,然后选择“确认”。
当处理表格时,您可以选择忽略错误预测的值。这些值将不会用于模型训练,而重新训练的模型将学会在后续迭代中避免预测这些值。
预测不正确,文档中缺失该字段
无预测
没有预测的字段显示为空单元格。您可以将这些单元格逐一标记为缺失,或通过选择“确认”按钮批量标记为缺失。
文档类型设置
link您可以在“注释”视图中更改文档类型设置。
要这样做,请选择文档类型名称右侧的三点图标 ⁝,然后选择“设置”。
- 基本模型:“建议操作”中使用的数据集大小估计值取决于用于训练的基本模型。使用与您的文档类型最相似的基本模型将减少所需的注释工作量。
- 语言数量:“建议操作”中使用的数据集大小估计值取决于数据集中语言的数量。通常情况下,语言越多,需要添加注释的数据就越多。