Document Understanding - 标注文档

document-understanding

latest

false

Document Understanding 用户指南

重要 :

新发布内容的本地化可能需要 1-2 周的时间才能完成。

标注文档

备注：

功能可用性取决于您使用的云平台。有关详细信息，请参阅“选择部署类型”页面。

备注：

预加标签功能依赖于 UiPath Helix Extractor，但仅适用于位于欧洲地区的租户。如果您的租户位于欧洲以外的区域，则此功能将使用上一代模型架构。

成功创建项目并将文档上传到特定文档类型后，系统会自动为文档预添加批注。这是根据文档类型的架构，将生成式和专用模型结合使用来完成的。架构明确定义了要从特定文档类型中提取的字段。要查找文档类型的架构，请转到“注释”页面并查看“字段”部分。

预测在文档中的文本上显示为下划线，无法删除。如果这些信息不正确且无法与特定字段匹配，您可以忽略它们。在训练流程期间，只有确认的字段会被用于训练，而不会考虑下划线。

随着您继续添加更多标注，预测下划线应会逐渐与您的输入对齐。开头下划线和用户标注字段之间可能存在一些不一致。但是，随着您创建的标注数量增加以及模型的改进，下划线与用户提供的数据之间的排列应该会更加精确。

在以下图像中，送货地址被错误预测为包含人员姓名。

要解决此问题，您只需确认收货地址。无需删除与名称相关的带下划线的文本。当您继续批注并更正此类错误时，带下划线的文本与已确认的字段不一致的情况应该会减少。

备注：

在开始训练运行之前，至少需要完成 40 次操作。例如，如果您有 20 个文档，则每个文档至少需要批注 2 个字段，总共需要 40 次操作。达到此阈值后，请在文档类型的注释页面上选择“开始训练” ，将训练加入队列。有关按钮状态和训练生命周期的详细信息，请参阅“开始训练运行” 。

提示：

要优化模型性能，请遵循“建议”部分中的建议。这些建议旨在提高模型的整体性能。

提取视图

您可以使用提取视图菜单更改提取视图模式。要访问此功能，请选择文档类型名称右侧的三点图标 ⁝，然后选择“提取视图”。

筛选值由只读的预测和可供用户编辑的标注组成。

您可以从列表中选择以下提取视图：

按列合并：模型预测显示在没有任何批注的列中。对于较小的表格，请选择此选项，您可以在其中查看和验证整个列。
按行合并：模型预测显示在没有任何批注的行中。如果您有较大的表格并且要逐行验证，请选择此项。
仅确认：仅显示从用户确认的标注提取的值。
仅预测（预测） ：仅显示模型预测。模型已重新训练时自动更新，并且不可编辑。
显示侧面板：在左侧显示带标注字段的面板。
显示表格：显示表格标注面板。

验证预测的文档

上传并预测所有文档后，您的目标是验证或修改预批注的字段。对于所有字段均被准确预测的文档，请选择“确认”以一次性确认所有字段。文档确认后，将在文档列表中显示绿色盾牌符号。

如果文档仅部分确认，则系统会在文档列表中以空的盾牌符号对其进行标记。这表示此特定文档的批注流程为“正在进行” 。您的最终目标是确保所有文档都是“确认”状态。

在验证期间，您可能会遇到以下情况：

预测正确，应进行验证。
预测不正确，该字段存在于文档中。
预测不正确，文档中缺少该字段。
没有预测。

预测正确，应进行验证

如果预测准确无误，您可以通过选择带下划线的文本并选择“确认”或选中字段的确认复选框来进行确认。不过最便捷的方法是直接按下分配给该字段的快捷键（在此场景中为“N”）。

预测不正确，且该字段位于文档中

如果预测不正确，请从文档中选择正确的文本和从下拉列表中选择相应的字段，然后选择“确认”。

当处理表格时，您可以选择忽略错误预测的值。这些值将不会用于模型训练，而重新训练的模型将学会在后续迭代中避免预测这些值。

预测不正确，文档中缺失该字段

如果预测不正确且文档中缺少该字段，请选择字段名称旁边的三点图标 ⁝，然后选择“标记为缺失”。

重要提示：

您也可以将错误的字段标记为缺失。例如，如果您的文档中没有“供应商地址” ，但在处理过程中将另一个字段预标记为“供应商地址” ，则您可以在验证期间将其标记为“缺失”。

无预测

没有预测的字段显示为空单元格。您可以将这些单元格逐一标记为缺失，或通过选择“确认”按钮批量标记为缺失。

文档类型设置

您可以在“批注”视图中更改文档类型设置。

要这样做，请选择文档类型名称右侧的三点图标 ⁝，然后选择“设置”。

您可以更改以下设置：

基本模型：“建议操作”中使用的数据集大小估计值取决于用于训练的基本模型。使用与您的文档类型最相似的基本模型将减少所需的注释工作量。
语言数量：“建议操作”中使用的数据集大小估计值取决于数据集中语言的数量。通常情况下，语言越多，需要添加注释的数据就越多。

在此页面上

提取视图
验证预测的文档
预测正确，应进行验证
预测不正确，且该字段位于文档中
预测不正确，文档中缺失该字段
无预测
文档类型设置

此页面有帮助吗？

前一个计量和收费逻辑（Flex 计划）

下一个表格和分组表格行

提取视图​

验证预测的文档​

预测正确，应进行验证​

预测不正确，且该字段位于文档中​

预测不正确，文档中缺失该字段​

无预测​

文档类型设置​