
非结构化文档和复杂文档用户指南
模型目前无法直接从用户标注中学习。要提高模型的性能,请修改您的提示指令或模型配置。
在您对提示指令感到满意后,您可以开始验证模型的预测,为其性能评估建立基础。在此之前,您必须了解预测和参考之间的差异。
引用和突出显示的跨度存在已知的限制,是我们需要优先改进的关键问题之一。
- 正确的预测和正确的引用,但突出显示的跨度有误。通常,这是找到的第一个匹配项。
- 预测正确,但缺少引用或/且未突出显示跨度。在这些场景中,我们提供页码作为备用方法。
- 有下划线 - 预测值。
- 有填充色 - 确认值。
- 虚线边框 - 未确认值。
要验证提取,请按照以下步骤操作:
- 转到“ 构建 ”选项卡,然后选择“ 验证预测 或任何上传的文档”,以开始验证流程。该模型突出显示文档中的文本的相关跨度,并在侧面板中显示生成的预测。
适用于多项提取数据的值(例如账户号码)具有箭头按钮,以帮助跳转到相关部分。鼠标悬停时显示按钮。
下图显示了提取数据在预测状态下的外观。预测值始终带有下划线。 - 查看预测,并逐个确认提取,或通过确认整个字段组来批量确认提取。不建议在未仔细查看每个提取的情况下选择“ 全部确认”和“下一步 ”按钮。
下图显示了:
- 表格第一行显示了提取数据在未确认状态下的外观,即曾经被确认,但现在处于未确认状态的值。未确认的值具有虚线边框。
- 表格第二行和第三行显示了提取数据在确认状态下的外观,即您已确认或更正的值。确认的值始终有填充色。
Note: Any changes you make but do not submit are saved as a draft, which you can return to and update later. For more details, check Draft annotations. - 您可以随时通过 “管理分类” 或 “构建” 选项卡配置提取架构中的其他字段。
在 Action Center 中验证提取的示例
- 提取是否正确,请对其进行确认。
- 如果提取不正确,则对其进行更正。
- 如果文档中不存在这些字段,则将其标记为“缺失”。
- 配置提取架构中的其他字段。
本节显示了提取和引用在确认状态(已验证)和未确认状态(未验证)时的外观。
预测值
未确认值
文档中的引用会突出显示虚线边框:
没有提取标记为“已确认”:
已确认
引用会以实线边框的形式突出显示:
提取被标记为“已确认”:
本节包含模型预测与用户标注匹配或不匹配的示例场景。
当批注与预测匹配时,提取过程如下所示:
当批注与预测不匹配时,提取过程如下所示:
在有批注但没有预测时,提取数据如下所示:
- 将鼠标悬停在提取数据上,然后点击铅笔图标以编辑预测值。
- 输入正确值。
- 选择加号
+
图标,以更新预测值或引用。 - 在文档中突出显示正确值。
在“ 验证预测 ”页面的“ 构建 ”选项卡下,按以下方式编辑提取:
- 选择加号图标,添加缺失的提取。
- 选择表格图标,以打开表格视图。
- 从侧面板或表格视图确认提取。
- 将鼠标悬停在提取上,使用铅笔和加号图标逐个更正提取:
- 点击铅笔图标,您可以编辑预测值并输入正确的值。
- 使用加号图标,您可以更新预测值或引用,并在文档中突出显示正确的值。
- 选择 “添加字段组”, 以添加缺失的字段组。
Any edits you make to values and references on a document are stored as draft annotations until you submit them to the model as annotations. As a result, the document statuses appear as Partially annotated.
All of the previously-mentioned actions, such as validating, correcting, and editing extractions, and then submitting the annotations, are kept in draft as you make changes.
If you request new predictions while a document is in a draft state, the system preserves the draft annotations while repopulating new predictions, and matches the new set of predictions from the model to the draft annotations.