document-understanding
latest
false
- 概述
- 入门指南
- 构建模型
- 使用模型
- 模型详细信息
- 公共端点
- 1040 - 文档类型
- 1040 计划 C - 文档类型
- 1040 计划 D - 文档类型
- 1040 计划 E - 文档类型
- 1040x - 文档类型
- 3949a - 文档类型
- 4506T - 文档类型
- 709 - 文档类型
- 941x - 文档类型
- 9465 - 文档类型
- ACORD125 - 文档类型
- ACORD126 - 文档类型
- ACORD131 - 文档类型
- ACORD140 - 文档类型
- ACORD25 - 文档类型
- 银行对账单 - 文档类型
- 提单 - 文档类型
- 公司注册证书 - 文档类型
- 原产地证书 - 文档类型
- 支票 - 文档类型
- 儿童产品证书 - 文档类型
- CMS 1500 - 文档类型
- 欧盟符合性声明 - 文档类型
- 财务报表 - 文档类型
- FM1003 - 文档类型
- I9 - 文档类型
- 身份证 - 文档类型
- 发票 - 文档类型
- 发票 2 - 文档类型
- 澳大利亚发票 - 文档类型
- 发票中国 - 文档类型
- 希伯来语发票 - 文档类型
- 发票印度 - 文档类型
- 日本发票 - 文档类别
- 发票运输 - 文档类型
- 装箱单列表 - 文档类型
- 工资单 - 文档类型
- 护照 - 文档类型
- 采购订单 - 文档类型
- 收据 - 文档类型
- 收据 2 - 文档类型
- 日本收据 - 文档类型
- 汇款通知书 - 文档类型
- UB04 - 文档类型
- 美国抵押贷款平交披露 - 文档类型
- 公用事业账单 - 文档类型
- 车辆标题 - 文档类型
- W2 - 文档类型
- W9 - 文档类型
- 支持的语言
- Insights 仪表板
- 数据与安全性
- 许可
- 如何
- 故障排除
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。

Document Understanding 新式项目用户指南
上次更新日期 2025年9月25日
迁移传统项目
link使用此页面中的说明迁移传统项目或基于 AI Center 的项目。迁移项目有两个主要步骤:
- 从传统项目或基于 AI Center 的项目导出数据集。
- 将数据集导入新式项目。
当前限制
link- 目前,不支持导入超过 3000 页的数据集。只能成功导入前 3000 页,导入任何其他页面都将失败。例如,如果您的数据集包含 2999 页,并且您尝试导入 4 页的文档,则该过程将不会成功。
- 批次名称和相应的批次结果当前不可用。如果您的数据已组织为批次,则系统不会显示此信息,但会保存此信息。
- 不支持从 AI Center 导出。 仅支持从 Document Manager 导出。
从传统项目导出数据集
link- 导航到要迁移的传统项目并将其打开。
-
转到要导出的文档类型,然后选择“打开文档类型”。
图 1. 打开文档类型
-
从“筛选文档”下拉列表中,选择“训练集和验证集”。
图 2. 训练集和验证集
- 选择 “导出”。
- 选中“当前搜索结果”,并填写导出作业的名称。
-
选择“ 下载”。
图 3. 下载导出内容
从基于 AI Center 的项目中导出数据集
link- 打开 AI Center 并导航到数据标签页面。
-
选择要迁移的数据标签会话。
-
打开 Document Manager 后,从“筛选文档”下拉列表中选择“训练集和验证集”。
图 4. 训练集和验证集
- 选择 “导出”。
- 选中“当前搜索结果”,并填写导出作业的名称。
-
选择“ 下载”。
图 5. 下载导出内容
导入数据集
link- 导航到要向其中导入数据的项目,并将其打开。
-
选择“添加文档类型”,然后创建新的自定义文档类型。
图 6. 添加文档类型
-
在新的自定义文档类型中,选择“上传”,然后选择已导出的传统项目的 zip 文件。等待上传完成。
注意:不支持从 AI Center 导出。 仅支持从 Document Manager 导出。图 7. 上传处理
上传完成后,文档即可用于训练。
模型训练
link导入数据集后,系统即会开始模型训练。训练完成后,将显示模型分数。要查看详细的模型分数,请选择分数,然后选择“详细模型分数”。
此操作将带您进入衡量页面,您可以在其中访问详细的模型指标。
当使用相同的数据集训练 ML 两次时,您可以观察到略有不同的模型指标。发生这种情况的原因如下:
- 初始化:机器学习使用需要初始猜测的优化方法来触发优化算法。由于这些算法的不可预测性,每次训练期间不同的初始猜测可能会导致不同的结果。
- 随机状态:某些算法在其操作中使用随机性。例如,在训练神经网络时,随机梯度下降和小批量梯度下降等过程会引入随机性。因此,即使初始模型参数和数据集相同,模型的性能在不同的运行中也可能有所不同。
- 正则化:某些算法包含鼓励模型保持较小权重的惩罚项。由于涉及随机性,模型每次都可以使用不同的权重集运行。
但是,请务必注意,这些细微差别并不一定意味着一个模型优于或不如另一个模型。即使指标略有不同,只要差异不是很大,模型理解数据的能力基本上保持不变。此外,多次重复此过程并取平均值应该会产生类似的性能指标。
在文档类型管理器中更改基本模型
link如果传统项目的模型结果与新式项目的模型结果之间存在重大差异,则可能是由于基础模型不同所致。要更改基础模型,请继续执行以下步骤:
- 从自定义文档类型中选择三点菜单,然后选择“文档类型管理器”。
- 导航到“设置”选项卡。
- 从“基本模型”下拉列表中选择所需的模型。
- 进行选择后,选择“保存”。要退出,请选择“返回”。
导出类型
link对于传统项目,有多种方法可用于导出数据。并非所有类型的导出数据都可以导入到新式项目中。为比较两种项目类型的模型结果,请按“训练集和验证集”筛选文档,然后选择“选择搜索结果”以导出数据集。有关各个选项的更多信息,请查看以下表格。
导出类型 | 导出数据 | 导入的数据会发生什么情况 |
---|---|---|
当前搜索结果 | 导出当前筛选的数据集。与“训练集和验证集”筛选器一起使用。 | 标记为“训练”的文档用于训练模型。标记为“验证”的文档用于衡量模型性能。
提示:要比较两种项目类型之间的模型结果,请始终将数据集导出和导入为“训练和验证”。
|
全部已添加标签 | 从数据集中导出所有带批注的文档:
|
|
架构 | 导出字段列表及其各自的设置。 | 如果没有架构,则导入架构。如果已定义架构,则导入将失败。 |
全部 | 导出所有带注释和不带注释的文档。 |
|
导入架构
link您可以将架构与数据集一起导入新式项目。请按照以下步骤导入架构:
- 在“构建”部分中创建自定义文档类型。
- 导入包含架构的 zip 文件。
备注:
- 架构导入仅限于没有预先存在架构的自定义文档类型。
- 如果您将架构导入已包含架构的文档类型,则导入将失败。