- 适用于 Automation Cloud 和 Test Cloud 的 Document Understanding
- 适用于 Automation Cloud 和 Test Cloud 公共部门的 Document Understanding
- 适用于 Automation Cloud 和 Test Cloud 专用版的 Document Understanding
- ML 包和公共端点
- 常规 ML 包和公共端点更新
- ML 包和公共端点版本历史记录

Document Understanding 发行说明
常规 ML 包和公共端点更新
UiPath Document OCR 公共端点发布版本
发布日期:2026 年 1 月 20 日
改进
- 在 Document Understanding 中的 OCR 期间,改进了对显示为徽标或样式化文本的公司名称的处理。
- 增强了对包含阿拉伯数字的阿拉伯语 ID 编号的 OCR 处理。此更新改进了受支持的阿拉伯语 ID 格式的数字识别,有助于减少在提取期间字符丢失或错误识别的情况。
UiPath Document OCR 公共端点发布版本
发布日期:2025 年 12 月 4 日
改进
新增了对夏威夷语变音符号的支持,以提高包含夏威夷语文本的文档的识别准确性。
UiPath Helix 提取程序公共端点改进
发布日期:2025 年 11 月 7 日
新增功能
- 美国提取模型的公共端点(财务报表除外)现在基于 Helix 提取程序。
- 美国的公共端点现在包括收据 2 、发票 2 、收据日本和美国抵押贷款结算披露信息。有关更多信息,请转到公共端点文档并展开表格以查看完整、可滚动的列表。我们建议您根据每个服务器区域确保活动已连接到正确的端点。
勘误 - 于 2025 年 1 月 16 日添加:作为我们正在进行的产品演变和组合调整的一部分,我们已将产品名称更新为 UiPath Helix Extractor。本文档中的所有参考文件都会反映此更改。
UiPath Helix 提取程序公共端点改进
新增功能
- 日本提取模型的公共端点(财务报表除外)现在基于 Helix 提取程序。
- 日本的公共端点现在包括收据 2 、发票 2和美国抵押贷款关闭披露。有关更多信息,请转到公共端点文档并展开表格以查看完整、可滚动的列表。我们建议您根据每个服务器区域确保活动已连接到正确的端点。
勘误 - 于 2025 年 1 月 16 日添加:作为我们正在进行的产品演变和组合调整的一部分,我们已将产品名称更新为 UiPath Helix Extractor。本文档中的所有参考文件都会反映此更改。
UiPath Helix 提取程序公共端点改进
发布日期:2025 年 8 月 14 日
新增功能
我们很高兴地宣布,欧洲地区基于 UiPath Helix 提取程序,针对公共端点发布了提高准确性的版本。
在此版本中,以下模型现在也基于欧洲地区的 UiPath Helix 提取程序:
- 9465
- 中国发票
- 希伯来语发票
- 日本发票
- 日本收据
完成此添加后,欧洲地区现在所有模型都基于 UiPath Helix Extractor,但财务报表除外。
新的文档类型
此版本引入了以下新的文档类型:
- 发票 2(发票 2 ):此文档类型经过训练,可以从各种发票类型中提取关键数据点,包括标准发票、贷项发票、印度发票和运输发票。增强型架构包含 55 个常规字段、两个结构化表格(一张用于行项目(13 列),一张用于银行付款详细信息(9 列))和一个货币分类器。
- 收据 2 :此文档类型经过训练,可从各种收据类型中提取关键数据点,包括但不限于停车收据、火车票、旅馆账单、机场消费、伙食、药房收据、电子收据等。增强后的架构由 60 个常规字段和一个结构化项目表格( 6 列)组成。
- 美国抵押贷款过户披露披露文件(FID) :此文档类型经过训练,可从标准美国抵押贷款过户披露表格中提取关键数据点。该架构包含 20 个常规字段,用于捕获借款人详细信息、财产信息、贷款条款、交易摘要和现金结算数字。
勘误 - 于 2025 年 1 月 16 日添加:作为我们正在进行的产品演变和组合调整的一部分,我们已将产品名称更新为 UiPath Helix Extractor。本文档中的所有参考文件都会反映此更改。
增强的字符识别功能
发布说明:2025 年 6 月 23 日
此更新对我们的光学字符识别 (OCR) 引擎进行了一系列改进,旨在提高更广泛输入样式的准确性和可靠性:
- 增强了手写检测功能。
- 增强等宽字体中“O”和“0”的区分度。
- 改进了对点矩阵打印文本的识别。
这些改进提高了各种文档类型的可靠性。
通过 API 和活动可用的日本收据文档类型
发布说明:2025 年 5 月 19 日
您现在可以通过 API、IntelligentOCR 以及 Document Understanding 活动使用日本收据 (Receipts Japan) 文档类型。这适用于日本地区的所有租户。
移除版本低于 2023.4 的开箱即用模型
发布日期:2025 年 4 月 11 日
移除版本低于 2023.4 的开箱即用模型
随着新型替代方案和升级解决方案的发布,我们移除了对开箱即用模型的支持,包括 UiPath Document Understanding OCR 与 OCR_CPU、数据提取 ML 包以及文档分类器。
下表详细说明了移除计划。
| 特性或功能 | 移除公布日期 | 移除日期: | 注意 |
|---|---|---|---|
| 早于 2023.4 的开箱即用 ML 包 | 2025 年 4 月 | 2025 年 4 月 | 我们建议使用最新版本的开箱即用 ML 包。 |
有关弃用时间线的更多信息,请查看概述指南中的弃用时间线。
UiPath Document OCR 公共端点发布版本
发布日期:2025 年 3 月 19 日
改进
- 整体复选框、手写和打印文本检测得到改进。
- 手写识别准确性得到了提升。
- 针对日本印章的印章检测功能得到改进。
- 边界框的大小和定位准确性得到了改进。
UiPath Helix 提取程序公共端点发布
发布日期:2024 年 11 月 28 日
新的文档类型
此版本引入了一种新的文档类型:日本收据 (Receipts Japan)。这个新的公共端点可以从各种文档类型中提取关键详细信息,例如常规收银机收据、餐厅收据、旅馆收据、火车收据、停车收据以及其他类型的日语收据等。
基于 UiPath Helix 提取程序的中国发票和日本发票的公共端点
我们很高兴宣布发布改进的中国发票和日本发票端点。该新一代端点基于新的 UiPath LLM UiPath Helix 提取程序,可提高准确性和性能。
日本发票改进
我们对“日本发票”公共端点进行了重大改进,添加了新字段,例如:
- 常规字段:
- 净减少额
- 已扣税额
- 未减少净额
- 未扣税额
- 预扣税额
- 存款
- 列字段:
- 项目税率
- 项目注册税
- 项目费用
勘误 - 于 2025 年 1 月 16 日添加:作为我们正在进行的产品演变和组合调整的一部分,我们已将产品名称更新为 UiPath Helix Extractor。本文档中的所有参考文件都会反映此更改。
发布日本发票公共端点
发布日期:2024 年 10 月 29 日
在“日本发票”端点中发布
改进
我们对文档数字化流程进行了重大改进。现在,当使用 UiPath 扩展语言 OCR 或中文、韩语、日语 OCR 时,输出将是常规字词框,而不是单个字符。
发布新的日本发票公共端点
发布日期:2024 年 10 月 15 日
在“日本发票”端点中发布
改进
- 提高了日本发票 ML 包的准确性。
- 当中文、日语或韩语字符在文档中与拉丁字符、标点符号和数字混合使用时,我们增强了间距和字词分析。
- 我们修复了一个问题,该问题导致 AI Center 训练管道不正确地为
ID Number和Phone Number字段类型报告高分。这可确保报告的分数与实际分数相符。
UiPath 扩展语言 OCR 正式发布
发布日期:2024 年 10 月 3 日
我们很高兴宣布,UiPath 最新的 OCR 引擎UiPath 扩展语言 OCR现已正式发布。新版 OCR 能够将 200 多个语言的文档数字化,与前身相比有显著改进,尤其是在中文、日语和韩语方面。此外,它可以处理泰语、越南语、印度的所有主要语言以及使用西里尔字母的语言和希腊语的文档。
UiPath 扩展语言 OCR 当前仅可用作公共端点。
基于 UiPath™ Helix 提取程序的新公共端点
发布日期:2024 年 9 月 17 日
UiPath Helix 提取程序上改进的性能和加入的新模型端点
此版本提高了基于UiPath Helix Extractor(新的 UiPath LLM)的模型的准确性和性能。此外,以下模型现在也基于 UiPath Helix Extractor:
- 709
- 941x
- 1040x
- 3949
- 3949a
模型端点重定向到旧一代
由于性能问题,系统已将财务报表模型端点重定向到旧一代。
预览模型已删除
已从公共端点和数据提取 ML 包中删除 990(预览版)模型。
勘误 - 于 2025 年 1 月 16 日添加:作为我们正在进行的产品演变和组合调整的一部分,我们已将产品名称更新为 UiPath Helix Extractor。本文档中的所有参考文件都会反映此更改。
弃用 UiPath 中文、日语、韩语 OCR
发行日期:2024 年 7 月 8 日
自 2025 年 1 月起,我们将弃用 UiPath 中文、日语、韩语 OCR。我们建议改用 UiPath 扩展语言 OCR。
查看“弃用时间线”页面,详细了解即将弃用和删除的内容。
基于 UiPath™ Helix 提取程序的发票和收据公共端点
发布日期:2024 年 6 月 12 日
我们很高兴宣布发布改进的发票和收据端点。该新一代端点基于新的 UiPath LLM UiPath Helix 提取程序,可提高准确性和性能。
我们将逐步将模型替换为更新一代的模型。目前,所有公共端点都基于Helix Extractor,但以下端点除外:
- 709
- 941x
- 1040x
- 3949a
- 9465
- 中国发票
- 希伯来语发票
- 日本发票
查看发行说明,以了解未来的公告。
勘误 - 于 2025 年 1 月 16 日添加:作为我们正在进行的产品演变和组合调整的一部分,我们已将产品名称更新为 UiPath Helix Extractor。本文档中的所有参考文件都会反映此更改。
基于 Helix 提取程序的公共端点
发行日期:2024 年 5 月 29 日
我们很高兴宣布发布改进的端点,适用于开箱即用的预训练 ML 包。基于新的 UiPath LLM,即UiPath Helix Extractor的新生成功能提高了准确性和性能。
我们将逐步将模型替换为更新一代的模型。目前,所有公共端点都基于Helix Extractor,但以下端点除外:
- 709
- 941x
- 1040x
- 3949a
- 9465
- 发票
- 中国发票
- 希伯来语发票
- 日本发票
- 收据
查看发行说明,以了解未来的公告。
勘误 - 于 2025 年 1 月 16 日添加:作为我们正在进行的产品演变和组合调整的一部分,我们已将产品名称更新为 UiPath Helix Extractor。本文档中的所有参考文件都会反映此更改。
UiPath 扩展语言 OCR(公共预览版)
发行日期:2024 年 3 月 28 日
我们很高兴宣布,UiPath 最新 OCR 引擎 UiPath 扩展语言 OCR 现已推出公开预览版。新版 OCR 能够将 200 多个语言的文档数字化,与前身相比有显著改进,尤其是在中文、日语和韩语方面。此外,它可以处理泰语、越南语、印度的所有主要语言以及使用西里尔字母的语言和希腊语的文档。
UiPath 扩展语言 OCR 当前仅可用作公共端点。
冻结的主干训练
发行日期:2023 年 4 月 27 日
ML 包版本 v23.4 及更高版本现在拥有使用冻结主干进行训练的选项。对于 400 页以下的小型或低多样性训练集,这种新方法的训练速度更快,并且效果更好。您可以使用官方文档中记录的新训练管道环境变量覆盖此行为。
已弃用澳大利亚发票
发布日期:2022 年 11 月 29 日
我们宣布即将弃用澳大利亚发票预训练 ML 包。我们建议改用发票 ML 包。您可以在此处找到更多相关详细信息。
ML 分类端点公开预览
发行日期:2022 年 6 月 27 日
在端点中发布
ML 分类端点现已在公开预览中提供。
UiPath 中文、日语、韩语 OCR 版本
端点
发行日期:2022 年 6 月 20 日
在端点中发布
UiPath 中文、日语、韩语 OCR 公共端点已正式发布。
数据提取 ML 包
发行日期:2022 年 6 月 6 日
在 AI Center Cloud 中发布,适用于数据提取 ML 包
新的 OCR 方法,即 UiPath 中文、日语、韩语 OCR,现在可用,并且只能应用于 Document Understanding (Cloud) 中的新项目或已创建的项目。
- UiPath Document OCR 公共端点发布版本
- 改进
- UiPath Document OCR 公共端点发布版本
- 改进
- UiPath Helix 提取程序公共端点改进
- 新增功能
- UiPath Helix 提取程序公共端点改进
- 新增功能
- UiPath Helix 提取程序公共端点改进
- 新增功能
- 新的文档类型
- 增强的字符识别功能
- 通过 API 和活动可用的日本收据文档类型
- 移除版本低于 2023.4 的开箱即用模型
- 移除版本低于 2023.4 的开箱即用模型
- UiPath Document OCR 公共端点发布版本
- 改进
- UiPath Helix 提取程序公共端点发布
- 新的文档类型
- 基于 UiPath Helix 提取程序的中国发票和日本发票的公共端点
- 日本发票改进
- 发布日本发票公共端点
- 改进
- 发布新的日本发票公共端点
- 改进
- UiPath 扩展语言 OCR 正式发布
- 基于 UiPath™ Helix 提取程序的新公共端点
- UiPath Helix 提取程序上改进的性能和加入的新模型端点
- 模型端点重定向到旧一代
- 预览模型已删除
- 弃用 UiPath 中文、日语、韩语 OCR
- 基于 UiPath™ Helix 提取程序的发票和收据公共端点
- 基于 Helix 提取程序的公共端点
- UiPath 扩展语言 OCR(公共预览版)
- 冻结的主干训练
- 已弃用澳大利亚发票
- ML 分类端点公开预览
- UiPath 中文、日语、韩语 OCR 版本
- 端点
- 数据提取 ML 包