UiPath Documentation
document-understanding
latest
false
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。
UiPath logo, featuring letters U and I in white

Document Understanding 发行说明

上次更新日期 2026年4月23日

ML 包和公共端点版本历史记录

v25.2.2

UiPath Document Understanding OCR

发布日期:2025 年 8 月 6 日

Released in UiPath Document Understanding OCR and endpoints | v25.2.2

错误修复

我们修复了模型在具有噪声背景的图像中错误地检测到多个文本框的问题。

改进

我们改进了某些表单中包含天、月和年的日期相关字段的手写检测。 之前的模型有时会将这些字段分组为一个单词,从而降低检测性能。

v25.2.0

UiPath Document Understanding OCR

发行日期:2025 年 2 月 11 日

Released in UiPath Document Understanding OCR and endpoints | v25.2.0

勘误

2025 年 2 月 20 日添加

备注:

New functionalities that were previously announced, such as new support for circled, underlined, and crossed-out boxes, are not available yet.

改进

使用此新版本时,您可以期待文档中的手写识别性能有所提高。

复选框检测功能也得到了改进。

所有数据集的延迟都已减少。

v24.11.3

UiPath Document Understanding OCR

发布日期:2024 年 11 月 27 日

Released in UiPath Document Understanding OCR and endpoints | v24.11.3

改进

在此版本中,我们增强了各种文本类型的准确性和性能。这包括超大或低分辨率图像上打印的文本,以及手写文本。

复选框的识别能力,尤其是由完全变黑的正方形或矩形表示的复选框,得到了显著改进。此外,我们还微调了签名检测。

v24.10.3

数据提取

发布日期:2025 年 5 月 27 日

Released in Data Extraction ML packages | v24.10.3

备注:

Erratum - added 24 June 2025: The improvements and fixes included in the v24.10.3 release have been reverted due to unforeseen issues. For the latest information and updates, follow our release notes.

改进
  • 我们改进了数字解析功能,以更准确地处理那些将空格用作装饰符或小数点分隔符的数字。
  • 我们增强了日期分析,以添加对马来语日期的支持。
错误修复
  • 我们修复了导致常规字段中提取值的单词排序错误的问题。
  • 我们还解决了横向页面中文档内日语文本无法提取的缺陷。

v24.9.1

UiPath Document Understanding OCR

发布日期:2024 年 10 月 3 日

Released in UiPath Document Understanding OCR and endpoints | v24.9.1

改进

此版本提高了手写识别的准确性,并提高了性能。

v24.7

UiPath 文档 OCR

发行日期:2024 年 7 月 23 日

Released in UiPath Document Understanding OCR and endpoints (including UiPath Document Understanding OCR_CPU) | v24.7

改进
  • The accuracy for the Azerbaijani language is improved by adding recognition for the əƏ characters.
  • 磁墨字符识别 (MIRC) 的识别和检测得到了改进,从而提高了准确性,尤其是支票的准确性。
  • 以前,当使用空格作为分隔符时,在某些情况下无法识别数字。现在,此问题已得到改进,现在可以在使用空格作为分隔符时识别数字。
错误修复

UiPath Document Understanding OCR 的置信度分数得到了提高,尤其是在处理质量较低的图像时。在使用置信度分数来决定文档是否需要在 Action Center 中进行人工验证的工作流中,此改进可能会导致接受验证的文档数量增加。

v24.4.4

数据提取

发布日期:2024 年 10 月 3 日

Released in Data Extraction ML packages | v24.4.4

错误修复
  • 我们修复了一个问题,该问题导致 AI Center 训练管道不正确地为 ID NumberPhone Number 字段类型报告高分。这可确保报告的分数与实际分数相符。
  • 我们更正了使用扩展语言 OCR 时与解析日语字段值相关的问题。

v24.4.3

Document Understanding 和数据提取

发行日期:2024 年 8 月 14 日

Released in endpoints + DocumentUnderstanding + Data Extraction ML packages | v24.4.3

改进

Improved field text formatting for Chinese, Japanese, and Korean languages when using the UiPath® Extended Languages OCR in the digitization step.

v24.4.2

印度发票和端点

发行日期:2024 年 7 月 23 日

Released in endpoints and InvoicesIndia ML package | v24.4.2

错误修复

我们修复了与印度发票中的数字解析相关的问题。

v24.4.1

Document Understanding、日本发票和端点

发行日期:2024 年 6 月 20 日

Released in endpoints + DocumentUnderstanding + InvoicesJapan ML package | v24.4.1

错误修复

我们修复了与日语专用的列字段中的日期相关的问题。

v24.4.0

文档分类器和数据提取

发行日期:2024 年 5 月 24 日

发布于:

  • DocumentUnderstanding + Data Extraction ML packages | v24.4.0
  • DocumentClassifier ML packages | v24.4.0
新增功能

以下新的 ML 包现在处于公开预览阶段:

改进

此版本还对其他几个 ML 包进行了改进:

  • Accuracy for the Invoices Japan ML package is improved. There are also 11 new fields for the Invoices Japan model. For the complete list of extracted fields, check the Out-of-the-box models details file.
  • The performance for the Payslips model is improved.
  • New IDs are available for the ID Cards ML package:
    • Aadhaar 身份证
    • 沙特阿拉伯身份证
    • 永久帐号卡
  • New fields are available for the UB04 ML package. For the complete list of extracted fields, check the Out-of-the-box models details file.
  • New fields are available for the Checks ML package. For the complete list of extracted fields, check the Out-of-the-box models details file.

Erratum - added 20 June 2024: Added information regarding a bug fix related to the parsing of Japanese dates.

Erratum - added 28 May 2024: Added more information on several improvements.

v24.3.2

Document Understanding OCR 端点

发行日期:2024 年 3 月 13 日

Released in DocumentUnderstandingOCR Endpoints | v24.3.2

Document Understanding OCR 的新版本现已可供一般用途使用。

此版本带来了以下改进:

  • 提高了土耳其语 (TUR) 的准确性。处理带有变音符号的字符(Ç、ç、Ğ、ğ、I、ı、İ、i、Ş、ş、Ö、ö、Ü、ü)时,性能现已增强。
  • 东部阿拉伯数字(٤、٥、٦、٧、٨、٩、٠、١、٢、٣)的准确性得到了改进。

v24.2.1

Document Understanding OCR 端点

发行日期:2024 年 2 月 9 日

Released in DocumentUnderstandingOCR Endpoints | v24.2.1

我们很高兴地宣布,现已推出支持 UiPath Document Understanding OCR 阿拉伯语 (ARA) 的公开预览版。

v24.2.0

数据提取

发布日期:2024 年 4 月 1 日

Released in Data Extraction ML Packages | v24.2.0

此版本引入了对公开预览中提供的新模型的支持:

  • 1040 附表 C
  • 1040 附表 D
  • 1040 附表 E
  • UB04

Document Classifier

发行日期:2024 年 3 月 4 日

Released in DocumentClassifier ML Packages | v24.2.0

此版本引入了对公开预览中提供的新模型的支持:

  • 1040 附表 C
  • 1040 附表 D
  • 1040 附表 E
  • UB04

v23.10.5

UiPath Document Understanding OCR

发布日期:2024 年 10 月 15 日

Released in UiPath Document Understanding OCR and endpoints | v23.10.5

改进

此版本提高了手写识别的准确性,并提高了性能。

错误修复

我们修复了以下问题:即使某些文档稍微倾斜,注释框仍会水平返回,从而导致注释未对齐。

v23.10.4

数据提取

发行日期:2024 年 3 月 28 日

在数据提取 ML 包中发布 | v23.10.4

现在,所有开箱即用的预训练 ML 包的新版本可用于一般用途。

此版本带来了以下改进:

  • 提高了土耳其语 (TUR) 的准确性。处理带有变音符号的字符(Ç、ç、Ğ、ğ、I、ı、İ、i、Ş、ş、Ö、ö、Ü、ü)时,性能现已增强。
  • 东部阿拉伯数字(٤、٥、٦、٧、٨、٩、٠、١、٢、٣)的准确性得到了改进。
  • 改进了小于 400 页的数据集的准确性。

v23.10.3

Document Understanding、数据提取和端点

发布日期:2024 年 2 月 12 日

Released in Endpoints + DocumentUnderstanding + Data Extraction ML Packages | v23.10.3

现在,属于 AI Center 的所有开箱即用的预训练 ML 包的新版本可用于一般用途。

此新版本带来了与提取双向(从左到右和从右到左)文本值相关的错误修复。

备注:

Currently, our platform does not have localization for right-to-left languages (such as Hebrew or Arabic). As a result, when combined with punctuation marks or special characters, text in those languages which appears in annotation interface (Document Manager) or validation interface (Validation Station in Action Center) is not displayed correctly. However, if the values of the strings are entered into an application which has right-to-left reading mode enabled, the text should be displayed correctly. A typical example is Notepad, where right-to-left reading order is enabled.

v23.10.2

Document Understanding 和数据提取

发行日期:2024 年 1 月 23 日

Released in DocumentUnderstanding + Data Extraction ML packages | v23.10.2

现在,所有开箱即用的预训练 ML 包的新版本可用于一般用途。

此版本修复了偶尔会导致训练失败的错误。

v23.10.0

Document Understanding、数据提取和端点

发行日期:2023 年 10 月 26 日

Released in Endpoints + DocumentUnderstanding + Data Extraction ML packages | v23.10.0

现在,所有开箱即用的预训练 ML 包的新版本可用于一般用途。

我们一直在不断努力,改善您的 Document Understanding 体验。在本发行版中,我们确保对产品的安全性和稳定性进行了次要改进。

UiPath Document Understanding OCR

发布日期:2023 年 10 月 2 日

Released in UiPath Document Understanding OCR | v23.10

我们很高兴地宣布,UiPath Document Understanding OCR 现在支持希伯来语 (HEB)。

v23.7.0

Document Understanding 和数据提取

发布日期:2023 年 8 月 3 日

Released in DocumentUnderstanding + Data Extraction ML packages | v23.7.0

  • In documents where a table runs across many pages, a table row (a line item) gets split across 2 pages, in some cases even more. The previous model versions assumed that each page break was also a row-break, and it broke items into multiple pieces. The current model version fixes this issue. To benefit from this feature in a workflow, you need to use the DocumentUnderstanding.ML.Activities package version 1.23.0-preview, and the 23.7.0 model version in that particular workflow.
  • 模型现在针对每页具有更快的预测时间,并且可以更有效地使用 RAM,从而允许处理更大的文档。

v23.6.0

Document Understanding 和端点

发行日期:2023 年 6 月 13 日

Released in DocumentUnderstanding + endpoints | v23.6.0

我们提高了 UiPath Document OCR ML 包的准确性。

v23.4.1

Document Understanding、数据提取和端点

发行日期:2023 年 5 月 23 日

Released in DocumentUnderstanding + Data Extraction ML packages | v23.4.1

我们修复了一个影响模型训练的问题。

v23.4.5

Document Understanding

发行日期:2023 年 4 月 21 日

Released in DocumentUnderstanding | v23.4.5

我们改进了常规键入文本模型,并增强了复选框识别功能。

v23.4.2

Document Understanding

发行日期:2023 年 3 月 24 日

Released in DocumentUnderstanding | v23.4.2

UiPath 文档 OCR 公共端点已更新,现在为德语和法语提供手写语言支持,并为丹麦语、芬兰语、挪威语和瑞典语提供打印语言支持。以下是新支持的语言的完整列表:丹麦语、瑞典语、挪威语、芬兰语、波兰语、匈牙利语、捷克语、斯洛伐克语、爱沙尼亚语、拉脱维亚语、立陶宛语、斯洛文尼亚语、克罗地亚语、塞尔维亚语、土耳其语。

v23.4.0

Document Understanding、数据提取和端点

发行日期:2023 年 5 月 10 日

Released in DocumentUnderstanding + Data Extraction ML packages | v23.4.0

UiPath 文档 OCR 现在作为开箱即用的预训练包提供,可用于 GPU 和 CPU。这使不想使用公共端点的客户能够借助隔离环境,在自己的租户中部署 UiPath 文档 OCR。

现在可以使用七个新的开箱即用预训练 ML 包列表供一般用途。 以下是七种新模式的列表:

  • 公司注册证书/良好声誉证明书
  • 原产地证书
  • 儿童产品证书
  • CMS1500
  • 欧盟符合性声明
  • 发货发票
  • 工资单

文档分类器和端点

发行日期:2023 年 4 月 26 日

Released in Endpoints + DocumentClassifier ML packages | v23.4.0

我们已向文档分类器 ML 包添加了新的文档类型,进行了常规改进,并修复了一些小错误。

v23.2.0

Document Understanding、数据提取和端点

发布日期:2023 年 2 月 23 日

Released in Endpoints + DocumentUnderstanding + Data Extraction ML packages | v23.2.0

新增功能和改进

新版开箱即用预训练 ML 包 (23.1.0) 及其公共端点已发布,现在使用最先进的基于 LayoutLM 转换器的架构,该架构更强大,并且整体上提高了准确性,尤其是在列字段(表格)上。

此改进使开箱即用的预训练 ML 包更加强大,这意味着您可能会在训练和预测时遇到更长的延迟。

For all situations where latency is critical (e.g.: attended scenarios) we recommend deploying the models as ML Skills using a GPU.

We have improved how the scores are calculated after Training/Evaluation/Full pipelines to provide a separate score for each column field. Before this improvement, F1 scores were calculated as a whole, for all column fields taken together.

An upcoming removal is announced for the Manual edits feature used in the model evaluation. More information here.

已知问题

The project import from AI Center is currently disabled. We are actively working on this and expect to have it reenabled by the end of March.

2023 年 5 月 8 日勘误

已知问题

运行完整管道或训练管道时收到 Fatal Python error: Segmentation fault 。 在此错误修复之前,我们建议您使用 ML 包 v23.4。

2023 年 4 月 20 日勘误

所有管道的总分现在表示准确度,以前表示 F1 分数。为了保持向后兼容性,AI Center 中的评估工件仍同时包含准确度和 F1 分数。

v23.1.0

文档分类器和端点

发行日期:2023 年 1 月 11 日

Released in Endpoints and DocumentClassifier | v23.1.0

我们提高了 F1 分数,现在也可以在训练管道中显示这些分数。

“工件”文件夹包含已更新的工件列表。

由于删除了“交货单”类,DocumentClassifier 模型现在可以预测 25 个类,而不是 26 个。

v22.12.2

端点

发行日期:2022 年 12 月 16 日

Released in endpoints | v22.12.2

UiPath 文档 OCR 公共端点已更新,现在为德语和法语提供手写语言支持,并为丹麦语、芬兰语、挪威语和瑞典语提供打印语言支持。

v22.11.0

Document Understanding、数据提取和端点

发行日期:2022 年 12 月 13 日

Released in endpoints + DocumentUnderstanding + Data Extraction ML packages | v22.11.0

此版本对开箱即用的预训练 ML 包的公共端点进行了重大改进,这意味着我们现在使用的是基于 LayoutLM 的最新深度学习架构。

This improvement provides better accuracy on all document types, especially for the Invoices model, and it also improves the accuracy on column fields and tables.

We added new extracted fields to the Invoices model that now have Shipping Date, Vendor email address, Bank name, Bank account number, IBAN, SWIFT Code, Bank Address, Bank Routing number, and Tax rate. You can check the list of extracted fields by accessing this page and clicking on the link available for each model.

现在,除了完整管道或评估管道外,训练管道也可以返回模型分数。

现在,每个列字段都可以使用 F1 分数。到目前为止,F1 分数仅适用于作为一个整体的所有列字段。

v22.10.2

端点

发行日期:2023 年 2 月 3 日

Released in endpoints | v22.10.2

我们已经更新了开箱即用的预训练 ML 包的公共端点,现在使用的是基于 LayoutLM Transformer 的先进架构。

v22.10.0

Document Understanding、数据提取和端点

发行日期:2022 年 10 月 7 日

Released in endpoints + DocumentUnderstanding + Data Extraction ML packages | v22.10.0

新增功能和改进

The following pretrained models are now listed as official, without the -Preview tag: InvoicesAustralia, InvoicesIndia, PurchaseOrders.

The DeliveryNotes model has been renamed as BillsOfLading.

Ten new pretrained models are now available: Acord25, 1040, Checks, Bank Statements, Financial statements, Packing Lists, Acord131, Acord126, Acord140, Vehicle Titles.

错误修复

已修复上述包中的几个错误。

UiPath 文档 OCR

发行日期:2022 年 10 月 4 日

Released in UiPathDocumentOCR | v22.10.0 Cloud

现在,有一项新功能可用于条码和二维码检测。

已对电子邮件地址和 URL 等长字符串、固定宽度字体以及手写和签名检测的准确性进行了改进。

页面旋转检测也得到了改进。

v22.6.1-preview

Document Understanding、数据提取和端点

发布日期:2022 年 10 月 10 日

Released in endpoints + DocumentUnderstanding + Data Extraction ML packages | v22.6.1-preview

此版本修复了 Document Understanding 和数据提取包和端点的一些错误。

v22.6.0-preview

Document Understanding 和数据提取

Release date: 6 September 2022

Released in DocumentUnderstanding + Data Extraction ML packages | v22.6.0-preview

There are 18 new Preview ML packages available with a more advanced model architecture for our DU ML Packages in AI Center. You can easily identify them by the Preview attached to the end of the package name, eg.: InvoicesPreview,PurchaseOrderPreview,Acord125Preview, etc.

We've updated the public endpoints list with all the new Preview ML packages and can be consulted Public Endpoints.

请注意,这些预览模型不会使用您的许可证权限中的 DU/AI Unit。

修复了私有技能使用方面的错误,现在私有技能只能与属于使用 AI Center 实例的同一组织的 API 密钥一起使用。

v22.5.2

Document Understanding 和数据提取

发行日期:2022 年 7 月 22 日

Released in DocumentUnderstanding + Data Extraction ML packages | v22.5.2

错误修复

此热修补程序通过将 eol classifierline_detection 方法组合到一个方法中来稳定项目拆分。

已知问题

There is a known issue for the Invoices package that ocassionally leads to an error when trying to run an auto-fine-tunning loop in AI Center.

v22.5.1

Document Understanding、文档分类器、数据提取

发行日期:2022 年 7 月 18 日

Released in DocumentUnderstanding + DocumentClassifier + Data Extraction ML packages | v22.5.1

错误修复
  • 修复了导致提取的字段显示在验证站点的错误页面上的错误。
  • 修复了导致某些页面上的最后一行文本无法在 Document Manager 中数字化的错误。
  • 修复了一个错误,该错误会阻止在 AI Center 的完整/评估管道中显示 evaluation_F1_invoices.txt 文件中的某些 F1 分数项目。
  • 修复了一个错误,该错误会导致当模型只有列字段时,在 AI Center 的完整/评估管道中的 evaluation_F1_invoices.txt file 中计算错误的整体 F1 分数。

v22.5.0

AI Center Cloud、数据提取

发行日期:2022 年 6 月 16 日

Released in AI Center Cloud, Data Extraction ML packages | v22.5.0

改进

所有数据提取 ML 包的性能均已提高。

v22.4.3

Document Understanding 和数据提取

发行日期:2022 年 7 月 21 日

Released in DocumentUnderstanding + Data Extraction ML packages | v22.4.3

此热修补程序通过将 eol classifierline_detection 方法组合到一个方法中来稳定项目拆分。

v22.4.2

Document Understanding、文档分类器、数据提取

发行日期:2022 年 7 月 14 日

Released in DocumentUnderstanding + DocumentClassifier + Data Extraction ML packages | v22.4.2

错误修复
  • 修复了导致提取的字段显示在验证站点的错误页面上的错误。
  • 修复了导致某些页面上的最后一行文本无法在 Document Manager 中数字化的错误。
  • 修复了一个错误,该错误会阻止在 AI Center 的完整/评估管道中显示 evaluation_F1_invoices.txt 文件中的某些 F1 分数项目。
  • 修复了一个错误,该错误会导致当模型只有列字段时,在 AI Center 的完整/评估管道中的 evaluation_F1_invoices.txt file 中计算错误的整体 F1 分数。

v22.4.1

AI Center Cloud、数据提取

发行日期:2022 年 6 月 3 日

Release date in AI Center Cloud, Data Extraction ML packages | v22.4.1

错误修复

修复了在使用特殊 line_detection mode 训练的模型上运行评估管道时发生的错误,该错误导致预测与从 ML 技能调用时不同。

v22.4.0

Document Understanding、文档分类器、数据提取

发行日期:2022 年 5 月 10 日

在 Document Understanding + 文档分类器 + 数据提取 ML 包中发布

| v22.4.0

新增功能

Handwriting capabilities are now available for the UiPathDocumentOCR and the UiPathDocumentOCR_CPU packages, by integrating the HandwritingRecognitionOCR. The same capabilities can be found in the UiPath.OCR.LocalServer Studio package.

New architecture on extraction ML packages, with major benefits, especially to models trained using the DocumentUnderstanding ML package.

Utility Bills, W9, and Passports ML Packages are now available as GA. Five new out-of-the-box pre-trained ML packages are now available in -Preview to ease your work.

预览版中提供了五个新的开箱即用预训练 ML 包,以简化您的工作。

“文档搜索”是 Document Manager 中提供的一项新功能,可帮助标记页数很多的文档。

改进

已对用于 AI Center 中文档提取的 ML 包进行了改进。评估 Excel 电子表格推出了新的工作表,使您能够更好地组织和解释评估的数据。

Automation Suite 离线安装中的 ML 包已收到新的离线捆绑包。

UiPathDocumentOCR 的准确性和性能已得到改进。

错误修复

对解析日期字段的多项修复,包括列字段中的日期、土耳其语文档中的日期、遥远的未来日期

v22.2.3

UiPath Document Understanding OCR

发行日期:2022 年 3 月 7 日

Released in UiPathDocumentOCR | v22.2.3

卓越的能力

手写识别 OCR 集成到 UiPath 文档 OCR 中。在许多情况下,会混合使用字段。通过集成手写读取功能,我们能够将正确的识别应用于每个字段:打印识别应用于打印文本,手写识别应用于手写文本。

Altough HandwritingRecognitionOCR can detect any handwriting, please know that it is trained and optimized only for English.

v22.1.6

Document Understanding、文档分类器、数据提取

发行日期:2022 年 3 月 14 日

在 Document Understanding + 文档分类器 + 数据提取 ML 包中发布

| v22.1.6

错误修复

修复了一个错误,该错误导致 AI Center 中的训练管道或完整管道由于空行数据预处理中的 ML 包问题而失败。

v22.1.4

Document Understanding、文档分类器、数据提取

发行日期:2022 年 3 月 2 日

Released in DocumentUnderstanding + DocumentClassifier + Data Extraction ML packages | v22.1.4

新增功能

The Utility Bills ML package is now generally available.

改进

总体而言,性能和可扩展性得到了改进。

Significant improvements on scores when training on the new version of the DocumentUnderstanding ML package as compared to previous versions.

现在可以正确解析列字段中的日期。

日期解析现在可以识别土耳其语月份名称。

更改

在 GPU 与 CPU 上训练时,更改了训练管道和完整管道的行为。21.10.x在 CPU 上训练的模型更小,因此训练速度比以前的版本更快,但准确性比以前略低。

此版本已逆转此行为,因此在 GPU 和 CPU 上训练的模型是完全相同的模型,并且训练速度已恢复到 2021.10 之前的水平,这意味着在 CPU 上的训练速度再次比在 GPU 上的训练速度慢 10 到 20 倍。

v21.10.11

数据提取

发行日期:2021 年 11 月 23 日

Released in Data Extraction ML packages | v21.10.11

修复了一个错误,该错误由于日期后处理逻辑而导致训练和评估管道失败。

v21.10.9

数据提取

发布日期: 2021 年 11 月 24 日

Released in Data Extraction ML packages | v21.10.9

修复了在运行时引发预测错误的错误。

数据提取和端点

发行日期:2021 年 10 月 22 日

Released in Data Extraction ML packages and endpoints | v21.10.9

新增功能

The PurchaseOrders ML package is now Generally Available and it is ready to be used in your production scenarios.

InvoicesChina, DeliveryNotes, RemittanceAdvices, W2, and W9 ML packages are now in Public Preview. We recommend you check out these packages and start using them for the type of documents you need to process.

改进

已实施文档级别评估。此评估代表了 RPA 工作流的运行时性能。

还可以对数据集进行评估,与对 ML 包进行评估相比,这样需要评估的字段数更少。这有助于对开箱即用的预训练 ML 包进行评估。

要评估 OCR 对提取准确性的影响,您现在可以在运行评估管道时重新运行它。这需要在创建 ML 包时配置 OCR,并且需要在 AI Center 评估管道中将环境变量 eval.redo_ocr 设置为 true。

现在,CPU 上的训练使用更小的模型,可使速度提高 5 到 7 倍。但是,CPU 上的训练预计会导致准确度降低 0-5%。

向评估管道生成的 Evaluation.xlsx 文件添加了“最低置信度”列和“直通处理率”列。

大大改进了 UtilityBills ML 包。

针对跨 1 到 2 行文本的地址改进了地址解析。

改进了提取负值、非常大的值(11 位或以上)或遥远的未来日期的功能。

添加了对收据上的旋转框的支持。

串联跨度增强功能。

错误修复
  • 修复了在字符串类型字段中不返回特殊字符的错误。
  • 修复了 Passports ML 包的一个错误,即写为序数(1st、2nd、3rd 和 4th 等)的日期解析不正确。
已知问题

当前不支持使用来自验证站点的数据再训练 InvoicesJapan 和 InvoicesChina ML 包。解决方法是使用 Google Cloud Vision OCR。

即将弃用

从 2021 年 12 月 1 日开始,非西欧地区将弃用除 UiPathDocumentOCR、FormExtractor、IntelligentFormExtractor 和 IntelligentKeywordClassifier 外的所有公共端点。

v21.10.5

UiPath 文档 OCR 端点

发行日期:2021 年 12 月 13 日

Released in UiPathDocumentOCR endpoints | v21.10.5

改进

UiPathDocumentOCR 现在也可在新加坡地区使用。

v21.10.1

UiPath 文档 OCR 的数据提取和端点

发布日期:2021 年 9 月 24 日

Released in Data Extraction and endpoints for UiPathDocumentOCR | v21.10.1

改进

添加了对旋转文本的支持,即使每个单词的旋转角度不同。

Added support for vertical text. This improvement is available at the moment only for UiPath.IntelligentOCR.Activities, including Validation Station.Data Manager and Machine Learning Extractor do not support vertical text yet.

提高含噪图像或照片的准确性:例如收据、ID 卡或护照。

v21.10

表单提取程序、智能表单提取程序和智能关键字分类器端点

发行日期:2021 年 12 月 13 日

Released FormExtractor + IntelligentFormExtractor + IntelligentKeywordClassifier in Endpoints | v21.10

改进

表单提取程序、智能表单提取程序和智能关键字分类器现在也可在新加坡地区使用。

v21.7

用于手写识别的数据提取和端点

发布日期:2021 年 8 月 11 日

Released in Data Extraction and endpoints for Handwriting Recognition | v21.7

改进

能够在对模型的单次调用中处理多个碎片。

模型重新训练和其他一些更改,用以提高模型准确性。

错误修复

修复了一个错误,该错误导致 Pod 在没有可用内存时重新启动。

v21.6.3

端点中的 UiPath 文档 OCR

发行日期:2021 年 6 月 9 日

Released in endpoints for UiPathDocumentOCR | v21.6.3

改进

改进了单位数检测功能。

提高了 1Il 字符的准确性。

改进了并排时文本的检测。

v21.5.5

数据提取和端点

发行日期:2021 年 6 月 18 日

Released in endpoints and Data Extraction ML packages | v21.5.5

修复了导致 Data Manager 和“将文档数字化”活动之间出现预测差异的错误。

v21.5.3

数据提取和端点

发行日期:2021 年 6 月 8 日

Released in endpoints and Data Extraction ML packages | v21.5.3

新增功能

对于难于识别的图像,例如身份证和护照,已发布两个新的相应预训练开箱即用包。

改进

在我们预训练的开箱即用包中纳入了可再训练的分类字段。

v21.4.7

数据提取和端点

发布日期:2021 年 4 月 20 日

Released in endpoints and Data Extraction ML packages | v21.4.7

改进了数据提取 ML 包的日期解析。

v21.4.5

数据提取和端点

发布日期:2021 年 4 月 15 日

Released in endpoints and Data Extraction ML packages | v21.4.5

新增功能

在美国地区部署了所有公共端点。

在加拿大和日本地区为表单提取程序、智能表单提取程序和智能关键字分类器部署了公共端点。

v21.4

用于手写识别和文档分类器的数据提取和端点

发行日期:2021 年 3 月 9 日

Released in Data Extraction ML packages & endpoints for HandwritingRecognition, DocumentClassifier, + Standalone Docker for UiPathDocumentOCR | v21.4

新增功能

HandwritingRecognition with improved recognition using spelling corrections and ability to read machine-printed text reaches general availability.

DocumentClassifier reaches general availability as well.

UiPath Document OCR 在以下方面的改进:

  • 单选按钮/复选框检测
  • 气泡表单的准确性
  • 一般精度

v21.1.8

数据提取和端点

发行日期:2021 年 2 月 17 日

Released in endpoints and Data Extraction ML packages | v21.1.8

改进

提高了准确性。

印度发票澳大利亚发票现在已正式发布。

在澳大利亚地区部署了公共端点。

端点 URL 中不再需要 Edition 参数。例如,https://du.uipath.com/ie/invoices 将同时适用于企业和社区流量。

v20.11.3

数据提取

发行日期:2020 年 12 月 18 日

Released in Data Extraction ML packages | v20.11.3

改进

改进了 CPU 训练,使其速度更快,所需内存更少。

改进了对非美国文档的日期解析。

UiPath 文档 OCR 的复选框识别,包括打印或手写的复选框。

v20.10.4

数据提取和端点

发行日期:2020 年 11 月 10 日

Released in endpoints and Data Extraction ML packages | v20.10.4

新特性和改进功能

日本发票的新模型。

评估管道现在也会返回“分类”字段的指标。

支持 Microsoft Read OCR 版本 3。

改进了日期格式/解析,以检测日/月/年与月/日/年格式。

改进了小数点和千分号检测功能,以进行正确的数字解析。

所有 AI Fabric 版本均支持 CPU 训练。

改进了对包含 id-no 内容类型的字段的解析。

仅支持训练“分类”字段(不包含“常规”字段或“列”字段)。

最大允许字段数已从 32 增加到 40。

报告“列”字段的置信度。

已知问题

When creating a UiPath.DocumentUnderstanding.ML.Activities package in AI Center, the package name should not be any python reserved keyword, such as class , break, from, finally, global, None, etc. Note that this list is not exhaustive since the package name is used for class <pkg-name> and import <pkg-name>.

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新