活动 - 对文档进行分类

activities

latest

false

Document Understanding 活动

重要 :

请注意，此内容已使用机器翻译进行了部分本地化。新发布内容的本地化可能需要 1-2 周的时间才能完成。

分类文档

通过 Studio Web 工作流的“分类文档”活动，使用选定的分类器对文档进行分类。

UiPath.IntelligentOCR.StudioWeb.Activities.ClassifyDocument

描述

您可以通过选择所需的分类器和一个要分类的文档，使用此活动对多个文档进行分类。

备注：

“分类文档”活动使用公共端点。

生成式模型支持的语言与所使用的 OCR 引擎相同。有关更多信息，请查看“OCR 支持的语言”页面。

除非此活动是属于 Studio 工作流的第一个 Document Understanding 活动，否则输入应为文档数据。只有当活动是属于 Studio 工作流的第一个 Document Understanding 活动时，才应将文件用作输入。

已知限制

“生成式预定义”项目类型和相应的提取程序在 Automation Suite 中不可用。

项目兼容性

Windows | 跨平台

配置

设计器面板

输入 - 提供输入文件或文档数据对象。
重要提示：
一个文件最多可包含 500 页。超出此限制的文件将无法分类。

提示：
如果您的文件未存储为IResource类型变量，则可以选择执行转换。为此，请在“输入”属性字段中使用LocalResource.FromPath(<reference_to_the_file>) 。考虑您使用“遍历循环”活动遍历文件列表的场景。假设currentItem是您的迭代变量。要将currentItem转换为IResource ，请将LocalResource.FromPath(currentItem)粘贴到“输入”字段中。
Document Understanding 项目 - 要求您从下拉菜单中选择 Document Understanding 项目。可用选项包括：
- 预定义 - 使用建议用于标准场景的预训练专用模型的项目。
- 生成式预定义 - 使用预训练的生成式模型的项目，接受指令作为输入，以便对文档数据进行分类或提取。
- 您连接的租户和文件夹中的现有项目
- 您可以通过选择 + 图标来创建新项目。
  备注：
  如果您在租户上创建的项目超过 500 个，并使用“分类文档”活动，则 UiPath Studio 或 Studio Web 将不会显示最初 500 个项目之后的任何项目。因此，您不能使用这些项目。
分类器- 如果您使用的是“预定义”项目，则可以从下拉菜单中选择所需的 Document Understanding 分类器。
备注：
系统会将发送到生成式分类器的数据发送到未公开可用的 LLM 模型实例，不会离开该实例，并且一旦处理完毕，系统不会存储该数据或将该数据用于训练。
- 对于“预定义”项目，您有两个选择：
  - ML 分类 – 基于 ML 的分类器。
  - 生成式分类器 – 生成式分类器类型。
    - 文档类型详细信息 - 用于识别文档类型的说明，以键值对形式提供，其中键表示文档类型的名称，值表示对文档类型的描述，以帮助分类器识别此类文档。
      - 文档类型 - 提供要用作分类结果的文档类型的名称（不得超过 30 个字符）。
      - 说明- 要求您为生成式分类器提供有关如何识别文档类型的说明。允许的最大字符数为 1000。
- 对于“生成式预定义”项目，您只能使用生成式分类器。
版本（预览版） - 在使用现有的 Document Understanding 新式项目时使用此属性。选择与要从中处理数据的项目版本相对应的标签。例如，如果您选择分配给版本 3 的“生产”标签，则该活动将在生产环境中处理来自项目版本 3 的数据。“版本”的默认值为“暂存” 。如果所选项目中不存在“暂存”标签，则默认值为“生产” 。选择标签后，活动会显示该版本支持的文档类型列表。

属性面板

高级选项

最低可信度 - 指定在分类期间分配文档类型所基于的最低可信度阈值。如果文档的置信度分数低于此阈值，则系统会将其文档类型报告为“未知”。
提示：
大多数文档类型都会生成具有置信度的预测。设置此属性后，可通过仅考虑置信度高于阈值的预测来防止误报。例如，您可以通过测试工作流中的各种文档来确定最佳置信度，并将结果记录在 Excel 电子表格中，然后分析哪个阈值最准确。
设计时外部连接设计时外部连接允许您通过使用来自其他项目或租户的 Document Understanding 资源来利用该活动。在配置这些属性之前，请确保您已满足“配置运行时外部连接”页面中提到的先决条件。完成这些步骤后，您可以继续配置运行时外部连接。
- 应用程序 ID ：输入您先前创建的外部应用程序的应用程序 ID。
- 应用程序密码: 输入您先前创建的外部应用程序的应用程序密码。
- “租户 URL”（必填） ：输入已在其中创建外部应用程序的租户的 URL。您将在设计时使用此租户的资源。
  
  URL 应采用以下格式： https://<baseURL>/<OrganizationName>/<TenantName> 。

输入

超时（秒） - 调用生成式模型的最长执行时间（以秒为单位）。如果操作用时超过该上限，操作将自动终止，以防止延迟或挂起。仅当选择生成分类器作为分类器时，才会显示此属性。

输出

文档数据 - 从文件中提取的所有经过验证的字段数据。

运行时外部连接

运行时外部连接允许您通过本地部署机器人执行活动。在配置这些属性之前，请确保您已满足“配置运行时外部连接”页面中提到的先决条件。完成这些步骤后，您可以继续配置运行时外部连接。

运行时凭据资产
- 在机器人连接到本地 Orchestrator 或来自其他租户的情况下需要访问 Document Understanding 资源时，请使用此字段。您可以通过以下方式之一选择输入凭据资产以进行身份验证：
- 从下拉列表中，从 UiPath™ Robot 连接到的 Orchestrator 中选择所需的凭据资产。
- 如果您在 Orchestrator 凭据资产中存储了用于访问项目的外部应用程序凭据，请手动输入 Orchestrator 凭据资产的路径。
  
  路径的格式应为： <OrchestratorFolderName>/<AssetName> 。
运行时租户 URL - 使用此字段与“运行时凭据资产”字段。输入机器人将为执行分类而连接的租户的 URL。URL 应采用以下格式： https://<baseURL>/<OrganizationName>/<TenantName> 。

使用生成式分类器

要快速开始使用“分类文档”活动的生成式功能，请执行以下步骤：

添加“分类文档”活动
从“项目”下拉列表中，选择“预定义”或“生成式预定义” 。
对于“分类器” ，选择“生成式分类器” 。“文档类型详细信息”属性将显示在活动的主体中。

在“文档类型详细信息”集合中，以“字典键值对”的形式提供您的说明，其中：

密钥表示文档类型（示例：CV）。

值表示生成式提示：生成式分类器用于识别文档类型的说明。例如，请查看下表中的键值对示例：

表格 1. 用作生成式分类器提示词的键值对

密钥	值
计算机视觉	“查找常见的简历关键字，例如“教育背景”、“技能”和“经验”。”
发票	“查找常见字段名称，例如“发票编号”、“收款人”或“总金额”。”

图 1. 用作生成式分类器提示词的键值对

在此页面上

描述
已知限制
项目兼容性
配置
设计器面板
属性面板
使用生成式分类器

此页面有帮助吗？

前一个创建验证任务

下一个创建分类验证任务

描述​

已知限制​

项目兼容性​

配置​

设计器面板​

属性面板​

高级选项​

输入​

输出​

运行时外部连接​

使用生成式分类器​