- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- ContentValidationData Class
- EvaluatedBusinessRulesForFieldValue Class
- EvaluatedBusinessRuleDetails Class
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- FieldValue Class
- FieldValueResult Class
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- Rule Class
- RuleResult Class
- RuleSet Class
- RuleSetResult Class
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- FieldValueDetails Class
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- 基本数据点类 - 预览
- 提取结果处理程序类 - 预览
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding
- 智能 OCR
- 发行说明
- 关于“智能 OCR”活动包
- 项目兼容性
- 加载分类
- 将文档数字化
- 分类文档作用域
- 基于关键词的分类器
- Document Understanding 项目分类器
- 智能关键词分类器
- 创建文档分类操作
- 创建文档验证工件
- 检索文档验证工件
- 等待文档分类操作然后继续
- 训练分类器范围
- 基于关键词的分类训练器
- 智能关键词分类训练器
- 数据提取作用域
- Document Understanding 项目提取程序
- Document Understanding 项目提取程序训练器
- 基于正则表达式的提取程序
- 表单提取程序
- 智能表单提取程序
- 文档脱敏
- 创建文档验证操作
- 等待文档验证操作然后继续
- 训练提取程序范围
- 导出提取结果
- 机器学习提取程序
- 机器学习提取程序训练器
- 机器学习分类器
- 机器学习分类训练器
- 生成分类器
- 生成式提取程序
- 配置身份验证
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式

Document Understanding 活动
分类文档作用域
UiPath.IntelligentOCR.Activities.DocumentClassification.ClassifyDocumentScope
描述
为分类器活动提供作用域,进而提供执行文档分类所需的所有必要文件。至少接受一个分类器或接受分类器之间的多个代理,确保将所有参数转发到子分类活动。
项目兼容性
Windows - Legacy | Windows
配置
属性面板
常见
- “显示名称”- 活动的显示名称。
输入
- DocumentObjectModel - The Document Object Model (DOM) you want to use to validate the document against. This model is stored in a
Documentvariable and can be retrieved from the Digitize Document activity. Visit Digitize Document to learn how to use the activity. This field supports onlyDocumentvariables. - DocumentPath - The path to the document you want to validate. This field supports only strings and
Stringvariables.备注:该属性字段支持的文件类型包括“
.png”、“.gif”、“.jpe”、“.jpg”、“.jpeg”、“.tiff”、“.tif”、“.bmp”和“.pdf”。 - DocumentText - The text of the document itself, stored in a
Stringvariable. You can retrieve this value from the Digitize Document activity. Visit Digitize Document to learn how to use this activity. This field supports only strings andStringvariables. - “分类”- 处理文档要依据的分类,存储在“
DocumentTaxonomy”变量中。该字段仅支持“DocumentTaxonomy”变量。
其他
- “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
输出
- “分类结果”- 对指定文件运行分类器文件后所得的结果,存储在“
IReadOnlyList<ClassificationResult>”对象中。该字段仅支持“IReadOnlyList<ClassificationResult>”变量。
The ClassificationResult object contains the following information:
- “文档类型 ID”- 与“分类”匹配的文档类型所对应的 ID。
- “文档 ID”- 已处理文档的文件名。
- “内容类型”- 已处理文档中包含的内容类型。
- Confidence - Classification confidence, displayed as a numeric value between
0and1. - OcrConfidence - OCR confidence for the characters that are part of the reported reference, displayed as a numeric value between
0and1. - “引用”- 分类的证明,可用于文档的文本版(通过“
TextStartIndex”和“TextLength”)和“文档对象模型”(通过“Tokens”以及用于从中选取证明的每个页面的高亮显示框)。 - “文档边界”- 用于描述分类所属的文档部分,包括“
StartPage”(“Int32”,从 0 开始)、“PageCount”(“Int32”)、“TextStartIndex”(“Int32”,从 0 开始)、“TextLength”(“Int32”)。 - “分类器名称”- 由“分类文档作用域”活动自动填充,将填充为用于报告当前“分类结果”的分类器的显示名称。
备注:
“
ClassificationResults”将所有内容按可信度分数降序排列,这表示最顶部的内容具有最高可信度。
使用“配置分类器”向导
The Configure Classifiers Wizard allows you to configure the way the classifiers are applied to each document type, and what results are acceptable.
请按照以下步骤配置向导:
-
将“对文档范围进行分类”活动添加到工作流中。
-
Add one or more classifier activities inside the Classify Document Scope activity.
-
为您的分类器提供暗示性名称。
-
按接受优先级的顺序,从左到右对范围内的分类器排序。
-
Configure your classifiers selecting Configure Classifiers.
You can now see the Wizard
Figure 1. Overview of the Configure Classifiers wizard

-
-
选中要激活的分类器和文档类型对的复选框。取消选中某个分类器的文档类型可能出现在以下任一情况:
- 未训练或配置分类器,无法识别该特定文档类型
- 分类器对该特定文档类型的执行不如预期,如果分类器返回此类结果,则应将其忽略。
-
If a classifier has its own taxonomy, then use the text boxes next to each check box to set the correct Taxonomy mapping between the two taxonomies. For example, if Classifier1 has been configured to return class
INVfor an invoice, but your project taxonomy contains a document type called "Incoming Invoice", then the box corresponding to "Incoming Invoice" and that particular Classifier1 should contain the stringINV. -
Set a Minimum Confidence threshold, from 0 to 100, for each classifier in the Classify Document Scope. Any classification result with a confidence lower than this threshold will not be stored in the Classify Document Scope activity output.
提示:Most document types generate a prediction with a confidence level. Setting this property prevents false positives by only considering the predictions with a confidence level above the threshold. You can identify an optimal confidence level by testing various documents within your workflow, recording the results in an Excel spreadsheet, for example, and then analyze what threshold value is the most accurate. Apply the threshold by adjusting the Minimum Confidence property in your current scope.
-
Select Save once all the classifiers are configured.
Figure 2. The Configure Classifiers wizard configured to use a different classifier for each document type

Document Understanding 集成
The Classify Document Scope activity is part of the Document Understanding solutions. Visit the Document Understanding Guide for more information.