- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- ContentValidationData Class
- EvaluatedBusinessRulesForFieldValue Class
- EvaluatedBusinessRuleDetails Class
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- FieldValue Class
- FieldValueResult Class
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- Rule Class
- RuleResult Class
- RuleSet Class
- RuleSetResult Class
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- FieldValueDetails Class
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- 基本数据点类 - 预览
- 提取结果处理程序类 - 预览
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding
- 智能 OCR
- 发行说明
- 关于“智能 OCR”活动包
- 项目兼容性
- 加载分类
- 将文档数字化
- 分类文档作用域
- 基于关键词的分类器
- Document Understanding 项目分类器
- 智能关键词分类器
- 创建文档分类操作
- 创建文档验证工件
- 检索文档验证工件
- 等待文档分类操作然后继续
- 训练分类器范围
- 基于关键词的分类训练器
- 智能关键词分类训练器
- 数据提取作用域
- Document Understanding 项目提取程序
- Document Understanding 项目提取程序训练器
- 基于正则表达式的提取程序
- 表单提取程序
- 智能表单提取程序
- 文档脱敏
- 创建文档验证操作
- 等待文档验证操作然后继续
- 训练提取程序范围
- 导出提取结果
- 机器学习提取程序
- 机器学习提取程序训练器
- 机器学习分类器
- 机器学习分类训练器
- 生成分类器
- 生成式提取程序
- 配置身份验证
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式
Document Understanding 活动
文档数据是在 Document Understanding 工作流中充当输入变量和输出变量的资源。 文档数据对象保存有关单个文档的所有必要信息。 如果您对文档进行分类,则对象包括文档类型。 如果提取数据,则对象将包含相应的提取字段。 无论何种活动,文档数据都会一致地包含文档的文本和 DOM(文档对象模型)。
使用文档数据,您可以:在一个变量中收集有关文档的所有必要信息,将数据保存到对象的每个属性,并将其重用于工作流中的其他活动。
文档数据保存有关以下属性的信息:
- “文档类型” :提供有关已识别的文档类型的数据,并由“分类文档”或“创建分类验证任务”等活动填充。
- 数据:包含提取的字段值。它由“生成数据”属性按需生成,该属性会生成
IDocumentData<ExtractorType>的输出类型。当生成数据属性设置为False时,您只能通过Get类型的方法访问提取的字段值。 - “文件详细信息” :包含有关
IResource详细信息。备注:IResource是一个通用指针,可用于查找和访问跨平台工作流中使用的数据。IResource充当容器,存储对本地数据(例如本地文件)或外部数据(例如云文件)的引用,这些数据不仅保存在当前工作流中。此数据可来自各种来源。有关IResource及其公开的属性的更多信息,请访问使用文件和文件夹资源。 - “子文档” :包括文档数据的集合,由“创建分类验证任务”等活动填充。
- “文档元数据” :包含有关处理文档的信息,例如:
- 检测到的文本语言
- 作为数据表提取的字段
- 文档对象模型 (DOM) :保存所有活动使用的文档对象模型。文档元数据由首先处理文档的活动更新。填充后,元数据将与接收文档数据对象的所有后续活动共享和使用。
提示:
除非某个活动是属于 Studio 工作流一部分的第一个 Document Understanding 活动,否则请使用“文档数据”作为输入。仅当活动是属于 Studio 工作流一部分的第一个 Document Understanding 活动时,才可使用“文件”变量作为输入。
了解和访问数据
文档数据包含有关提取结果的详细信息。数据可以是两种类型,具体取决于您是选择按需生成数据(以便您可以在工作流中进一步使用该数据),也可以选择不生成数据(因此您可以对其执行get和set方法),用于高级实现,以提高灵活性。
“提取文档数据”活动中的“生成数据类型”属性允许您选择是否按需生成数据。请参阅以下场景:
- 当您将“生成数据类型”设置为
True(默认设置)时:文档数据输出为IDocumentData<ExtractorType>。此数据根据需要生成,并会根据在“提取文档数据”活动中所做的修改而发生更改。使用此设置,您无法更改验证站点中的文档类型,默认情况下选择 JIT(实时)。 - 将“生成”数据类型设置为
False时:文档数据输出为IDocumentData<DictionaryData>。使用此设置,将不再生成“文档数据”属性,您将无法浏览这些数据。您可以根据字段 ID,使用特定方法访问其数据。配置文档类型或使用 API 检索信息时,这些 ID 将可用。有关更多信息,请访问编辑或添加新字段和获取提取请求 API 。- 当您将“生成数据类型”设置为
False以进行生成式提取时,检索到的字段与提示中提供的名称相对应。例如,如果提示中的字段名称定义为a b c(包括空格),则在使用特定方法时,应使用与字段 ID 相同的名称。
- 当您将“生成数据类型”设置为
将文档数据传递给活动
使用文档数据时,系统将根据输入文件创建第一个输出对象。 创建此对象后,建议您将其传递到下一个活动中。 通过将其传递给下一个活动,您可以重用原始文件中的文本和 DOM。 此方法可避免每次都将文件重新数字化。
使用单值和多值字段的提取结果
如果您将文档类型字段配置为多值,则系统需要多个值。 例如,表单上的多项选择题。 结果显示在字段的多值属性中,并作为列表返回。 如果将文档类型字段配置为单个值,则系统默认在该字段的值属性中返回结果。
下表显示了文档数据如何返回单值字段和多值字段:
表格 1. 文档数据为单值字段和多值字段返回的值
| 没有价值 | 拥有一个值 | 具有两个或多个值 | DocumentData.Data.FieldName.Value | DocumentData.Data.FieldName.MultiValues | |
|---|---|---|---|---|---|
| 单一值 | 是 | 否 | 不适用 | "" | null |
| 单一值 | 否 | 是 | 不适用 | null | |
| 多值 | 是 | 否 | 否 | "" | [](空数组) |
| 多值 | 否 | 是 | 否 | [<其中一个值与.Value相同的数组>] | |
| 多值 | 否 | 否 | 是 | [< 包含n值的数组,第一个值与.Value的值相同>] |
以数据表形式返回提取的字段
您可以使用文档数据对象,将从文档中提取的字段作为数据表返回。然后,您可以在Excel 活动中使用数据表变量。
属性
“文档数据”变量的属性可由一个或多个活动填充和使用。根据填充变量的活动,属性可能有所不同。检查以下列表:
- 文档类型-分类文档活动填充以下值:
- 显示名称(用于自定义模型):文档类型的名称。
- ID (用于开箱即用模型):文档类型的名称。
- 可信度:分类的可信度。
- URL :可访问文档类型的 URL;这可以是自定义的,也可以是预定义的,可通过 Document Understanding 中心中的相应项目引用。
- 字段- “提取文档数据” 、 “创建验证任务” 、 “创建验证任务并等待” 、 “等待验证任务”和“继续”活动填充以下值:
- 字段值(可选) :字段的提取值。
- 提取可信度分数:模型提供的提取可信度分数。
- OCR 置信度分数(预览) :OCR 引擎提供的置信度分数。
- 文件详细信息- 创建“文档数据”对象、接收文件作为输入的活动,填充以下值:
- “全名” :文件的全名。
- Extension :文件的扩展名。
- 页面范围(可选) :文件的页面范围。
- 子文档:文档数据的集合,由“分类文档”活动填充。
备注:
当前未填充此属性,预计将在未来与分类验证和拆分功能一起添加。
- 文档元数据() :