ixp
latest
false

非结构化文档和复杂文档用户指南
上次更新日期 2025年9月24日
本节介绍如何创建和配置字段组、字段和字段类型,以及如何添加提示指令。
- 转到“ 构建 ”选项卡,然后选择“ 管理分类”。
- 添加您的 总体提取指令。
注意: 项目级指令可以包含行业或文档类型的描述,或文档特定注意事项,例如一个文件中出现的多次文档。
- 选择 “字段” 选项卡下的 新建字段组, 然后填写必填字段:注意: 您只能在创建字段组后,在其相应的字段组中添加单个字段。
- 字段组名称: 使用自然语言为您的字段组命名。
您可以使用大于号
>
定义字段组层次结构(如果适用于您的用例)。此符号用于建立父字段组与子字段组之间的关系。如果未找到父字段组的预测,则不会为子字段返回任何预测。您可以将父字段组视为初始分类。注意: 父字段组的指令不会影响子字段组。 - 指令: 使用自然语言为您的字段组提供描述。
- 字段组名称: 使用自然语言为您的字段组命名。
- 选择“添加”。
您可以直接在“ 验证预测 ”页面中配置其他字段和字段类型。
注意: 您可以重命名或删除字段组。此外,您还可以将其重命名为在名称之前或之后添加另一个字段组,并使用大于号
>
对其进行分隔,从而更改其层次结构。
查看以下字段组及其层次结构的示例:
- 发票
- 发票编号
- 发票 > 行项目
- 单位价格
- 数量
- 明细金额
注意: 如果模型在文档中找不到任何“发票”字段组(即文档不是发票),则不会返回“发票” > “明细项目”。
- 通过选择下拉图标,展开相关字段组。
- 选择 “新建字段”, 以创建单个字段。
- 按以下方式填写所需的详细信息:
- 字段名称: 为字段提供一个能准确描述其所代表数据的名称。
- 指令: 为您的字段提供具有相关性的详细描述,提供提取所需的上下文。
- 每个字段必须分配一个字段类型,该字段类型可以是预配置的或自定义字段类型之一。使用 “字段类型”下拉菜单,然后选择一个预配置的选项: 日期、 精确文本、 推断文本、 货币数量、 数字 或 布尔值。
备注:
- 您可以在不同字段重复使用字段类型,从而共享指令。
- 您可以在创建字段后更改字段类型。但是,更改字段类型将导致所有现有标注都丢失。
- 文本字段类型可包含两种输入值:按文档中实际存在状态原样提取的文本 (精确文本),或通过文档内容推断得出的文本 (推断文本)。
- 如果您想创建自定义字段类型,请从下拉列表中选择“ 新建字段类型 ”选项。有关更多详细信息,请查看 “创建和配置字段类型”。
- 如果您想创建其他字段,请选择 “创建另一个字段”,然后填写之前解释的所需详细信息。
- 选择“保存”。
要创建新的字段类型,请按照以下步骤操作:
- 在“管理分类”页面中的“字段类型”选项卡中选择“新建字段类型”。
- 填写必填字段:
- 名称 - 字段类型的名称。
- 指令 - 应包含通用指令,说明数据的标准格式及提取方式,以供所有同类型字段统一使用。
备注:- 您可以在不同字段重复使用字段类型,从而共享指令。
- 字段类型指令用于将输出规范化为特定格式的格式化指令。 例如,将所有日期提取为
YYYY-MM-DD
。
- 使用“数据类型” 下拉列表选择以下值之一:
- 字符串: 可以包含任何字符,例如字母、数字等。它也可以拥有文档中明确显示或从文档中推断的输入值。例如,组织名称、名字、地址行或电话号码。
- 选择以下之一作为“输入”值:
- 必须存在于文档中: 必须按照其在文档中显示的完全相同方式提取值。
- 从文档中推断: 提取的值可以从上下文中推断,无需与文档中的文本完全匹配。
- 选择以下之一作为“输入”值:
- 日期: 以不同的方式提供非结构化格式,并使用 UiPath 预训练的日期字段。 例如,开始日期、到期日期。
- 数字: 以不同非结构化格式提供,并使用 UiPath 预配置的字段类型以标准化格式构建值。 例如,项目数量、百分比变化以及小数点值。
- 货币数量: 以不同的方式提供非结构化格式,并使用 UiPath 预训练的货币数量模型。例如,总保费值、到期费用。
- 布尔值: 从文档中推断出来的 True 或 False 值。例如,“真”表示现有客户,“假”表示不存在的客户。
- 选择: 映射到一组预定义值的“推断”或“精确”值。例如:
- 语言:英语、德语、法语。
- 文档类型:水费账单、燃气费账单、能源费账单。
- 产品类别:投资账户、储蓄账户、活期账户。
- 客户类型:第一层级、第二层级、第三层级。
选择 “选项” 作为数据类型后,系统将显示以下选项:- 显示值
- 替代值
- 添加选项
您可以输入值并有选择地批注证据。该值将在可能的情况下映射到一组给定值。
重要:数据类型配置后,您无法更改。确保您选择了正确的数据类型,否则您必须删除字段类型,并使用正确的数据类型重新创建。 这是因为您无法重新映射数据类型不同的不兼容字段类型的标注。 - 字符串: 可以包含任何字符,例如字母、数字等。它也可以拥有文档中明确显示或从文档中推断的输入值。例如,组织名称、名字、地址行或电话号码。
- 选择“保存”。
推断字段与确切字段示例
推断字段
我在一家保险公司的承保运营团队工作,我们提供给客户的保单类别包括汽车、家用、健康、奢侈品等,每个类别都对应一个类型类别,例如 A、B、C 等。
根据文档的内容,我希望能够提取和识别需要处理的策略的“类型”类别。
在本例中,消息中没有任何位置明确指令此电子邮件属于 E 类型。在指令中,为每个保险类型提供了上下文,为模型预测提供依据。例如,与奢侈品相关的索赔都属于 E 类型类别。
可能需要设置为“推断”的字段示例:
- 文档中任何位置都没有出现,但在其上下文中隐含的值
- 需要跨文档的不同区域连接的值。
- 跨多个段落、行或列的值。
确切字段
为了完成此请求,我可能需要现有策略编号、名称和申请的值。我知道这些值需要在文档中明确指令并提取到下游流程中。
图 1. 推断字段与确切字段示例