Communications Mining 用户指南

上次更新日期 2025年11月10日

常规字段提取

Communications Mining™ 从非结构化文本中提取以下类型的输出：

标签
通用字段

标签描述整个消息，例如“取消”、“交易失败”或“紧急”。通用字段引用消息的特定部分，例如交易对方名称、客户 ID 或取消日期。

在下游流程中，标签用于分类、优先级和决定应采取的操作类型。通用字段用于填写请求字段。例如，下游流程可能会筛选消息，使其成为具有取消标签的消息，然后使用提取的“客户 ID”和“取消日期”常规字段来调用 API 以自动处理取消。

Communications Mining 附带许多适用于常见概念的内置通用字段，例如组织、货币代码或日期。您可以自定义 Communications Mining 的内置通用字段，以便根据您的特定用例量身定制。例如，Communications Mining 具有经过严格训练的预构建“日期”通用字段，您可以将其用作自定义程度更高的通用字段的起点，例如“续订日期”或“取消日期”。或者，您可以从头开始，训练 Communications Mining 识别全新的内容。

配置常规字段

我们将使用保险用例作为示例。保险公司邮箱接收来自代理的电子邮件，应将其分类到不同的团队进行处理。在此示例中，数据集已经过训练，分类如下所示：

图 1.分类示例

此邮箱偶尔会收到紧急的续订请求、取消请求和管理员请求。Communications Mining™ 已经过训练，可以识别每个概念，并且 Communications Mining 预测可通过创建支持工单，将电子邮件分类到正确的团队。

为确保快速响应客户，我们可以提取一些关键数据点，以帮助下游团队处理请求。具体来说，我们要从电子邮件中提取保单编号、受保组织名称和经纪人名称。我们可以使用常规字段提取来执行此操作。

图 2.已配置的常规字段

由于保单编号格式特定于该特定保险公司，因此我们将常规字段配置为可从头开始训练。另一方面，参保组织是一种组织，因此我们根据内置的组织常规字段将其配置为可培训。最后，我们注意到代理并不总是将其名称输入到电子邮件中，因此我们决定使用代理电子邮件地址（可从注释元数据中获取）在内部数据库中查找相应的名称，而不是将其提取为常规字段。

下表总结了这些方法。

配置	何时使用	示例
不含基本通用字段的可训练通用字段	最常用于各种内部 ID，或者在 Communications Mining 中没有合适的基本常规字段时使用。	保单编号、客户 ID
具有基本通用字段的可训练通用字段	用于自定义 Communications Mining 中现有的预构建常规字段。	取消日期（基于日期）、受保组织（基于组织）
预构建的常规字段（不可训练）	用于应完全按照定义匹配的一般字段，否则训练会导致出错。	位于
使用注释元数据代替常规字段	当注释元数据中已以结构化形式显示所需信息时使用。	发件人地址、发件人域

在应用程序中使用常规字段

Communications Mining™ 提供多种获取预测（包括预测通用字段）的方法。请参阅数据下载概述，了解哪种方法最适合您的用例。

无论选择哪种方法，您都需要了解以下边缘情况，并在应用程序中进行处理：

响应中并未包含所有预期常规字段
响应包含一个或多个常规字段的多个匹配项
并非响应中显示的所有常规字段都正确

在本节中，我们将更详细地介绍每种边缘情况。

响应中并未包含所有常规字段

您应该预计会处理并非所有预期通用字段都存在的情况。在以下示例中，电子邮件包含保单编号，但没有受保的组织名称。您的应用程序应该能够处理此类部分信息。

图 3.缺少受保组织

响应包含一个或多个常规字段的多个匹配项

您还应该处理与上一情况相反的情况，即注释中包含比预期更多的通用字段的情况。在以下示例中，即使我们预计每个电子邮件都有一个保单编号和受保的组织名称，但该电子邮件具有多个保单编号。

图 4.同一通用字段的多个匹配项

请注意，在处理此类情况时，可以使用响应中的元数据。例如，我们可以选择优先选取电子邮件主题中出现的策略编号，而非电子邮件正文中显示的策略编号。以下示例显示了 API 将为我们的示例电子邮件返回的响应。

{
  "predictions": [
    {
      "uid": "aa05ba2250de48e3.7588b85f68f81c3b",
      "labels": [...],
      "entities": [
        {
          "id": "6a1d11118b60868e",
          "name": "policy-number",
          "span": {
            "content_part": "body",
            "message_index": 0,
            "utf16_byte_start": 200,
            "utf16_byte_end": 222,
            "char_start": 100,
            "char_end": 111
          },
          "kind": "policy-number",
          "formatted_value": "GHI-0204963"
        },
        {
          "id": "6a1d11118b60868e",
          "name": "policy-number",
          "span": {
            "content_part": "subject",
            "message_index": 0,
            "utf16_byte_start": 0,
            "utf16_byte_end": 22,
            "char_start": 0,
            "char_end": 11
          },
          "kind": "policy-number",
          "formatted_value": "GHI-0068448"
        },
        {...},
        {...},
        {...}
      ]
    }
  ],
  "model": {
    "version": 31,
    "time": "2021-07-14T15:00:57.608000Z"
  },
  "status": "ok"
}{
  "predictions": [
    {
      "uid": "aa05ba2250de48e3.7588b85f68f81c3b",
      "labels": [...],
      "entities": [
        {
          "id": "6a1d11118b60868e",
          "name": "policy-number",
          "span": {
            "content_part": "body",
            "message_index": 0,
            "utf16_byte_start": 200,
            "utf16_byte_end": 222,
            "char_start": 100,
            "char_end": 111
          },
          "kind": "policy-number",
          "formatted_value": "GHI-0204963"
        },
        {
          "id": "6a1d11118b60868e",
          "name": "policy-number",
          "span": {
            "content_part": "subject",
            "message_index": 0,
            "utf16_byte_start": 0,
            "utf16_byte_end": 22,
            "char_start": 0,
            "char_end": 11
          },
          "kind": "policy-number",
          "formatted_value": "GHI-0068448"
        },
        {...},
        {...},
        {...}
      ]
    }
  ],
  "model": {
    "version": 31,
    "time": "2021-07-14T15:00:57.608000Z"
  },
  "status": "ok"
}