Communications Mining 用户指南

上次更新日期 2025年11月10日

将 CSV 文件上传到源中

注意：您必须以 Automation Cloud 用户身份分配IXP 项目管理员角色，或以旧版用户分配来源管理员和编辑消息权限，才能将 CSV 文件上传到来源。

要将 CSV 文件中的数据上传到数据源，请应用以下步骤：

备注：

更新除用户属性以外的任何内容，将导致关联数据集中的通用字段注释丢失。例如，更新来源中的现有消息，更改消息属性，例如消息文本、sent_at 时间戳以及“来源”或“来源”。在此之前，请确保在关联的数据集中固定最新的模型版本。
有关创建数据源的详细信息，请查看在 GUI 中创建或删除数据源。

导航至“管理员”页面。
选择“源”选项卡，然后找到要上传数据的来源。
选择数据源卡上的上传图标。
使用“选择文件”从您的计算机中选择一个 CSV 文件。
选择要上传的 CSV 文件。确保文件符合以下条件：
- 文件的第一行应包含标头，并用逗号或制表符分隔。
- 该文件必须至少包含三列：
  - 消息：消息文本。
  - 时间戳：消息的创建时间。
  - 唯一 ID：每条消息的不同标识符。
- 文件中的所有文本字段都应用双引号括起来。
- 文件必须编码为 UTF-8、UTF-16 或 UTF-32。平台会自动检测正确的编码。
- 文件大小应为 128 MiB 或更小。对于较大的文件，请将其拆分为多个文件，每个文件小于 128 MiB。
选择所需的列，其中下拉菜单包含 CSV 文件中检测到的列标头：
- 消息 ID 列- 具有可识别消息的唯一 ID 的列。消息 ID 只能包含 ASCII 字母数字字符（AZ、az、0-9）和标点符号，但正斜杠/除外。
  
  注意：如果来源中存在具有相同 ID 的现有消息，则系统将更新这些消息以匹配新文件的内容。
- 消息列- 包含要在平台中分析的消息文本的列。
- “时间戳列” - 包含录制消息的日期和时间的列。时间戳格式很灵活，由平台自动推断。有关更多详细信息，请查看“使用正确的格式” 。
如果您有包含主题行、会话或参与者的数据（通常在案例或电子邮件会话中遇到），则可以选择以下附加列：
- “主题列” - 包含消息主题的列。
- “发件人列” - 包含发件人的列。
- 目标列- 包含一个或多个收件人的列。确保多个收件人用分号;分隔。
- 抄送列-“抄送” 字段中包含一个或多个收件人的列。确保多个收件人用分号;分隔。
  - 有关在发件人、收件人和抄送字段中使用正确格式的更多详细信息，请参阅使用正确的格式。
- 会话 ID 列- 包含消息会话 ID 的列。会话 ID 将不同的消息绑定到同一个会话。
您可以选择要与消息一起上传的其他用户属性。用户属性是与您可以在平台中筛选的每条消息关联的上下文元数据。平台中的机器学习模型也可能会利用这些用户属性，这些属性属于以下类型：
- 字符串用户属性是分类元数据，例如 ID、国家/地区、交易对方等。
- “数字用户属性”是数字元数据，例如 NPS、电子邮件统计信息、金额等。
注意：如果文件包含 NPS 分数作为用户属性，则必须将此作为数字属性包含在内，并且仅将其命名为NPS以触发原生 NPS 图表在平台中加载。
选择所有用户属性后，选择“上传” 。
系统将提示您检查包含已上传数据的来源的数据集中已上传的消息。如果来源未与任何数据集关联，则可以创建新的数据集以检查上传是否按预期进行。

注意：如果您在选择用户属性时出错，则可以再次上传相同的文件。平台将使用列 ID 作为标识符来覆盖现有消息和属性。这不会影响应用于现有消息的任何标签。

使用正确的格式

发件人/收件人/抄送格式

请确保：

每个会话的收件人数量不超过 2,048 个的上限。
发件人或任何收件人未超过 512 个字符的限制。
一行中仅可包含一个分号。例如，以下内容的格式有误： [email protected] ； [email protected]（电子邮件）。

尽管平台会删除收件人之前或之后的所有空格，但不会执行任何其他数据清理。以下是您可能要用于数据的一些格式示例：

示例 1： Robert Bog <[email protected]>；John Smith <[email protected]>
示例 2：[email protected] ;[email protected]
示例 3：[email protected]； [email protected]

平台使用分号;分隔不同的收件人。

上传数据之前，请确保电子邮件格式已正确设置。

注意：在标准会话用例中，例如在电子邮件会话中，每个发件人单元格应仅包含一个发件人。

时间戳格式

如果您选择的时间戳格式对于日、月和年的顺序不明确（例如01/02/03 10:10 ），您可以建议正确的解释：

2003 年 1 月 2 日 - 无
2003 年 2 月 1 日 - 第一天
2001 年 2 月 3 日 - 年初
2001 年 3 月 2 日 - 日优先 + 年优先

为避免歧义，建议以RFC 3339格式提供时间戳。例如， 2020-01-31T12:34:56Z表示 UTC 或时区： 2020-08-031T11:20:60-08:00 。

故障排除

注意：如果 CSV 在上传过程中失败，您可以在修复错误后再次上传相同的 CSV。如果任何已上传消息的消息 ID 和文本（主题和正文）保持不变，则在重试上传时无需支付额外的AI Units或Platform Units 。

本节包含上传过程中可能出现的错误消息，以及每个错误的解决方案。

在以下错误消息中，{some否} 映射到有关发生错误的上下文信息。此外，我们在文件中引用位置的方式已标准化为：

字符串	展开为：
{position}	记录 {row-number}，位于行 {line-number}，列 {colum-number} (字节为 {byte-number})

系统将显示错误消息的标题以及说明，如下图所示：

注意：如果您遇到与表中所列错误不同的错误，请重新尝试上传。

错误类型	错误消息	描述
列不足	CSV 文件仅包含 {number-columns} 列，但至少需要 3 个列，即文本、时间戳和 ID。	上传的 CSV 未包含至少 3 列，或者平台错误地检测了文件的编码。
编码无效	文件包含无效字符，其中编码被检测为 {detected-encoding}。	文件的 UTF-8、UTF-16 或 UTF-32 编码不正确。平台会自动检测文件的格式。
标头无效	`string:ti:er'` 与 `'(^delimiter\|id\|message\|timestamp \|timestamp_default_utc_offset \|timestamp_day_first\|timestamp_year_first\\Z)\|(^(?P<property_type>number\|string):(?P<name>\\w(?:[\\w]{0,30}\\w)?)\\Z)'`不匹配	如果列标题是用户属性的无效名称，则在请求架构无效时，平台会返回默认消息。检查每个列标题是否为其目的有效格式。列标头的最大长度为 32 个字母数字字符。
不等长的行	CSV 包含长度不等的行。消息 {position} 包含 {number} 个字段，但上一个记录包含 {number} 个字段。	CSV 包含的行单元格数量不同或与标头数量不一致。
ID 格式	{record} 的消息 ID 无效。ID 只能包含 ASCII 字母数字字符和标点符号，但正斜杠`/`除外。单元格值: {单元格值}。	当 ID 字段包含无效字符（如错误消息中所述）时发生。
ID 长度	对于消息 {record}，ID 太长。其大小为 {number} 个字节，预计至多 1024 个。	当 ID 字段的长度超过允许的最大长度（1024 个字符）时发生。
时间戳格式	消息 {position} 中的时间戳格式不正确: {timestamp-error-message}。单元格值: {单元格值}。	当无法解析时间戳字段时发生。
消息长度	对于消息 {position} 来说，消息太长。其大小为 {number} 字节，预计至多 65536。	当消息字段的长度超过允许的最大长度 65536 个字符时发生。
数字属性格式	消息 {position} 中的数字格式错误: {number-error-message}。单元格值: {单元格值}。	当无法解析数字用户属性字段时发生。平台应允许任何可解码为数字的格式。
属性长度	对于消息 {position}，属性太长。其大小为 {number} 个字节，预计至多 4096。	当用户属性字段的长度超过允许的最大长度 4096 个字符时发生。
未知错误	未知的 CSV 错误: {underlying-error-message}。	如果发生未知错误，请重新尝试上传。