ixp
latest
false

Communications Mining 用户指南
上次更新日期 2025年10月20日
注意:您必须以 Automation Cloud 用户身份分配IXP 项目管理员角色,或以旧版用户分配来源管理员和编辑消息权限,才能将 CSV 文件上传到来源。
要将 CSV 文件中的数据上传到数据源,请应用以下步骤:
备注:
-
更新除用户属性以外的任何内容,将导致关联数据集中的通用字段注释丢失。例如,更新来源中的现有消息,更改消息属性,例如消息文本、sent_at 时间戳以及“来源”或“来源”。在此之前,请确保在关联的数据集中固定最新的模型版本。
-
有关创建数据源的详细信息,请查看在 GUI 中创建或删除数据源。
- 导航至“管理员”页面。
- 选择“源”选项卡,然后找到要上传数据的来源。
- 选择数据源卡上的上传图标。
- 使用“选择文件”从您的计算机中选择一个 CSV 文件。
- 选择要上传的 CSV 文件。确保文件符合以下条件:
- 文件的第一行应包含标头,并用逗号或制表符分隔。
- 该文件必须至少包含三列:
- 消息:消息文本。
- 时间戳:消息的创建时间。
- 唯一 ID:每条消息的不同标识符。
- 文件中的所有文本字段都应用双引号括起来。
- 文件必须编码为 UTF-8、UTF-16 或 UTF-32。平台会自动检测正确的编码。
- 文件大小应为 128 MiB 或更小。对于较大的文件,请将其拆分为多个文件,每个文件小于 128 MiB。
- 选择所需的列,其中下拉菜单包含 CSV 文件中检测到的列标头:
- 消息 ID 列- 具有可识别消息的唯一 ID 的列。消息 ID 只能包含 ASCII 字母数字字符(AZ、az、0-9)和标点符号,但正斜杠
/除外。注意:如果来源中存在具有相同 ID 的现有消息,则系统将更新这些消息以匹配新文件的内容。 - 消息列- 包含要在平台中分析的消息文本的列。
- “时间戳列” - 包含录制消息的日期和时间的列。时间戳格式很灵活,由平台自动推断。有关更多详细信息,请查看“使用正确的格式” 。
- 消息 ID 列- 具有可识别消息的唯一 ID 的列。消息 ID 只能包含 ASCII 字母数字字符(AZ、az、0-9)和标点符号,但正斜杠
- 如果您有包含主题行、会话或参与者的数据(通常在案例或电子邮件会话中遇到),则可以选择以下附加列:
- “主题列” - 包含消息主题的列。
- “发件人列” - 包含发件人的列。
- 目标列- 包含一个或多个收件人的列。确保多个收件人用分号
;分隔。 - 抄送列-“抄送” 字段中包含一个或多个收件人的列。确保多个收件人用分号
;分隔。- 有关在发件人、收件人和抄送字段中使用正确格式的更多详细信息,请参阅使用正确的格式。
- 会话 ID 列- 包含消息会话 ID 的列。会话 ID 将不同的消息绑定到同一个会话。
- 您可以选择要与消息一起上传的其他用户属性。用户属性是与您可以在平台中筛选的每条消息关联的上下文元数据。平台中的机器学习模型也可能会利用这些用户属性,这些属性属于以下类型:
- 字符串用户属性是分类元数据,例如 ID、国家/地区、交易对方等。
- “数字用户属性”是数字元数据,例如 NPS、电子邮件统计信息、金额等。
注意:如果文件包含 NPS 分数作为用户属性,则必须将此作为数字属性包含在内,并且仅将其命名为NPS以触发原生 NPS 图表在平台中加载。 - 选择所有用户属性后,选择“上传” 。
系统将提示您检查包含已上传数据的来源的数据集中已上传的消息。如果来源未与任何数据集关联,则可以创建新的数据集以检查上传是否按预期进行。
注意:如果您在选择用户属性时出错,则可以再次上传相同的文件。平台将使用列 ID 作为标识符来覆盖现有消息和属性。这不会影响应用于现有消息的任何标签。
发件人/收件人/抄送格式
请确保:
- 每个会话的收件人数量不超过 2,048 个的上限。
- 发件人或任何收件人未超过 512 个字符的限制。
- 一行中仅可包含一个分号。例如,以下内容的格式有误: [email protected] ; [email protected](电子邮件)。
尽管平台会删除收件人之前或之后的所有空格,但不会执行任何其他数据清理。以下是您可能要用于数据的一些格式示例:
- 示例 1: Robert Bog <[email protected]>;John Smith <[email protected]>
- 示例 2:[email protected] ;[email protected]
- 示例 3:[email protected]; [email protected]
平台使用分号
;分隔不同的收件人。
上传数据之前,请确保电子邮件格式已正确设置。
注意:在标准会话用例中,例如在电子邮件会话中,每个发件人单元格应仅包含一个发件人。
时间戳格式
如果您选择的时间戳格式对于日、月和年的顺序不明确(例如
01/02/03 10:10 ),您可以建议正确的解释:
- 2003 年 1 月 2 日 - 无
- 2003 年 2 月 1 日 - 第一天
- 2001 年 2 月 3 日 - 年初
- 2001 年 3 月 2 日 - 日优先 + 年优先
为避免歧义,建议以
RFC 3339格式提供时间戳。例如, 2020-01-31T12:34:56Z表示 UTC 或时区: 2020-08-031T11:20:60-08:00 。
注意:如果 CSV 在上传过程中失败,您可以在修复错误后再次上传相同的 CSV。如果任何已上传消息的消息 ID 和文本(主题和正文)保持不变,则在重试上传时无需支付额外的AI Units或Platform Units 。
本节包含上传过程中可能出现的错误消息,以及每个错误的解决方案。
在以下错误消息中,{some否} 映射到有关发生错误的上下文信息。此外,我们在文件中引用位置的方式已标准化为:
| 字符串 | 展开为: |
|---|---|
| {position} | 记录 {row-number},位于行 {line-number},列 {colum-number} (字节为 {byte-number}) |
系统将显示错误消息的标题以及说明,如下图所示:
注意:如果您遇到与表中所列错误不同的错误,请重新尝试上传。
| 错误类型 | 错误消息 | 描述 |
|---|---|---|
| 列不足 | CSV 文件仅包含 {number-columns} 列,但至少需要 3 个列,即文本、时间戳和 ID。 | 上传的 CSV 未包含至少 3 列,或者平台错误地检测了文件的编码。 |
| 编码无效 | 文件包含无效字符,其中编码被检测为 {detected-encoding}。 | 文件的 UTF-8、UTF-16 或 UTF-32 编码不正确。平台会自动检测文件的格式。 |
| 标头无效 | string:ti:er' 与 '(^delimiter|id|message|timestamp |timestamp_default_utc_offset |timestamp_day_first|timestamp_year_first\\Z)|(^(?P<property_type>number|string):(?P<name>\\w(?:[\\w]{0,30}\\w)?)\\Z)'不匹配 | 如果列标题是用户属性的无效名称,则在请求架构无效时,平台会返回默认消息。检查每个列标题是否为其目的有效格式。列标头的最大长度为 32 个字母数字字符。 |
| 不等长的行 | CSV 包含长度不等的行。 消息 {position} 包含 {number} 个字段,但上一个记录包含 {number} 个字段。 | CSV 包含的行单元格数量不同或与标头数量不一致。 |
| ID 格式 | {record} 的消息 ID 无效。ID 只能包含 ASCII 字母数字字符和标点符号,但正斜杠/除外。单元格值: {单元格值}。
| 当 ID 字段包含无效字符(如错误消息中所述)时发生。 |
| ID 长度 | 对于消息 {record},ID 太长。其大小为 {number} 个字节,预计至多 1024 个。 | 当 ID 字段的长度超过允许的最大长度(1024 个字符)时发生。 |
| 时间戳格式 | 消息 {position} 中的时间戳格式不正确: {timestamp-error-message}。单元格值: {单元格值}。 | 当无法解析时间戳字段时发生。 |
| 消息长度 | 对于消息 {position} 来说,消息太长。其大小为 {number} 字节,预计至多 65536。 | 当消息字段的长度超过允许的最大长度 65536 个字符时发生。 |
| 数字属性格式 | 消息 {position} 中的数字格式错误: {number-error-message}。单元格值: {单元格值}。 | 当无法解析数字用户属性字段时发生。平台应允许任何可解码为数字的格式。 |
| 属性长度 | 对于消息 {position},属性太长。其大小为 {number} 个字节,预计至多 4096。 | 当用户属性字段的长度超过允许的最大长度 4096 个字符时发生。 |
| 未知错误 | 未知的 CSV 错误: {underlying-error-message}。 | 如果发生未知错误,请重新尝试上传。 |