ixp
latest
false
UiPath logo, featuring letters U and I in white

Communications Mining 用户指南

上次更新日期 2025年10月20日

将 CSV 文件上传到源中

注意:您必须以 Automation Cloud 用户身份分配IXP 项目管理员角色,或以旧版用户分配来源管理员编辑消息权限,才能将 CSV 文件上传到来源。

要将 CSV 文件中的数据上传到数据源,请应用以下步骤:
备注:
  • 更新除用户属性以外的任何内容,将导致关联数据集中的通用字段注释丢失。例如,更新来源中的现有消息,更改消息属性,例如消息文本、sent_at 时间戳以及“来源”或“来源”。在此之前,请确保在关联的数据集中固定最新的模型版本。

  • 有关创建数据源的详细信息,请查看在 GUI 中创建或删除数据源。

  1. 导航至“管理员”页面。
  2. 选择“源”选项卡,然后找到要上传数据的来源。
  3. 选择数据源卡上的上传图标。
  4. 使用“选择文件”从您的计算机中选择一个 CSV 文件。
  5. 选择要上传的 CSV 文件。确保文件符合以下条件:
    • 文件的第一行应包含标头,并用逗号或制表符分隔。
    • 该文件必须至少包含三列:
      • 消息:消息文本。
      • 时间戳:消息的创建时间。
      • 唯一 ID:每条消息的不同标识符。
    • 文件中的所有文本字段都应用双引号括起来。
    • 文件必须编码为 UTF-8、UTF-16 或 UTF-32。平台会自动检测正确的编码。
    • 文件大小应为 128 MiB 或更小。对于较大的文件,请将其拆分为多个文件,每个文件小于 128 MiB。
  6. 选择所需的列,其中下拉菜单包含 CSV 文件中检测到的列标头:
    • 消息 ID 列- 具有可识别消息的唯一 ID 的列。消息 ID 只能包含 ASCII 字母数字字符(AZ、az、0-9)和标点符号,但正斜杠/除外。

      注意:如果来源中存在具有相同 ID 的现有消息,则系统将更新这些消息以匹配新文件的内容。

    • 消息列- 包含要在平台中分析的消息文本的列。
    • “时间戳列” - 包含录制消息的日期和时间的列。时间戳格式很灵活,由平台自动推断。有关更多详细信息,请查看“使用正确的格式”
  7. 如果您有包含主题行、会话或参与者的数据(通常在案例或电子邮件会话中遇到),则可以选择以下附加列:
    • “主题列” - 包含消息主题的列。
    • “发件人列” - 包含发件人的列。
    • 目标列- 包含一个或多个收件人的列。确保多个收件人用分号;分隔。
    • 抄送列-“抄送” 字段中包含一个或多个收件人的列。确保多个收件人用分号;分隔。
      • 有关在发件人、收件人和抄送字段中使用正确格式的更多详细信息,请参阅使用正确的格式
    • 会话 ID 列- 包含消息会话 ID 的列。会话 ID 将不同的消息绑定到同一个会话。
  8. 您可以选择要与消息一起上传的其他用户属性。用户属性是与您可以在平台中筛选的每条消息关联的上下文元数据。平台中的机器学习模型也可能会利用这些用户属性,这些属性属于以下类型:
    • 字符串用户属性是分类元数据,例如 ID、国家/地区、交易对方等。
    • “数字用户属性”是数字元数据,例如 NPS、电子邮件统计信息、金额等。

    注意:如果文件包含 NPS 分数作为用户属性,则必须将此作为数字属性包含在内,并且仅将其命名为NPS以触发原生 NPS 图表在平台中加载。

  9. 选择所有用户属性后,选择“上传”

    系统将提示您检查包含已上传数据的来源的数据集中已上传的消息。如果来源未与任何数据集关联,则可以创建新的数据集以检查上传是否按预期进行。

    注意:如果您在选择用户属性时出错,则可以再次上传相同的文件。平台将使用列 ID 作为标识符来覆盖现有消息和属性。这不会影响应用于现有消息的任何标签。

使用正确的格式

发件人/收件人/抄送格式

请确保:

  • 每个会话的收件人数量不超过 2,048 个的上限。
  • 发件人或任何收件人未超过 512 个字符的限制。
  • 一行中仅可包含一个分号。例如,以下内容的格式有误: [email protected][email protected](电子邮件)。

尽管平台会删除收件人之前或之后的所有空格,但不会执行任何其他数据清理。以下是您可能要用于数据的一些格式示例:

平台使用分号;分隔不同的收件人。

上传数据之前,请确保电子邮件格式已正确设置。

注意:在标准会话用例中,例如在电子邮件会话中,每个发件人单元格应仅包含一个发件人。

时间戳格式

如果您选择的时间戳格式对于日、月和年的顺序不明确(例如01/02/03 10:10 ),您可以建议正确的解释:
  • 2003 年 1 月 2 日 - 无
  • 2003 年 2 月 1 日 - 第一天
  • 2001 年 2 月 3 日 - 年初
  • 2001 年 3 月 2 日 - 日优先 + 年优先

为避免歧义,建议以RFC 3339格式提供时间戳。例如, 2020-01-31T12:34:56Z表示 UTC 或时区: 2020-08-031T11:20:60-08:00

故障排除

注意:如果 CSV 在上传过程中失败,您可以在修复错误后再次上传相同的 CSV。如果任何已上传消息的消息 ID 和文本(主题和正文)保持不变,则在重试上传时无需支付额外的AI Units或Platform Units 。

本节包含上传过程中可能出现的错误消息,以及每个错误的解决方案。

在以下错误消息中,{some否} 映射到有关发生错误的上下文信息。此外,我们在文件中引用位置的方式已标准化为:

字符串展开为:
{position}记录 {row-number},位于行 {line-number},列 {colum-number} (字节为 {byte-number})

系统将显示错误消息的标题以及说明,如下图所示:



注意:如果您遇到与表中所列错误不同的错误,请重新尝试上传。
错误类型错误消息描述
列不足CSV 文件仅包含 {number-columns} 列,但至少需要 3 个列,即文本、时间戳和 ID。上传的 CSV 未包含至少 3 列,或者平台错误地检测了文件的编码。
编码无效文件包含无效字符,其中编码被检测为 {detected-encoding}。文件的 UTF-8、UTF-16 或 UTF-32 编码不正确。平台会自动检测文件的格式。
标头无效string:ti:er' '(^delimiter|id|message|timestamp |timestamp_default_utc_offset |timestamp_day_first|timestamp_year_first\\Z)|(^(?P<property_type>number|string):(?P<name>\\w(?:[\\w]{0,30}\\w)?)\\Z)'不匹配如果列标题是用户属性的无效名称,则在请求架构无效时,平台会返回默认消息。检查每个列标题是否为其目的有效格式。列标头的最大长度为 32 个字母数字字符。
不等长的行CSV 包含长度不等的行。 消息 {position} 包含 {number} 个字段,但上一个记录包含 {number} 个字段。CSV 包含的行单元格数量不同或与标头数量不一致。
ID 格式{record} 的消息 ID 无效。ID 只能包含 ASCII 字母数字字符和标点符号,但正斜杠/除外。单元格值: {单元格值}。 当 ID 字段包含无效字符(如错误消息中所述)时发生。
ID 长度对于消息 {record},ID 太长。其大小为 {number} 个字节,预计至多 1024 个。当 ID 字段的长度超过允许的最大长度(1024 个字符)时发生。
时间戳格式消息 {position} 中的时间戳格式不正确: {timestamp-error-message}。单元格值: {单元格值}。当无法解析时间戳字段时发生。
消息长度对于消息 {position} 来说,消息太长。其大小为 {number} 字节,预计至多 65536。当消息字段的长度超过允许的最大长度 65536 个字符时发生。
数字属性格式消息 {position} 中的数字格式错误: {number-error-message}。单元格值: {单元格值}。当无法解析数字用户属性字段时发生。平台应允许任何可解码为数字的格式。
属性长度对于消息 {position},属性太长。其大小为 {number} 个字节,预计至多 4096。当用户属性字段的长度超过允许的最大长度 4096 个字符时发生。
未知错误未知的 CSV 错误: {underlying-error-message}。如果发生未知错误,请重新尝试上传。
  • 使用正确的格式
  • 故障排除

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo
信任与安全
© 2005-2025 UiPath。保留所有权利。