智能体 - 评估

agents

latest

false

智能体用户指南

重要 :

新发布内容的本地化可能需要 1-2 周的时间才能完成。

评估

关于评估

当您构建智能体时，您希望它稳定可靠，能够相信它可以始终如一地提供正确的输出。评估有助于您确定智能体的性能是否出色，或者是否需要改进。

术语

评估是输入与对输出做出的断言 — 或评估程序 — 组成的对。评估程序是一个定义的条件或规则，用于评估智能体的输出是否符合预期输出或预期轨迹。

评估集是评估和评估程序的逻辑分组。

评估结果是完成运行的评估的追踪记录，用于评估智能体的性能。在运行评估的过程中，会测量智能体的准确性、效率和决策能力，并根据智能体的性能进行评分。

评估分数根据特定评估中的断言确定智能体的性能。分数范围为 0 到 100。如果您评估运行失败，您必须诊断原因、调试并重新运行。

创建评估

在大规模创建评估之前，您可以先在一次性场景中测试智能体，以查看智能体是否能够执行任务以及输出是否正确。如果您的智能体生成了正确的输出，您可以根据正确的运行情况创建评估。如果您的智能体未生成正确的输出，您可以修复输出，并使用预期输出创建评估，或从头创建评估。

根据试运行情况创建评估

设计智能体后，请选择“调试配置”。
在“调试配置”窗口中，确认解决方案中使用的资源，然后：
1. 提供测试运行的输入：
  - 通过键入内容来手动提供输入，或
  - 模拟输入：使用 LLM 为智能体参数生成输入。您可以让 LLM 自动生成输入或提供提示，以将其引导到特定示例。
2. 配置您是想使用真实工具进行测试，还是使用一个、多个或所有模拟工具进行测试。
  - 模拟工具：使用 LLM 模拟一个或多个智能体工具。描述每个工具的响应方式，并模拟您的智能体所依赖的部分或全部工具集。
选择“保存和调试”。结果显示在“执行追踪”底部面板中。指标可以显示您的智能体正在使用真实数据还是模拟数据运行。
如果输出正确，请选择“添加到评估集”按钮。如果输出不正确，您可以：
- 优化提示词：调整提示词并重新测试智能体，直到输出正确为止。
- 根据错误输出创建评估：根据错误输出生成评估，然后对其进行手动编辑，以符合预期结果。
试运行列出在添加到评估集窗口中。对于您想要添加到评估的任何运行，选择添加到默认集。如果您已经创建评估集，您可以从可用的下拉列表中选择该集。
接下来，转到“ 评估集 ”面板。提供三个选项：
1. 使用预构建评估集组织评估。
2. 使用模拟输入和工具生成新集。
3. 在现有集中添加评估，包括真实和模拟数据。
选择集评估以运行评估。您还可以从集中选择想要评估的特定评估。
转到结果选项卡，查看评估分数和详细信息。

从零开始创建评估

设计智能体之后，转到评估集选项卡并选择新建。您还可以选择导入，以使用来自其他智能体评估的现有 JSON 数据。
为评估集添加相关名称。
选择添加到集，以创建新评估。对于集中的每一个新评估：
1. 添加名称。
2. 为输入字段（从已定义的输入参数继承而来）添加值和预期输出。
3. 选择“保存”。
接下来，选择设置评估程序，将评估程序分配给评估集。您可以为一个集分配一个或多个评估程序。
选择保存更改。
在评估集主页中，对您要运行的每个评估集选择运行评估集。
转到结果选项卡，查看评估分数和详细信息。

基于 runtime 追踪创建评估

您可以直接根据 Runtime 追踪创建智能体评估，从而将生产反馈转化为可操作的测试用例，以改进设计时。

首先，运行您的智能体。
在 Orchestrator 中，转到“自动化 > 作业”，然后打开智能体运行的作业追踪。或者，转到“智能体实例管理”页面，以查看智能体运行追踪记录。
为智能体运行提供反馈：
- 对每个追踪选择“赞”或“踩”图标。
- 添加注释，以使评估可操作。
在智能体定义中获取 runtime 追踪：
- 返回 Studio Web 中的智能体，然后导航到“评估”>“评估集”。
- 在“创建”按钮下，选择“获取 runtime 追踪”，以提取收到反馈的追踪记录。
将追踪记录添加到评估集中：
- 从获取的追踪记录中，选择“添加到评估集中”。
- 根据需要编辑输入和预期输出。
- 将追踪记录保存到选定的评估集中。
将追踪记录保存到选定的评估集中。

添加后，runtime 追踪会被明确标记为评估集中的 runtime 运行，以便于将其与离线测试运行区分开。这些追踪记录还会自动更新智能体的总体评估分数，使您能够立即了解真实世界反馈如何提高智能体性能。

生成评估

您还可以创建包含模拟的评估集。使用模拟输入和工具生成新的评估集（或添加到现有评估集）。

选择“创建”。
选择“生成新评估集”。您可以让 LLM 根据现有智能体、其设计运行情况、参数自动生成评估集，或提供提示以将其引导到特定示例。有关详细信息，请参阅“在评估中配置模拟”。

评估者

评估器用于定义如何根据预期行为或结果对智能体输出进行评分。当您向评估集添加评估器时，请选择最符合您希望执行的验证类型的评估器类型。

添当您添加或编辑评估器时，所显示的配置选项取决于您所选择的评估器类别和类型。

评估器类别

评估器类别	评估者类型	描述
确定性	精确匹配	检查智能体输出是否与预期输出完全一致，在措辞或格式上没有任何差异。
确定性	JSON 相似度	比较 JSON 对象或值的结构相似度，而不是要求精确匹配。
确定性	CSV 列精确匹配	比较指定 CSV 列中的精确数值是否与预期值一致。
LLM 作为评审者	语义相似度	使用语言模型对智能体输出与预期输出在意义和意图方面的匹配程度进行评分。
LLM 作为评审者	上下文精度	对检索到的或已建立关联的上下文与用户查询之间的相关性进行评分。
LLM 作为评审者	保真度	评估智能体输出中的声明是否基于给定的上下文。
轨迹	轨迹	使用语言模型来根据智能体的运行历史和预期行为对其整体表现进行评判。

确定性评估器使用预定义的基于规则的匹配方式，对于相同的输入始终产生一致的结果。它们不依赖于语言模型。
LLM 作为评判者的评估器使用语言模型来评估语义、依据性或相关性，并且能够容忍语言中的合理差异。
轨迹评估器使用语言模型对智能体在整个运行过程中的行为进行评估，包括中间步骤和工具使用情况。

确定性评估器不包括“模型”选择字段，因为它们不使用 LLM。LLM 作为评判者的评估器和轨迹评估器让您选择用于评估的模型。

选择评估程序类型

如果您不确定哪种评估器类型最适合您的用例，请使用以下指南，根据您要验证的输出类型和您所需的灵活性级别选择最合适的选项。

LLM 作为评判者（语义相似性、忠实性、上下文精确度）：
- 确定根输出目标时，建议将此方法作为默认方法。
- 对复杂输出提供灵活评估。
- 除了精确匹配之外，还可以评估质量和正确性。
- 最适用于评估推理、自然语言响应或复杂的结构化输出。
确定性（精确匹配、JSON 相似度、CSV 列精确匹配）：
- 如果希望获得完全匹配，建议选择此类型。
- 当您严格定义了输出要求时，此类型最有效。
- 适用于复杂对象，但最适用于:
  - 布尔值（真/假）
  - 特定数值
  - 精确的字符串匹配
  - 基元数组。
轨迹：
- 当您需要评估智能体的整体行为，而不仅仅是其最终输出时，建议使用。

定义评估程序

使用评估程序面板来创建和管理评估程序。默认情况下，每个智能体都有一个预定义、基于 LLM 的默认评估程序。

要创建您自己的评估程序：

在您的智能体项目中，选择“评估器”。
选择新建：
选择您首选的评估器类型，然后选择“继续”。
配置评估程序：
1. 提供相关的名称和说明。
2. （仅适用于基于 LLM 的评估器和轨迹评估器）选择用于评估的模型。
3. 选择目标输出字段：
  - 根级别目标（全部）：评估整个输出。
  - 特定于字段的目标定位：评估特定的一级输出字段。可用字段继承自系统提示中定义的输出参数。
4. 添加一个提示（对于基于 LLM 的评估器和轨迹评估器，为必填项），用于定义评估器应如何对输出进行评分。

在评估中配置模拟

备注：

此功能目前处于预览阶段。

模拟通过模拟工具和升级行为（而非真实端点）实现安全、快速且经济高效的测试，从而增强智能体评估能力。它们提供评估级别的细粒度控制，使团队能够定义要模拟的组件，并将真实运行和模拟运行组合到同一个评估集中。

这种灵活性支持固定或生成输入以及文字输出和基于行为的分级，提高了测试覆盖率、可重复性以及智能体行为是否按预期评估能力。

有关其他信息，请参阅“为智能体工具配置模拟”。

如何设置评估模拟

要使用模拟设置新的评估集，请按照以下步骤操作：

在“ 评估集 ”选项卡中，选择“ 创建” ，然后选择“ 生成新的评估集”。
输入您想要生成的评估用例的描述。您可以提供高级上下文、特定场景或粘贴相关内容，以指导您的生成。如果将此字段保留为空，系统仍会自动为您生成评估用例。
选择“ 生成评估”。 Autopilot 会生成多个评估。对于每个评估，您可以查看和编辑模拟指令、输入生成指令和预期行为说明。
选择您想要使用的评估，然后选择“ 添加集”。

要为现有评估配置模拟，请按照以下步骤操作：

打开任何评估集，然后对任何评估都选择“ 编辑”。此时将显示“ 编辑评估 ”面板。
在“ 安排 ”部分中，使用手动值或 runtime 生成指令定义或生成输入数据。如果您手动定义输入数据，您可以将“ 测试 ”字段设置为“ 真” ，以表示该字段是测试场景的一部分。
在“ 行为 ”部分中，选择每个工具应模拟行为还是执行真实调用，并添加模拟指令。工具执行是默认设置。
在“ 断言 ”部分中，指定评估基于输出匹配还是智能体轨迹，并描述预期行为和输出。
选择“ 保存” ，以应用您的配置。

图 1. 在评估中配置工具模拟

通过评估优化智能体

使用“优化”功能，通过自动分析评估集并建议对智能体定义进行针对性更新，提高智能体的可靠性和性能。

优化：

解释智能体定义（例如系统提示词和行为指令）以及评估结果。
运行多个评估轮次，确定需要改进的方面。
生成建议的提示词级修改，以提高评估器分数。
在应用任何更改之前，向您显示预测分数比较结果。
显示建议修改，您可以立即应用，增强智能体行为。
通过优化追踪记录，提供对建议生成方式的全面可见性。

使用“优化”之前：

智能体必须至少完成一次评估运行。
评估集必须显示一个或多个评估器的结果（分数）。

开始优化运行

为智能体运行评估。
转到“评估”→“评估集”。
选择一个包含已完成结果的集，然后选择“优化”。
在“优化”窗口中，设置轮次。轮次可控制“优化”服务审核智能体和评估结果的次数。每个轮次都会重新运行分析，从而优化建议。选择的数字越高（最大为 10），改进越精确，但也会增加处理时间。
选择“开始优化”。优化以异步方式运行。在流程继续时，您可以关闭对话框，稍后返回。

跟踪优化进度

在“优化”运行时，您可以打开优化追踪记录以监控进度。优化追踪记录显示：

每个优化轮次和评估步骤。
分析期间使用的各次 LLM 调用。
每个步骤的令牌使用量、执行时间和状态。
智能体输出和用于获取建议的评估器断言。

此追踪记录有助于了解“优化”如何得出结论并调试意外结果。

查看更改建议

“优化”完成后，返回评估集，然后选择“查看建议”。在“查看建议”视图中：

您将看到智能体系统提示词修改前后的比较。
更改会在行内突出显示，以便您轻松识别已添加、移除或优化了哪些内容。
预测评估器分数改进显示在顶部，说明应用更改后预计会产生的影响。
统一的差异切换开关便于您在内联视图与差异样式视图之间切换。

对于每项建议，您可以：

接受，将提议的更改直接应用于您的智能体定义。
拒绝，放弃建议并保留当前提示词。

已知限制

“优化”功能：

仅可用于自主智能体
使用模拟工具调用时，有效性会降低
以异步方式运行，可能需要一些时间才能完成

在评估中测试模型设置

您可以使用评估集来比较不同的模型配置，并了解它们如何影响智能体的行为。通过评估，您可以使用相同的场景和预期输出，并排测试多个模型/温度组合。这有助于您识别在准确性、速度和成本之间取得适当平衡的配置。

从 Agent Builder 资源管理器面板中，选择评估集。
选择评估集。
选择齿轮图标以打开评估设置。
在评估集属性面板中，添加多个温度和模型组合。例如:
- 温度 0.2，模型 A
- 温度 0.5，模型 A
- 温度 0.7，模型 A
- 温度 0.5，模型 B
每个配置都会创建单独的评估运行。
选择评估集，以运行所有配置。运行完成后，打开结果选项卡来比较结果。

有关详细信息，请参阅“为智能体选择最佳模型”。

使用文件输入定义评估

智能体评估支持基于文件的输入。如果您的智能体需要 file 参数，则评估用户界面会呈现专用的文件选取器，让您上传或重用文件进行测试。

要在评估中使用文件：

打开智能体，然后导航到“评估集”。
创建新的评估或编辑现有评估。
在“输入设置”面板中，找到“文件输入字段”。
上传新文件或从可用评估文件中选择一个文件。
保存评估并运行评估集。

选定的文件以与 Runtime 文件输入相同的方式传递给智能体，确保评估和生产运行之间的行为一致。

使用评估

在哪里进行评估

您可以在两个地方进行评估，具体取决于您的工作流：

设计画布中的底部面板 – 在您主动构建或测试智能体时，提供快速访问评估的机会。面板包含：
- “历史记录”选项卡，用于查看过去的运行以及完整追踪记录，并将其直接添加到评估集中。
- “评估”选项卡，用于查看评估集，查看最近的分数，深入了解详细信息，或单独或完整重新运行测试。您还可以比较实际输出与预期输出，并在正确的情况下使用实际输出更新评估。
- “执行追踪”选项卡，用于实时跟踪当前运行的追踪详细信息。对于对话智能体，此选项卡可用作“聊天”，提供一个用于测试智能体的交互式聊天窗口，同时显示每轮对话的执行历史记录。
“智能体定义”下的“评估”选项卡 – 提供完整的评估工作区。在这里，您可以创建和组织评估集，分配评估者，配置输入和预期输出，以及大规模运行评估。这是设置结构化评估场景和一段时间内管理评估资产的最佳位置。

使用底部面板有助于日常迭代和调试，而专用的“评估”选项卡更适合用于评估集的完整管理和配置。

精心组织您的评估提示词

结构完整的输出可以使评估更加可靠。这就是最好有结构化输出的原因——它可以确保一致性并简化比较流程。

下面是评估整个输出情况的预定义提示词示例：

提示示例

请以评估专家的身份分析这些 JSON 内容的语义相似性，并给予评分（范围为 0-100）。请专注于比较相应字段的含义和上下文等效性，考虑有效的替代表达式、同义词以及语言中的合理变化，同时保持较高的准确性和完整性标准。请为您的评分做出解释，简要说明您给出该分数的原因。

Expected Output: {{ExpectedOutput}}

ActualOutput: {{ActualOutput}}

评估次数

智能体分数认为 30 次以上的评估是合理的基准。

对于简单的智能体，应对 1-3 个评估集进行约 30 次评估。对于更复杂的智能体，我们建议您将评估量至少增加一倍。

评估的次数取决于：

智能体复杂性
- 输入参数的数量
- 输出结构的复杂性
- 工具使用模式
- 决策分支
输入
- 可能的输入范围：数据类型、值范围、可选字段
- 边缘用例
使用模式
- 常见用例
- 不同的角色
- 错误情况

评估集

按评估集对评估进行分组，有助于更好地整理评估。例如，您可以查看：

一个评估集用于完整输出评估
另一个评估集用于边缘用例
另一个评估集用于处理拼写错误。

覆盖原则

逻辑覆盖：制定输入组合、边缘用例和边界条件。
冗余管理：应对每个逻辑等效用例进行 3-5 次评估。
质量胜于数量：更多的评估次数并不总是意味着更好的结果。应专注于有意义的测试。

何时创建评估

请在参数稳定或完整后创建评估。这也意味着您的用例已经建立，并且提示、工具和上下文已经完成。如果您修改了参数，则需要相应地调整评估。

为了最大限度地减少额外工作量，最好从用例定义明确的稳定智能体开始。您可以在同一组织内的智能体之间或在不同组织的智能体之间导出和导入评估集。只要完成智能体设计，您就可以根据需要移动评估，无需从头开始重新创建。

此页面有帮助吗？

前一个升级

下一个智能体追踪

关于评估​

术语​

创建评估​

根据试运行情况创建评估​

从零开始创建评估​

基于 runtime 追踪创建评估​

生成评估​

评估者​

评估器类别​

选择评估程序类型​

定义评估程序​

在评估中配置模拟​

如何设置评估模拟​

通过评估优化智能体​

开始优化运行​

跟踪优化进度​

查看更改建议​

已知限制​

在评估中测试模型设置​

使用文件输入定义评估​

使用评估​

在哪里进行评估​

精心组织您的评估提示词​

提示示例​

评估次数​

评估集​

覆盖原则​

何时创建评估​