首页 资讯 下载 教程 Skills 社群

Agent Evaluation

测试 AI 模型与路由

安装命令

npx clawhub@latest install agent-evaluation

安装说明

1
确认环境

确保已安装 Node.js 22+ 和 OpenClaw。在终端运行 openclaw --version 确认 OpenClaw 正常工作。

2
执行安装

在终端中运行上方安装命令,ClawHub 会自动下载并安装 Agent Evaluation 到 ~/.openclaw/skills/ 目录。

3
验证安装

运行 openclaw skills list 查看已安装技能列表,确认 Agent Evaluation 已出现在列表中。

4
配置参数(可选)

根据下方介绍中的配置说明,在 ~/.config/openclaw/openclaw.json5 中添加技能的配置项。

手动安装方式:将 Skill 文件夹复制到 ~/.openclaw/skills/ 或项目目录下的 skills/ 文件夹,确保文件夹中包含 SKILL.md 文件。
行为测试 性能基准 回归检测 可靠性评分 报告生成

详细介绍

Agent Evaluation 是一个专门用于测试和评估 AI Agent 能力的 Skill,帮助开发者量化 Agent 的行为可靠性和性能表现。

核心功能

  • 行为测试:定义期望行为用例,验证 Agent 是否正确响应各种输入
  • 性能基准:测量响应时间、Token 使用量、工具调用效率
  • 回归检测:在模型切换或配置变更后,自动检测行为回归
  • 可靠性评分:基于多次运行生成可靠性评分报告
  • 批量评估:并行运行多个测试场景,快速完成评估

配置示例

测试用例定义

安装命令

使用场景

  • 切换模型后验证 Agent 行为一致性
  • CI/CD 中自动化 Agent 质量检查
  • 对比不同 Provider 的表现差异
  • Skill 开发时的集成测试

注意事项

  • 每次评估会消耗 API Token,建议使用低成本模型进行大量测试
  • 测试结果受模型随机性影响,建议多次运行取平均
  • 回归检测需要保存基线结果