Agent Evaluation
测试 AI 模型与路由安装命令
npx clawhub@latest install agent-evaluation
安装说明
1
确认环境
确保已安装 Node.js 22+ 和 OpenClaw。在终端运行 openclaw --version 确认 OpenClaw 正常工作。
2
执行安装
在终端中运行上方安装命令,ClawHub 会自动下载并安装 Agent Evaluation 到 ~/.openclaw/skills/ 目录。
3
验证安装
运行 openclaw skills list 查看已安装技能列表,确认 Agent Evaluation 已出现在列表中。
4
配置参数(可选)
根据下方介绍中的配置说明,在 ~/.config/openclaw/openclaw.json5 中添加技能的配置项。
手动安装方式:将 Skill 文件夹复制到
~/.openclaw/skills/ 或项目目录下的 skills/ 文件夹,确保文件夹中包含 SKILL.md 文件。
行为测试
性能基准
回归检测
可靠性评分
报告生成
详细介绍
Agent Evaluation 是一个专门用于测试和评估 AI Agent 能力的 Skill,帮助开发者量化 Agent 的行为可靠性和性能表现。
核心功能
- 行为测试:定义期望行为用例,验证 Agent 是否正确响应各种输入
- 性能基准:测量响应时间、Token 使用量、工具调用效率
- 回归检测:在模型切换或配置变更后,自动检测行为回归
- 可靠性评分:基于多次运行生成可靠性评分报告
- 批量评估:并行运行多个测试场景,快速完成评估
配置示例
测试用例定义
安装命令
使用场景
- 切换模型后验证 Agent 行为一致性
- CI/CD 中自动化 Agent 质量检查
- 对比不同 Provider 的表现差异
- Skill 开发时的集成测试
注意事项
- 每次评估会消耗 API Token,建议使用低成本模型进行大量测试
- 测试结果受模型随机性影响,建议多次运行取平均
- 回归检测需要保存基线结果