论文发布
2026 年 4 月 29 日,ICLR 2026(国际表示学习会议)在巴西里约热内卢召开。一篇引人关注的论文浮出水面:
《The Reasoning Trap: How Enhancing LLM Reasoning Amplifies Tool Hallucination》 (推理陷阱:增强 LLM 推理如何放大工具幻觉)
核心发现
反直觉的结论
直觉上,让模型推理更深应该让它工具调用更准确。
但研究发现:
- 推理强度增加 → 工具幻觉增加
- 模型会"想象"出不存在的工具
- 或者误用现有工具
- 或者生成错误的参数
这是一个重要的反直觉发现。
实验结果
测试设置
研究者对比了:
- 基础模型:未做推理增强
- CoT(Chain-of-Thought)模型:思维链增强
- 强化学习推理模型:RL 训练推理
- 更强推理模型:r1、o1 类深度推理
工具幻觉率
| 模型类型 | 工具幻觉率 |
|---|---|
| 基础模型 | ~5% |
| CoT 模型 | ~12% |
| RL 推理 | ~18% |
| 深度推理 | ~25-30% |
推理越深,幻觉越严重。
原因分析
"过度思考"陷阱
深度推理模型倾向于:
- 构造复杂的解决方案
- 当现有工具不够时**"创造"新工具**
- 推理过程中忘记可用工具的限制
训练数据偏差
推理增强训练时:
- 强调找到答案的能力
- 弱化承认不能完成的能力
- 模型学会"必须给出答案"
自我说服
在长推理链中:
- 早期假设被自我强化
- 错误工具调用被合理化
- 形成"逻辑闭环"但事实错误
对 Agent 设计的启示
1. 推理深度的取舍
不是越深越好:
- 简单任务:用浅推理模型
- 复杂任务:深推理但加防护
- 工具密集场景:平衡推理深度
2. 工具调用验证
不要盲信 Agent 的工具调用:
# OpenClaw 配置工具验证
tools:
validation:
enabled: true
rejectUnknownTools: true
validateArguments: true
3. 显式工具清单
Agent 系统提示中强调可用工具:
agents:
my-agent:
systemPrompt: |
你只能使用以下工具:
- read(读文件)
- write(写文件)
- exec(执行命令)
如果任务需要其他工具,明确说明你无法完成。
不要假设其他工具的存在。
4. 限制推理深度
agents:
my-agent:
reasoningEffort: "medium" # 不要总是 high
medium 在很多场景比 high 更可靠。
5. 多次验证
agents:
verification:
enabled: true
retries: 2
consensusRequired: true
多次执行取共识,减少单次幻觉。
对 OpenClaw 用户的具体建议
配置层面
# 推荐的配置
agents:
my-agent:
# 1. 不要总是用最强推理
reasoningEffort: "medium"
# 2. 严格的工具白名单
tools:
include: ["read", "write", "exec", "grep"]
validateBeforeCall: true
# 3. 失败重试
retry:
onToolError: true
maxAttempts: 2
# 4. 监控异常
monitoring:
logToolErrors: true
alertOnHallucination: true
Prompt 层面
agents:
my-agent:
systemPrompt: |
重要:
1. 只使用你确认存在的工具
2. 不确定时承认无法完成
3. 工具调用前先确认参数
4. 如果工具调用失败,不要自己合理化结果
Skill 选择
优先使用:
- 官方维护的 Skills
- 高下载量的 Skills
- 明确文档的 Skills
避免:
- 文档不全的小众 Skills
- 不再维护的 Skills
- 权限过宽的 Skills
论文方法和贡献
评估基准
研究者构建了:
- 工具幻觉评估数据集
- 覆盖 20+ 任务领域
- 包含模糊工具场景
- 可重现的测试套件
缓解方法
论文提出几种缓解:
- 工具感知训练:训练时强调工具边界
- 回溯机制:错误时回溯而非合理化
- 不确定性建模:识别低置信度调用
- 校准奖励:奖励"承认不能"
行业反应
Anthropic
Claude 团队表示:
- Claude 的训练已考虑工具幻觉
- Opus 4.7 在工具准确性上有改进
- 持续投入相关研究
OpenAI
GPT-5.5 的设计:
- "完成偏好"训练时加入了"合理放弃"
- 工具调用前的验证步骤
- 但仍有改进空间
Google DeepMind
Gemini 团队:
- 关注工具幻觉问题
- Gemini 3.1 在该方面有专门优化
- 发布相关技术报告
对 OpenClaw 的启示
v2026.4.25 改进
OpenClaw v2026.4.25 引入了:
- 工具调用验证
- OpenTelemetry 工具调用追踪
- Plugin 严格 Manifest
这些都有助于减少工具幻觉。
未来方向
OpenClaw 团队可能:
- 增加工具幻觉检测器
- 集成论文的缓解方法
- 提供配置预设以平衡推理深度
实践案例
案例 1:编程 Agent
问题:
Agent(深度推理 GPT-5.5):
[长推理]
我将使用 sandbox.execute_with_rollback() 来安全运行代码
[实际调用]
错误:sandbox.execute_with_rollback() 不存在
Agent 想象出了一个不存在的工具。
解决:
agents:
coder:
reasoningEffort: "medium"
systemPrompt: |
你只能使用 exec 工具。
没有 sandbox.execute_with_rollback。
执行前总是确认工具名称。
案例 2:研究 Agent
问题:
Agent:
[推理]
我将使用 academic_search.cross_reference() 进行学术交叉引用
[实际]
该工具不存在
解决:
明确列出 Agent 可用的工具,不要让它从知识中"创造"。
总结
ICLR 2026 的这篇论文揭示了一个重要的反直觉现象:
- 推理增强不一定让 Agent 更可靠
- 工具幻觉是当前 Agent 系统的主要可靠性问题
- 设计 Agent 系统时需要专门防范
对 OpenClaw 用户:
- 不要盲目追求最强推理
- 配置工具白名单
- 启用工具调用验证
- 监控异常并报警
随着 Agent 系统越来越复杂,可靠性工程成为下一个核心议题。理解工具幻觉的机制,是构建可靠 Agent 系统的第一步。