ICLR 2026 重磅论文：推理增强反而加剧 AI Agent 的工具幻觉

论文发布

2026 年 4 月 29 日，ICLR 2026（国际表示学习会议）在巴西里约热内卢召开。一篇引人关注的论文浮出水面：

《The Reasoning Trap: How Enhancing LLM Reasoning Amplifies Tool Hallucination》 （推理陷阱：增强 LLM 推理如何放大工具幻觉）

核心发现

反直觉的结论

直觉上，让模型推理更深应该让它工具调用更准确。

但研究发现：

推理强度增加 → 工具幻觉增加
模型会"想象"出不存在的工具
或者误用现有工具
或者生成错误的参数

这是一个重要的反直觉发现。

实验结果

测试设置

研究者对比了：

基础模型：未做推理增强
CoT（Chain-of-Thought）模型：思维链增强
强化学习推理模型：RL 训练推理
更强推理模型：r1、o1 类深度推理

工具幻觉率

模型类型	工具幻觉率
基础模型	~5%
CoT 模型	~12%
RL 推理	~18%
深度推理	~25-30%

推理越深，幻觉越严重。

原因分析

"过度思考"陷阱

深度推理模型倾向于：

构造复杂的解决方案
当现有工具不够时**"创造"新工具**
推理过程中忘记可用工具的限制

训练数据偏差

推理增强训练时：

强调找到答案的能力
弱化承认不能完成的能力
模型学会"必须给出答案"

自我说服

在长推理链中：

早期假设被自我强化
错误工具调用被合理化
形成"逻辑闭环"但事实错误

对 Agent 设计的启示

1. 推理深度的取舍

不是越深越好：

简单任务：用浅推理模型
复杂任务：深推理但加防护
工具密集场景：平衡推理深度

2. 工具调用验证

不要盲信 Agent 的工具调用：

# OpenClaw 配置工具验证
tools:
  validation:
    enabled: true
    rejectUnknownTools: true
    validateArguments: true

3. 显式工具清单

Agent 系统提示中强调可用工具：

agents:
  my-agent:
    systemPrompt: |
      你只能使用以下工具：
      - read（读文件）
      - write（写文件）
      - exec（执行命令）
      
      如果任务需要其他工具，明确说明你无法完成。
      不要假设其他工具的存在。

4. 限制推理深度

agents:
  my-agent:
    reasoningEffort: "medium"  # 不要总是 high

medium 在很多场景比 high 更可靠。

5. 多次验证

agents:
  verification:
    enabled: true
    retries: 2
    consensusRequired: true

多次执行取共识，减少单次幻觉。

对 OpenClaw 用户的具体建议

配置层面

# 推荐的配置
agents:
  my-agent:
    # 1. 不要总是用最强推理
    reasoningEffort: "medium"
    
    # 2. 严格的工具白名单
    tools:
      include: ["read", "write", "exec", "grep"]
      validateBeforeCall: true
    
    # 3. 失败重试
    retry:
      onToolError: true
      maxAttempts: 2
    
    # 4. 监控异常
    monitoring:
      logToolErrors: true
      alertOnHallucination: true

Prompt 层面

agents:
  my-agent:
    systemPrompt: |
      重要：
      1. 只使用你确认存在的工具
      2. 不确定时承认无法完成
      3. 工具调用前先确认参数
      4. 如果工具调用失败，不要自己合理化结果

Skill 选择

优先使用：

官方维护的 Skills
高下载量的 Skills
明确文档的 Skills

避免：

文档不全的小众 Skills
不再维护的 Skills
权限过宽的 Skills

论文方法和贡献

评估基准

研究者构建了：

工具幻觉评估数据集
覆盖 20+ 任务领域
包含模糊工具场景
可重现的测试套件

缓解方法

论文提出几种缓解：

工具感知训练：训练时强调工具边界
回溯机制：错误时回溯而非合理化
不确定性建模：识别低置信度调用
校准奖励：奖励"承认不能"

行业反应

Anthropic

Claude 团队表示：

Claude 的训练已考虑工具幻觉
Opus 4.7 在工具准确性上有改进
持续投入相关研究

OpenAI

GPT-5.5 的设计：

"完成偏好"训练时加入了"合理放弃"
工具调用前的验证步骤
但仍有改进空间

Google DeepMind

Gemini 团队：

关注工具幻觉问题
Gemini 3.1 在该方面有专门优化
发布相关技术报告

对 OpenClaw 的启示

v2026.4.25 改进

OpenClaw v2026.4.25 引入了：

工具调用验证
OpenTelemetry 工具调用追踪
Plugin 严格 Manifest

这些都有助于减少工具幻觉。

未来方向

OpenClaw 团队可能：

增加工具幻觉检测器
集成论文的缓解方法
提供配置预设以平衡推理深度

实践案例

案例 1：编程 Agent

问题：

Agent（深度推理 GPT-5.5）：
[长推理]
我将使用 sandbox.execute_with_rollback() 来安全运行代码

[实际调用]
错误：sandbox.execute_with_rollback() 不存在

Agent 想象出了一个不存在的工具。

解决：

agents:
  coder:
    reasoningEffort: "medium"
    systemPrompt: |
      你只能使用 exec 工具。
      没有 sandbox.execute_with_rollback。
      执行前总是确认工具名称。

案例 2：研究 Agent

问题：

Agent：
[推理]
我将使用 academic_search.cross_reference() 进行学术交叉引用

[实际]
该工具不存在

解决：

明确列出 Agent 可用的工具，不要让它从知识中"创造"。

总结

ICLR 2026 的这篇论文揭示了一个重要的反直觉现象：

推理增强不一定让 Agent 更可靠
工具幻觉是当前 Agent 系统的主要可靠性问题
设计 Agent 系统时需要专门防范

对 OpenClaw 用户：

不要盲目追求最强推理
配置工具白名单
启用工具调用验证
监控异常并报警

随着 Agent 系统越来越复杂，可靠性工程成为下一个核心议题。理解工具幻觉的机制，是构建可靠 Agent 系统的第一步。