首页 资讯 下载 教程 Skills 社群

ICLR 2026 重磅论文:推理增强反而加剧 AI Agent 的工具幻觉

· 7 分钟 行业动态

论文发布

2026 年 4 月 29 日,ICLR 2026(国际表示学习会议)在巴西里约热内卢召开。一篇引人关注的论文浮出水面:

《The Reasoning Trap: How Enhancing LLM Reasoning Amplifies Tool Hallucination》 (推理陷阱:增强 LLM 推理如何放大工具幻觉)

核心发现

反直觉的结论

直觉上,让模型推理更深应该让它工具调用更准确

但研究发现:

  • 推理强度增加工具幻觉增加
  • 模型会"想象"出不存在的工具
  • 或者误用现有工具
  • 或者生成错误的参数

这是一个重要的反直觉发现。

实验结果

测试设置

研究者对比了:

  • 基础模型:未做推理增强
  • CoT(Chain-of-Thought)模型:思维链增强
  • 强化学习推理模型:RL 训练推理
  • 更强推理模型:r1、o1 类深度推理

工具幻觉率

模型类型 工具幻觉率
基础模型 ~5%
CoT 模型 ~12%
RL 推理 ~18%
深度推理 ~25-30%

推理越深,幻觉越严重

原因分析

"过度思考"陷阱

深度推理模型倾向于:

  • 构造复杂的解决方案
  • 当现有工具不够时**"创造"新工具**
  • 推理过程中忘记可用工具的限制

训练数据偏差

推理增强训练时:

  • 强调找到答案的能力
  • 弱化承认不能完成的能力
  • 模型学会"必须给出答案"

自我说服

在长推理链中:

  • 早期假设被自我强化
  • 错误工具调用被合理化
  • 形成"逻辑闭环"但事实错误

对 Agent 设计的启示

1. 推理深度的取舍

不是越深越好:

  • 简单任务:用浅推理模型
  • 复杂任务:深推理但加防护
  • 工具密集场景:平衡推理深度

2. 工具调用验证

不要盲信 Agent 的工具调用:

# OpenClaw 配置工具验证
tools:
  validation:
    enabled: true
    rejectUnknownTools: true
    validateArguments: true

3. 显式工具清单

Agent 系统提示中强调可用工具

agents:
  my-agent:
    systemPrompt: |
      你只能使用以下工具:
      - read(读文件)
      - write(写文件)
      - exec(执行命令)
      
      如果任务需要其他工具,明确说明你无法完成。
      不要假设其他工具的存在。

4. 限制推理深度

agents:
  my-agent:
    reasoningEffort: "medium"  # 不要总是 high

medium 在很多场景比 high 更可靠。

5. 多次验证

agents:
  verification:
    enabled: true
    retries: 2
    consensusRequired: true

多次执行取共识,减少单次幻觉。

对 OpenClaw 用户的具体建议

配置层面

# 推荐的配置
agents:
  my-agent:
    # 1. 不要总是用最强推理
    reasoningEffort: "medium"
    
    # 2. 严格的工具白名单
    tools:
      include: ["read", "write", "exec", "grep"]
      validateBeforeCall: true
    
    # 3. 失败重试
    retry:
      onToolError: true
      maxAttempts: 2
    
    # 4. 监控异常
    monitoring:
      logToolErrors: true
      alertOnHallucination: true

Prompt 层面

agents:
  my-agent:
    systemPrompt: |
      重要:
      1. 只使用你确认存在的工具
      2. 不确定时承认无法完成
      3. 工具调用前先确认参数
      4. 如果工具调用失败,不要自己合理化结果

Skill 选择

优先使用:

  • 官方维护的 Skills
  • 高下载量的 Skills
  • 明确文档的 Skills

避免:

  • 文档不全的小众 Skills
  • 不再维护的 Skills
  • 权限过宽的 Skills

论文方法和贡献

评估基准

研究者构建了:

  • 工具幻觉评估数据集
  • 覆盖 20+ 任务领域
  • 包含模糊工具场景
  • 可重现的测试套件

缓解方法

论文提出几种缓解:

  1. 工具感知训练:训练时强调工具边界
  2. 回溯机制:错误时回溯而非合理化
  3. 不确定性建模:识别低置信度调用
  4. 校准奖励:奖励"承认不能"

行业反应

Anthropic

Claude 团队表示:

  • Claude 的训练已考虑工具幻觉
  • Opus 4.7 在工具准确性上有改进
  • 持续投入相关研究

OpenAI

GPT-5.5 的设计:

  • "完成偏好"训练时加入了"合理放弃"
  • 工具调用前的验证步骤
  • 但仍有改进空间

Google DeepMind

Gemini 团队:

  • 关注工具幻觉问题
  • Gemini 3.1 在该方面有专门优化
  • 发布相关技术报告

对 OpenClaw 的启示

v2026.4.25 改进

OpenClaw v2026.4.25 引入了:

  • 工具调用验证
  • OpenTelemetry 工具调用追踪
  • Plugin 严格 Manifest

这些都有助于减少工具幻觉。

未来方向

OpenClaw 团队可能:

  • 增加工具幻觉检测器
  • 集成论文的缓解方法
  • 提供配置预设以平衡推理深度

实践案例

案例 1:编程 Agent

问题

Agent(深度推理 GPT-5.5):
[长推理]
我将使用 sandbox.execute_with_rollback() 来安全运行代码

[实际调用]
错误:sandbox.execute_with_rollback() 不存在

Agent 想象出了一个不存在的工具。

解决

agents:
  coder:
    reasoningEffort: "medium"
    systemPrompt: |
      你只能使用 exec 工具。
      没有 sandbox.execute_with_rollback。
      执行前总是确认工具名称。

案例 2:研究 Agent

问题

Agent:
[推理]
我将使用 academic_search.cross_reference() 进行学术交叉引用

[实际]
该工具不存在

解决

明确列出 Agent 可用的工具,不要让它从知识中"创造"。

总结

ICLR 2026 的这篇论文揭示了一个重要的反直觉现象

  • 推理增强不一定让 Agent 更可靠
  • 工具幻觉是当前 Agent 系统的主要可靠性问题
  • 设计 Agent 系统时需要专门防范

对 OpenClaw 用户:

  • 不要盲目追求最强推理
  • 配置工具白名单
  • 启用工具调用验证
  • 监控异常并报警

随着 Agent 系统越来越复杂,可靠性工程成为下一个核心议题。理解工具幻觉的机制,是构建可靠 Agent 系统的第一步。