发布详情
OpenAI 在 2026 年 4 月发布 GPT-5.5。与之前版本强调"回答更准确"不同,GPT-5.5 的核心卖点是:
给它一个混乱的多部分任务,它会自己规划、使用工具、检查结果、处理歧义并坚持完成,无需用户管理每一步。
这是 OpenAI 自 GPT-3.5 以来最重要的产品方向转变——从"对话模型"到**"Agent 模型"**。
核心能力
自主任务执行
GPT-5.5 能独立完成的多步任务:
- 规划:将复杂目标拆解为可执行步骤
- 工具使用:选择和调用合适的工具
- 自我检查:验证中间结果的正确性
- 歧义处理:遇到不明确时做合理假设或询问
- 持续推进:不会中途放弃
长任务处理
在长链推理和多步工作流上有显著提升:
- 能处理需要数小时完成的任务
- 自动处理中间的错误和重试
- 保持目标一致性
定价
标准 GPT-5.5 定价:
- 输入:$5 / 百万 Token
- 输出:$30 / 百万 Token
相比 Claude Opus 4.7(输入 $15 / 输出 $75),GPT-5.5 更经济。
性价比对比
| 模型 | 输入价格 | 输出价格 | SWE-bench |
|---|---|---|---|
| GPT-5.5 | $5 | $30 | 约 78% |
| GPT-5.4 | $3 | $15 | 74.9% |
| Claude Opus 4.7 | $15 | $75 | 87.6% |
| Claude Sonnet 4.6 | $3 | $15 | 约 72% |
GPT-5.5 在性价比上表现突出。
与 GPT-5.4 的差异
能力提升
- 长任务成功率提升约 40%
- 工具调用准确率提升约 25%
- 自我修正能力显著增强
定价变化
- 价格比 GPT-5.4 略高
- 但自主完成任务的能力节省了用户管理时间
- 总体 TCO(总拥有成本)可能更低
技术原理(公开部分)
OpenAI 透露 GPT-5.5 的几个关键技术:
深度思考链
- 内部维护多层次的"思考计划"
- 自动评估每个子任务的进展
- 动态调整策略
强化学习优化
- 基于真实 Agent 任务的强化学习
- 奖励"完成任务"而非"给出好回答"
- 学习何时该请求帮助
工具使用预训练
- 在海量工具调用样本上专门训练
- 不仅会"用工具",更会"选工具"
对比其他 Agent 模型
vs Claude Opus 4.7
- Claude 优势:编程能力更强(87.6% vs ~78%)
- GPT-5.5 优势:价格便宜 67%
vs Gemini 3.1
- 各有优劣,GPT-5.5 在工具使用上略优
vs 开源模型(MiniMax M2.7 等)
- 闭源模型在自主能力上仍有明显优势
- 开源模型在成本上更有竞争力
对 OpenClaw 用户的意义
在 OpenClaw 中使用
providers:
openai:
apiKey: "$OPENAI_API_KEY"
agents:
autonomous:
provider: "openai"
model: "gpt-5.5"
systemPrompt: "你是一个自主执行任务的 Agent"
推荐场景
- 长时间自主任务:Cron 触发的自动化
- 复杂工作流:多步骤的业务流程
- 成本敏感但要能力强:比 Claude Opus 便宜但能力足够
配合 OpenClaw 功能
- Lobster 工作流:GPT-5.5 执行 + 关键节点审批
- Task Flow:复杂任务的持久化状态
- Active Memory:跨会话的任务连续性
使用建议
任务选择
GPT-5.5 最适合:
- 目标明确但路径复杂的任务
- 涉及多个工具和 API 的集成
- 需要处理异常和重试的流程
不适合:
- 简单对话(用 GPT-5.4 更经济)
- 需要最高准确率的代码(用 Claude Opus 4.7)
- 创意内容生成(模型差异不大)
Prompt 技巧
- 给出明确的任务目标,不要给详细步骤
- 指定成功标准让 Agent 自检
- 标注边界条件(如不能修改生产)
总结
GPT-5.5 代表 OpenAI 正式进入 Agent 时代。虽然在绝对编程能力上落后于 Claude Opus 4.7,但在自主任务完成能力和性价比上极具竞争力。
OpenClaw 用户值得尝试用 GPT-5.5 处理之前需要 Claude Opus 才能做的自主任务,节省可观成本。