图像理解与视觉能力配置

让龙虾"看见"你的图片

OpenClaw 支持多模态交互——你可以直接在聊天中发送图片，AI 能够看懂并作出回应。无论是截图中的错误信息、照片中的菜单文字、还是白板上的手写笔记，龙虾都能理解。

支持的视觉场景

截图分析：发送代码报错截图，AI 帮你诊断问题
文档识别：发送合同、发票的照片，AI 提取关键信息
UI 审查：发送设计稿或网页截图，AI 给出改进建议
菜单翻译：出国旅行时拍外文菜单，AI 即时翻译
手写识别：拍摄白板或笔记，AI 转为结构化文本

配置视觉参数

{
  agents: {
    defaults: {
      imageMaxDimensionPx: 1200,  // 图像最大边长（像素），影响 token 消耗
      model: {
        primary: "anthropic/claude-sonnet-4-6"  // 需要支持视觉的模型
      }
    }
  }
}

imageMaxDimensionPx 控制发送给模型的图像尺寸上限。越大越清晰但消耗更多 token：

值	清晰度	Token 消耗	适用场景
768	一般	低	日常截图、简单图片
1200	较好（默认）	中等	大多数场景
2048	很好	较高	细节文档、小字识别

支持视觉的模型

并非所有模型都支持图像理解。常用的视觉模型包括：

Claude Sonnet/Opus 4.6：视觉能力最强，推荐
GPT-4o：综合视觉能力优秀
Gemini 3.1 Pro：支持图像 + 视频理解
Kimi K2.5：国产模型中视觉能力出色
Qwen-VL：通义千问视觉版

图像生成

OpenClaw 也支持 AI 生成图片。通过 image_generate 工具，你可以对龙虾说"画一只在海滩上冲浪的龙虾"：

{
  tools: {
    image_generate: {
      enabled: true,
      provider: "nano-banana-pro"  // 或 dall-e, midjourney 等
    }
  }
}

安装图像生成技能：

clawhub install nano-banana-pro

注意事项

图像会被编码为 base64 发送给模型，大图消耗较多 token
敏感图片（如身份证、银行卡）请谨慎发送给云端模型
本地模型（如 Ollama + LLaVA）可以完全离线处理图片
视频理解目前仅 Gemini 系列模型支持