首页 资讯 下载 教程 Skills 社群

图像理解与视觉能力配置

让龙虾"看见"你的图片

OpenClaw 支持多模态交互——你可以直接在聊天中发送图片,AI 能够看懂并作出回应。无论是截图中的错误信息、照片中的菜单文字、还是白板上的手写笔记,龙虾都能理解。

支持的视觉场景

  • 截图分析:发送代码报错截图,AI 帮你诊断问题
  • 文档识别:发送合同、发票的照片,AI 提取关键信息
  • UI 审查:发送设计稿或网页截图,AI 给出改进建议
  • 菜单翻译:出国旅行时拍外文菜单,AI 即时翻译
  • 手写识别:拍摄白板或笔记,AI 转为结构化文本

配置视觉参数

{
  agents: {
    defaults: {
      imageMaxDimensionPx: 1200,  // 图像最大边长(像素),影响 token 消耗
      model: {
        primary: "anthropic/claude-sonnet-4-6"  // 需要支持视觉的模型
      }
    }
  }
}

imageMaxDimensionPx 控制发送给模型的图像尺寸上限。越大越清晰但消耗更多 token:

清晰度 Token 消耗 适用场景
768 一般 日常截图、简单图片
1200 较好(默认) 中等 大多数场景
2048 很好 较高 细节文档、小字识别

支持视觉的模型

并非所有模型都支持图像理解。常用的视觉模型包括:

  • Claude Sonnet/Opus 4.6:视觉能力最强,推荐
  • GPT-4o:综合视觉能力优秀
  • Gemini 3.1 Pro:支持图像 + 视频理解
  • Kimi K2.5:国产模型中视觉能力出色
  • Qwen-VL:通义千问视觉版

图像生成

OpenClaw 也支持 AI 生成图片。通过 image_generate 工具,你可以对龙虾说"画一只在海滩上冲浪的龙虾":

{
  tools: {
    image_generate: {
      enabled: true,
      provider: "nano-banana-pro"  // 或 dall-e, midjourney 等
    }
  }
}

安装图像生成技能:

clawhub install nano-banana-pro

注意事项

  • 图像会被编码为 base64 发送给模型,大图消耗较多 token
  • 敏感图片(如身份证、银行卡)请谨慎发送给云端模型
  • 本地模型(如 Ollama + LLaVA)可以完全离线处理图片
  • 视频理解目前仅 Gemini 系列模型支持