让龙虾"看见"你的图片
OpenClaw 支持多模态交互——你可以直接在聊天中发送图片,AI 能够看懂并作出回应。无论是截图中的错误信息、照片中的菜单文字、还是白板上的手写笔记,龙虾都能理解。
支持的视觉场景
- 截图分析:发送代码报错截图,AI 帮你诊断问题
- 文档识别:发送合同、发票的照片,AI 提取关键信息
- UI 审查:发送设计稿或网页截图,AI 给出改进建议
- 菜单翻译:出国旅行时拍外文菜单,AI 即时翻译
- 手写识别:拍摄白板或笔记,AI 转为结构化文本
配置视觉参数
{
agents: {
defaults: {
imageMaxDimensionPx: 1200, // 图像最大边长(像素),影响 token 消耗
model: {
primary: "anthropic/claude-sonnet-4-6" // 需要支持视觉的模型
}
}
}
}
imageMaxDimensionPx 控制发送给模型的图像尺寸上限。越大越清晰但消耗更多 token:
| 值 | 清晰度 | Token 消耗 | 适用场景 |
|---|---|---|---|
| 768 | 一般 | 低 | 日常截图、简单图片 |
| 1200 | 较好(默认) | 中等 | 大多数场景 |
| 2048 | 很好 | 较高 | 细节文档、小字识别 |
支持视觉的模型
并非所有模型都支持图像理解。常用的视觉模型包括:
- Claude Sonnet/Opus 4.6:视觉能力最强,推荐
- GPT-4o:综合视觉能力优秀
- Gemini 3.1 Pro:支持图像 + 视频理解
- Kimi K2.5:国产模型中视觉能力出色
- Qwen-VL:通义千问视觉版
图像生成
OpenClaw 也支持 AI 生成图片。通过 image_generate 工具,你可以对龙虾说"画一只在海滩上冲浪的龙虾":
{
tools: {
image_generate: {
enabled: true,
provider: "nano-banana-pro" // 或 dall-e, midjourney 等
}
}
}
安装图像生成技能:
clawhub install nano-banana-pro
注意事项
- 图像会被编码为 base64 发送给模型,大图消耗较多 token
- 敏感图片(如身份证、银行卡)请谨慎发送给云端模型
- 本地模型(如 Ollama + LLaVA)可以完全离线处理图片
- 视频理解目前仅 Gemini 系列模型支持