概述
OpenClaw v2026.4.5 新增了内置的 video_generate 和 music_generate 工具,AI Agent 可以直接在对话中创建视频和音乐内容。
支持的 Provider 包括:
| 工具 | 支持的 Provider |
|---|---|
| video_generate | xAI (grok-imagine-video)、阿里模型工作室 Wan、Runway |
| music_generate | Google Lyria、MiniMax、ComfyUI 工作流 |
前置要求
- OpenClaw v2026.4.5 或更高版本
- 至少一个媒体生成 Provider 的 API Key
- (可选)本地 ComfyUI 实例用于自定义工作流
视频生成配置
xAI Grok Video
# config.yaml
providers:
xai:
apiKey: "your-xai-api-key"
配置好 xAI Provider 后,Agent 会自动识别 grok-imagine-video 模型用于视频生成。
阿里模型工作室 Wan
providers:
qwen:
apiKey: "your-dashscope-api-key"
阿里 Wan 视频生成通过 DashScope API 调用,适合国内用户使用(延迟低、无需翻墙)。
Runway
providers:
runway:
apiKey: "your-runway-api-key"
指定默认视频 Provider
如果配置了多个视频 Provider,可以指定默认使用哪个:
tools:
video_generate:
defaultProvider: "qwen/*" # 默认使用阿里 Wan
音乐生成配置
Google Lyria
providers:
google:
apiKey: "your-google-api-key"
Google Lyria 提供高质量的音乐生成能力。
MiniMax
providers:
minimax:
apiKey: "your-minimax-api-key"
groupId: "your-group-id"
MiniMax 同时提供音乐生成和 TTS 语音合成能力。
指定默认音乐 Provider
tools:
music_generate:
defaultProvider: "minimax/*"
如果未指定,系统会按以下顺序尝试:当前默认 Provider → 其他已注册的音乐生成 Provider。
ComfyUI 工作流集成
v2026.4.5 捆绑了 ComfyUI 工作流媒体插件,支持本地和云端两种模式。
本地 ComfyUI
plugins:
comfyui:
enabled: true
host: "http://localhost:8188"
workflowDir: "./workflows/comfyui"
将 ComfyUI 工作流文件(.json)放入 workflowDir 目录,Agent 即可调用。
Comfy Cloud
plugins:
comfyui:
enabled: true
cloud:
apiKey: "your-comfy-cloud-key"
工作流驱动的媒体生成
ComfyUI 的优势是可以使用自定义工作流生成媒体:
- 自定义的 Stable Diffusion 工作流
- 特定风格的视频生成管道
- 音频处理和音乐生成链
异步任务机制
媒体生成采用异步任务追踪模式:
- Agent 发起生成请求
- 系统返回任务 ID,后台开始生成
- 生成完成后自动推送结果到当前会话
- 支持可选的 hint 参数(如
durationSeconds)
用户:帮我生成一段 30 秒的轻音乐,适合作为视频背景
Agent:正在生成音乐,预计需要 1-2 分钟...
[任务 ID: music-xxxx]
Agent:音乐已生成完毕![音频文件]
hint 参数使用警告而非错误机制——如果某个 Provider 不支持特定 hint,会记录警告但不会中断生成。
工具权限控制
媒体生成工具默认需要显式启用:
tools:
alsoAllow:
- video_generate
- music_generate
或使用工具 profile:
tools:
profile: full # 包含所有工具
国内用户推荐配置
对于中国用户,推荐以下组合:
# 视频生成:阿里 Wan(国内访问快)
providers:
qwen:
apiKey: "your-dashscope-api-key"
# 音乐生成:MiniMax(国内公司,延迟低)
minimax:
apiKey: "your-minimax-api-key"
groupId: "your-group-id"
tools:
video_generate:
defaultProvider: "qwen/*"
music_generate:
defaultProvider: "minimax/*"
alsoAllow:
- video_generate
- music_generate
注意事项
- 视频和音乐生成需要 v2026.4.5 或更高版本
- 媒体生成消耗的 API 额度较大,注意控制使用频率
- ComfyUI 本地模式需要足够的 GPU 显存(建议 8GB+)
- 各 Provider 的输出格式和质量有所不同,建议多试几个选择最适合的
music_generate与tts(文本转语音)是不同的工具,不要混淆