首页 资讯 下载 教程 Skills 社群

OpenClaw 视频和音乐生成配置:让 AI Agent 创作多媒体内容

概述

OpenClaw v2026.4.5 新增了内置的 video_generatemusic_generate 工具,AI Agent 可以直接在对话中创建视频和音乐内容。

支持的 Provider 包括:

工具 支持的 Provider
video_generate xAI (grok-imagine-video)、阿里模型工作室 Wan、Runway
music_generate Google Lyria、MiniMax、ComfyUI 工作流

前置要求

  • OpenClaw v2026.4.5 或更高版本
  • 至少一个媒体生成 Provider 的 API Key
  • (可选)本地 ComfyUI 实例用于自定义工作流

视频生成配置

xAI Grok Video

# config.yaml
providers:
  xai:
    apiKey: "your-xai-api-key"

配置好 xAI Provider 后,Agent 会自动识别 grok-imagine-video 模型用于视频生成。

阿里模型工作室 Wan

providers:
  qwen:
    apiKey: "your-dashscope-api-key"

阿里 Wan 视频生成通过 DashScope API 调用,适合国内用户使用(延迟低、无需翻墙)。

Runway

providers:
  runway:
    apiKey: "your-runway-api-key"

指定默认视频 Provider

如果配置了多个视频 Provider,可以指定默认使用哪个:

tools:
  video_generate:
    defaultProvider: "qwen/*"  # 默认使用阿里 Wan

音乐生成配置

Google Lyria

providers:
  google:
    apiKey: "your-google-api-key"

Google Lyria 提供高质量的音乐生成能力。

MiniMax

providers:
  minimax:
    apiKey: "your-minimax-api-key"
    groupId: "your-group-id"

MiniMax 同时提供音乐生成和 TTS 语音合成能力。

指定默认音乐 Provider

tools:
  music_generate:
    defaultProvider: "minimax/*"

如果未指定,系统会按以下顺序尝试:当前默认 Provider → 其他已注册的音乐生成 Provider。

ComfyUI 工作流集成

v2026.4.5 捆绑了 ComfyUI 工作流媒体插件,支持本地和云端两种模式。

本地 ComfyUI

plugins:
  comfyui:
    enabled: true
    host: "http://localhost:8188"
    workflowDir: "./workflows/comfyui"

将 ComfyUI 工作流文件(.json)放入 workflowDir 目录,Agent 即可调用。

Comfy Cloud

plugins:
  comfyui:
    enabled: true
    cloud:
      apiKey: "your-comfy-cloud-key"

工作流驱动的媒体生成

ComfyUI 的优势是可以使用自定义工作流生成媒体:

  • 自定义的 Stable Diffusion 工作流
  • 特定风格的视频生成管道
  • 音频处理和音乐生成链

异步任务机制

媒体生成采用异步任务追踪模式:

  1. Agent 发起生成请求
  2. 系统返回任务 ID,后台开始生成
  3. 生成完成后自动推送结果到当前会话
  4. 支持可选的 hint 参数(如 durationSeconds
用户:帮我生成一段 30 秒的轻音乐,适合作为视频背景
Agent:正在生成音乐,预计需要 1-2 分钟...
      [任务 ID: music-xxxx]
Agent:音乐已生成完毕![音频文件]

hint 参数使用警告而非错误机制——如果某个 Provider 不支持特定 hint,会记录警告但不会中断生成。

工具权限控制

媒体生成工具默认需要显式启用:

tools:
  alsoAllow:
    - video_generate
    - music_generate

或使用工具 profile:

tools:
  profile: full  # 包含所有工具

国内用户推荐配置

对于中国用户,推荐以下组合:

# 视频生成:阿里 Wan(国内访问快)
providers:
  qwen:
    apiKey: "your-dashscope-api-key"

# 音乐生成:MiniMax(国内公司,延迟低)
  minimax:
    apiKey: "your-minimax-api-key"
    groupId: "your-group-id"

tools:
  video_generate:
    defaultProvider: "qwen/*"
  music_generate:
    defaultProvider: "minimax/*"
  alsoAllow:
    - video_generate
    - music_generate

注意事项

  • 视频和音乐生成需要 v2026.4.5 或更高版本
  • 媒体生成消耗的 API 额度较大,注意控制使用频率
  • ComfyUI 本地模式需要足够的 GPU 显存(建议 8GB+)
  • 各 Provider 的输出格式和质量有所不同,建议多试几个选择最适合的
  • music_generatetts(文本转语音)是不同的工具,不要混淆