首页 资讯 下载 教程 Skills 社群

OpenClaw 音视频处理配置:语音转写与视频理解

媒体处理概述

OpenClaw 支持处理聊天中收到的音频和视频消息。你可以配置多个处理模型,按顺序级联——前一个失败自动切换到下一个。

音频处理

{
  tools: {
    media: {
      concurrency: 2,
      audio: {
        enabled: true,
        maxBytes: 20971520,    // 最大 20MB
        scope: {
          default: "deny",
          rules: [
            { action: "allow", match: { chatType: "direct" } }
          ]
        },
        models: [
          { provider: "openai", model: "gpt-4o-mini-transcribe" },
          {
            type: "cli",
            command: "whisper",
            args: ["--model", "base", ""]
          }
        ]
      }
    }
  }
}

参数说明

  • concurrency:同时处理的媒体任务数
  • maxBytes:单个文件大小上限
  • scope:控制哪些场景启用音频处理(上面的例子只允许私聊)
  • models:处理模型列表,按顺序尝试

模型类型

Provider 模型:调用云端 API

{ provider: "openai", model: "gpt-4o-mini-transcribe" }

CLI 工具:调用本地命令行程序

{
  type: "cli",
  command: "whisper",
  args: ["--model", "base", ""]
}

模板变量:(文件路径)、(提示词)、``(最大字符数)

视频处理

{
  tools: {
    media: {
      video: {
        enabled: true,
        maxBytes: 52428800,    // 最大 50MB
        models: [
          { provider: "google", model: "gemini-3-flash-preview" }
        ]
      }
    }
  }
}

视频处理使用支持视频输入的多模态模型(如 Gemini)来理解视频内容。

级联机制

models 列表中的模型按顺序尝试:

  1. 第一个模型处理成功 → 返回结果
  2. 第一个失败 → 自动尝试第二个
  3. 依次类推,直到某个成功或全部失败

这让你可以把云端 API 和本地工具混合配置:优先用快速的云端服务,失败时回退到本地 Whisper。

认证

Provider 模型的认证遵循标准顺序:auth-profiles.json → 环境变量 → models.providers.*.apiKey