首页 资讯 下载 教程 Skills 社群

OpenClaw 多 TTS Provider 配置:从 ElevenLabs 到火山引擎

概述

OpenClaw v2026.4.25 大幅扩展了 TTS(文本转语音)支持,新增 6 个 Provider

  • Azure Speech:Microsoft 企业级
  • Xiaomi:小米中文优化
  • Volcengine:火山引擎,字节跳动
  • Inworld:角色化 AI 语音
  • Local CLI:完全本地
  • ElevenLabs v3:业界顶级

加上之前的 Gemini TTS、MiniMax TTS、OpenAI TTS、本地 MLX,OpenClaw 已成为 TTS Provider 最全的 Agent 框架

Provider 对比

Provider 中文 英文 价格 延迟 隐私
Azure Speech 云端
Xiaomi 优秀 一般 国内
Volcengine 顶级 良好 极低 国内
Inworld 云端
Local CLI 一般 良好 免费 极低 本地
ElevenLabs v3 优秀 顶级 云端
Gemini TTS 云端
MiniMax TTS 优秀 一般 国内
OpenAI TTS 云端

Azure Speech

配置

providers:
  azure-speech:
    enabled: true
    apiKey: "$AZURE_SPEECH_KEY"
    region: "eastus"  # 或 westus、eastasia
    defaultVoice: "zh-CN-XiaoxiaoNeural"

适合场景

  • 企业用户:合规性强
  • 多语言场景:100+ 语言支持
  • 微软生态:与 Office 365 集成

中文声音

  • zh-CN-XiaoxiaoNeural(晓晓)
  • zh-CN-YunyangNeural(云阳)
  • zh-CN-XiaohanNeural(晓涵)
  • 更多在 Azure 文档查询

Xiaomi 小米语音

配置

providers:
  xiaomi-tts:
    enabled: true
    apiKey: "$XIAOMI_TTS_KEY"
    appId: "$XIAOMI_APP_ID"

适合场景

  • 中文为主
  • 国内用户:访问稳定快速
  • 价格敏感:相对便宜
  • 小米生态:智能家居集成

声音特点

  • 自然流畅的中文
  • 多种音色(少女、青年、中年、老年)
  • 多种情感(活泼、平静、严肃)

Volcengine 火山引擎

配置

providers:
  volcengine-tts:
    enabled: true
    accessKey: "$VOLCENGINE_AK"
    secretKey: "$VOLCENGINE_SK"
    appId: "$VOLCENGINE_APP_ID"

适合场景

  • 中文最佳
  • 抖音同款:流量场景验证
  • 极低延迟:实时交互
  • 大规模应用:性价比高

特色功能

  • 实时流式 TTS:边生成边播放
  • 声音克隆:基于样本克隆
  • 情感丰富:开心、悲伤、愤怒等
  • 多种风格:新闻、客服、广播

Inworld AI

配置

providers:
  inworld:
    enabled: true
    apiKey: "$INWORLD_KEY"
    workspace: "my-workspace"

适合场景

  • 角色驱动:游戏、虚拟人、NPC
  • 情感表达:丰富的情感声音
  • 互动场景:长期角色对话

特色

  • 角色一致性:声音 + 性格统一
  • 情感切换:根据对话情境
  • 语言混合:可在英文中夹中文

Local CLI

配置

providers:
  local-cli:
    enabled: true
    command: "say"  # macOS 内置
    voice: "Tingting"  # 中文

不同平台

macOS

providers:
  local-cli:
    command: "say"
    voice: "Tingting"  # 中文女声

可用声音:

say -v "?"  # 列出所有可用声音

Linux

providers:
  local-cli:
    command: "espeak"
    args: ["-v", "zh"]

或使用 festival:

providers:
  local-cli:
    command: "festival"
    args: ["--tts"]

Windows

providers:
  local-cli:
    command: "powershell"
    args: ["-Command", "Add-Type -AssemblyName System.Speech; ..."]

适合场景

  • 完全本地:数据不离开设备
  • 零成本:免费
  • 快速响应:无网络延迟
  • 无障碍场景:自带辅助技术

ElevenLabs v3

配置

providers:
  elevenlabs:
    enabled: true
    apiKey: "$ELEVENLABS_KEY"
    version: "v3"  # 新版本
    defaultVoice: "Rachel"  # 或自定义声音 ID

适合场景

  • 最高音质:业界顶级
  • 角色配音:影视、游戏
  • 声音克隆:5 分钟样本克隆
  • 多语言:30+ 语言

v3 改进

相比 v2:

  • 更自然的停顿
  • 更准确的情感
  • 多语言混合更流畅
  • 长文本生成稳定

智能 TTS 路由

可以根据场景自动选择 Provider:

voice:
  tts:
    routing:
      # 默认 Provider
      default: "volcengine-tts"
      
      rules:
        # 中文用火山引擎
        - condition: "language == 'zh'"
          provider: "volcengine-tts"
        
        # 英文用 ElevenLabs
        - condition: "language == 'en'"
          provider: "elevenlabs"
        
        # 角色对话用 Inworld
        - condition: "context == 'character'"
          provider: "inworld"
        
        # 敏感内容本地处理
        - condition: "sensitive == true"
          provider: "local-cli"

Personas 多人格

v2026.4.25 引入的 Personas:

agents:
  customer-service:
    persona:
      name: "小爱"
      voice:
        provider: "volcengine-tts"
        voiceId: "BV001_streaming"
        style: "friendly"
  
  technical-expert:
    persona:
      name: "Alex"
      voice:
        provider: "elevenlabs"
        voiceId: "professional-male"
        style: "calm"

每个 Agent 有独特"声音人格"。

/tts 命令

基础使用

/tts 你好,欢迎使用 OpenClaw

立即播放语音。

Chat-Scoped Auto TTS

会话级别自动 TTS:

/tts on    # 该会话所有 Agent 回复都自动 TTS
/tts off   # 关闭
/tts latest  # 仅最新一条

临时切换 Provider

/tts --provider elevenlabs 这是英文测试 hello world

实际场景

场景 1:双语客服

agents:
  bilingual-cs:
    voice:
      tts:
        # 自动检测语言并选择 Provider
        autoSelect: true
        chineseProvider: "volcengine-tts"
        englishProvider: "elevenlabs"

场景 2:游戏角色 AI

agents:
  npc-merchant:
    persona:
      voice:
        provider: "inworld"
        characterId: "wise-merchant"
        style: "warm"

场景 3:无障碍助手

agents:
  accessibility-helper:
    voice:
      tts:
        # 本地优先(离线可用)
        provider: "local-cli"
        # 云端备份
        fallback: "volcengine-tts"

成本对比

按 100,000 字/月估算:

Provider 月成本
Volcengine ~$5
Xiaomi ~$5
Local CLI $0
Azure Speech ~$15
Gemini TTS ~$10
OpenAI TTS ~$15
ElevenLabs ~$50
Inworld ~$30

成本悬殊,按场景选择。

注意事项

  • 多 TTS Provider 需要 OpenClaw v2026.4.25 或更高
  • 国内用户优先选择火山引擎、小米
  • 国际用户根据成本和音质选择
  • 敏感场景考虑本地 CLI
  • 角色场景考虑 Inworld
  • ElevenLabs 高成本但顶级音质
  • 建议配置多个 Provider 互为 fallback
  • 实测各 Provider 的音色,选最适合的