概述
OpenClaw v2026.4.25 大幅扩展了 TTS(文本转语音)支持,新增 6 个 Provider:
- Azure Speech:Microsoft 企业级
- Xiaomi:小米中文优化
- Volcengine:火山引擎,字节跳动
- Inworld:角色化 AI 语音
- Local CLI:完全本地
- ElevenLabs v3:业界顶级
加上之前的 Gemini TTS、MiniMax TTS、OpenAI TTS、本地 MLX,OpenClaw 已成为 TTS Provider 最全的 Agent 框架。
Provider 对比
| Provider | 中文 | 英文 | 价格 | 延迟 | 隐私 |
|---|---|---|---|---|---|
| Azure Speech | 优 | 优 | 中 | 低 | 云端 |
| Xiaomi | 优秀 | 一般 | 低 | 低 | 国内 |
| Volcengine | 顶级 | 良好 | 低 | 极低 | 国内 |
| Inworld | 良 | 优 | 中 | 中 | 云端 |
| Local CLI | 一般 | 良好 | 免费 | 极低 | 本地 |
| ElevenLabs v3 | 优秀 | 顶级 | 高 | 中 | 云端 |
| Gemini TTS | 良 | 优 | 中 | 低 | 云端 |
| MiniMax TTS | 优秀 | 一般 | 低 | 低 | 国内 |
| OpenAI TTS | 良 | 优 | 中 | 低 | 云端 |
Azure Speech
配置
providers:
azure-speech:
enabled: true
apiKey: "$AZURE_SPEECH_KEY"
region: "eastus" # 或 westus、eastasia
defaultVoice: "zh-CN-XiaoxiaoNeural"
适合场景
- 企业用户:合规性强
- 多语言场景:100+ 语言支持
- 微软生态:与 Office 365 集成
中文声音
zh-CN-XiaoxiaoNeural(晓晓)zh-CN-YunyangNeural(云阳)zh-CN-XiaohanNeural(晓涵)- 更多在 Azure 文档查询
Xiaomi 小米语音
配置
providers:
xiaomi-tts:
enabled: true
apiKey: "$XIAOMI_TTS_KEY"
appId: "$XIAOMI_APP_ID"
适合场景
- 中文为主
- 国内用户:访问稳定快速
- 价格敏感:相对便宜
- 小米生态:智能家居集成
声音特点
- 自然流畅的中文
- 多种音色(少女、青年、中年、老年)
- 多种情感(活泼、平静、严肃)
Volcengine 火山引擎
配置
providers:
volcengine-tts:
enabled: true
accessKey: "$VOLCENGINE_AK"
secretKey: "$VOLCENGINE_SK"
appId: "$VOLCENGINE_APP_ID"
适合场景
- 中文最佳
- 抖音同款:流量场景验证
- 极低延迟:实时交互
- 大规模应用:性价比高
特色功能
- 实时流式 TTS:边生成边播放
- 声音克隆:基于样本克隆
- 情感丰富:开心、悲伤、愤怒等
- 多种风格:新闻、客服、广播
Inworld AI
配置
providers:
inworld:
enabled: true
apiKey: "$INWORLD_KEY"
workspace: "my-workspace"
适合场景
- 角色驱动:游戏、虚拟人、NPC
- 情感表达:丰富的情感声音
- 互动场景:长期角色对话
特色
- 角色一致性:声音 + 性格统一
- 情感切换:根据对话情境
- 语言混合:可在英文中夹中文
Local CLI
配置
providers:
local-cli:
enabled: true
command: "say" # macOS 内置
voice: "Tingting" # 中文
不同平台
macOS
providers:
local-cli:
command: "say"
voice: "Tingting" # 中文女声
可用声音:
say -v "?" # 列出所有可用声音
Linux
providers:
local-cli:
command: "espeak"
args: ["-v", "zh"]
或使用 festival:
providers:
local-cli:
command: "festival"
args: ["--tts"]
Windows
providers:
local-cli:
command: "powershell"
args: ["-Command", "Add-Type -AssemblyName System.Speech; ..."]
适合场景
- 完全本地:数据不离开设备
- 零成本:免费
- 快速响应:无网络延迟
- 无障碍场景:自带辅助技术
ElevenLabs v3
配置
providers:
elevenlabs:
enabled: true
apiKey: "$ELEVENLABS_KEY"
version: "v3" # 新版本
defaultVoice: "Rachel" # 或自定义声音 ID
适合场景
- 最高音质:业界顶级
- 角色配音:影视、游戏
- 声音克隆:5 分钟样本克隆
- 多语言:30+ 语言
v3 改进
相比 v2:
- 更自然的停顿
- 更准确的情感
- 多语言混合更流畅
- 长文本生成稳定
智能 TTS 路由
可以根据场景自动选择 Provider:
voice:
tts:
routing:
# 默认 Provider
default: "volcengine-tts"
rules:
# 中文用火山引擎
- condition: "language == 'zh'"
provider: "volcengine-tts"
# 英文用 ElevenLabs
- condition: "language == 'en'"
provider: "elevenlabs"
# 角色对话用 Inworld
- condition: "context == 'character'"
provider: "inworld"
# 敏感内容本地处理
- condition: "sensitive == true"
provider: "local-cli"
Personas 多人格
v2026.4.25 引入的 Personas:
agents:
customer-service:
persona:
name: "小爱"
voice:
provider: "volcengine-tts"
voiceId: "BV001_streaming"
style: "friendly"
technical-expert:
persona:
name: "Alex"
voice:
provider: "elevenlabs"
voiceId: "professional-male"
style: "calm"
每个 Agent 有独特"声音人格"。
/tts 命令
基础使用
/tts 你好,欢迎使用 OpenClaw
立即播放语音。
Chat-Scoped Auto TTS
会话级别自动 TTS:
/tts on # 该会话所有 Agent 回复都自动 TTS
/tts off # 关闭
/tts latest # 仅最新一条
临时切换 Provider
/tts --provider elevenlabs 这是英文测试 hello world
实际场景
场景 1:双语客服
agents:
bilingual-cs:
voice:
tts:
# 自动检测语言并选择 Provider
autoSelect: true
chineseProvider: "volcengine-tts"
englishProvider: "elevenlabs"
场景 2:游戏角色 AI
agents:
npc-merchant:
persona:
voice:
provider: "inworld"
characterId: "wise-merchant"
style: "warm"
场景 3:无障碍助手
agents:
accessibility-helper:
voice:
tts:
# 本地优先(离线可用)
provider: "local-cli"
# 云端备份
fallback: "volcengine-tts"
成本对比
按 100,000 字/月估算:
| Provider | 月成本 |
|---|---|
| Volcengine | ~$5 |
| Xiaomi | ~$5 |
| Local CLI | $0 |
| Azure Speech | ~$15 |
| Gemini TTS | ~$10 |
| OpenAI TTS | ~$15 |
| ElevenLabs | ~$50 |
| Inworld | ~$30 |
成本悬殊,按场景选择。
注意事项
- 多 TTS Provider 需要 OpenClaw v2026.4.25 或更高
- 国内用户优先选择火山引擎、小米
- 国际用户根据成本和音质选择
- 敏感场景考虑本地 CLI
- 角色场景考虑 Inworld
- ElevenLabs 高成本但顶级音质
- 建议配置多个 Provider 互为 fallback
- 实测各 Provider 的音色,选最适合的