概述
OpenClaw v2026.4.16 将 Google Gemini TTS 从 beta 升级为正式版。Gemini TTS 是 Google 最新的语音合成技术:
- 自然流畅的多语言声音
- 情感和语调控制
- 多种预设声音
- 低延迟流式输出
前置要求
- OpenClaw v2026.4.16 或更高版本
- Google Cloud 项目或 AI Studio 账户
- Gemini API Key
获取 API Key
方式 1:Google AI Studio
- 访问 aistudio.google.com
- 创建项目
- 生成 API Key
- 复制 Key
方式 2:Google Cloud
- Google Cloud Console → API 和服务
- 启用 Gemini API
- 创建服务账户
- 下载凭证 JSON
配置 OpenClaw
基础配置
# config.yaml
providers:
gemini-tts:
enabled: true
apiKey: "$GOOGLE_API_KEY"
defaultVoice: "Aoede" # 默认声音
使用引导
openclaw onboard --provider gemini-tts
OpenClaw 会:
- 验证 API Key
- 下载可用声音列表
- 测试 TTS 合成
- 配置默认参数
声音选择
Gemini TTS 提供多种预设声音:
英语声音
| 声音名 | 风格 | 适合场景 |
|---|---|---|
| Puck | 活泼 | 播客、娱乐 |
| Charon | 低沉 | 新闻、权威 |
| Kore | 专业 | 商务、培训 |
| Fenrir | 坚定 | 通知、提醒 |
| Aoede | 自然 | 通用 |
中文声音
| 声音名 | 风格 | 适合场景 |
|---|---|---|
| 温婉 | 柔和 | 客服、助手 |
| 沉稳 | 正式 | 新闻、公告 |
| 活力 | 欢快 | 年轻用户 |
注:具体声音名以 Google 官方为准。
配置不同声音
providers:
gemini-tts-default:
apiKey: "$GOOGLE_API_KEY"
voice: "Aoede"
gemini-tts-chinese:
apiKey: "$GOOGLE_API_KEY"
voice: "温婉"
gemini-tts-business:
apiKey: "$GOOGLE_API_KEY"
voice: "Kore"
输出格式
WAV 格式(通用)
providers:
gemini-tts:
outputFormat: "wav"
sampleRate: 44100
channels: 2
适合:
- 聊天回复中的语音消息
- 本地播放
- 存档保留
PCM 格式(电话场景)
providers:
gemini-tts:
outputFormat: "pcm"
sampleRate: 8000 # 电话标准
channels: 1
适合:
- 电话机器人
- VoIP 系统
- 实时通话
MP3 格式(带宽优化)
providers:
gemini-tts:
outputFormat: "mp3"
bitrate: 128
适合:
- 移动应用
- Web 流式播放
- 存储优化
语速和音量
providers:
gemini-tts:
speakingRate: 1.0 # 0.25 - 4.0
volume: 0.0 # -96 ~ 16 dB
pitch: 0.0 # -20 ~ 20 半音
与 Talk Mode 集成
启用后自动在 Talk Mode 中使用:
voice:
enabled: true
tts:
provider: "gemini-tts"
voice: "温婉"
talkMode:
enabled: true
实际应用场景
1. 多语言播客生成
# workflows/podcast-generation.lobster
steps:
- id: script
tool: llm-task
args:
prompt: "生成 10 分钟中文科技播客脚本"
- id: audio
tool: tts
provider: gemini-tts
args:
text: $script.output
voice: "沉稳"
outputFormat: "mp3"
- id: publish
tool: upload-podcast
args:
file: $audio.url
2. 电话机器人
channels:
voip:
enabled: true
tts:
provider: "gemini-tts"
voice: "温婉"
outputFormat: "pcm"
sampleRate: 8000
3. 无障碍支持
为视障用户提供:
accessibility:
tts:
enabled: true
provider: "gemini-tts"
autoPlay: true # 自动朗读 AI 回复
对比其他 TTS
| TTS | 音质 | 语言 | 价格 | 延迟 |
|---|---|---|---|---|
| Gemini TTS | 优秀 | 多语言 | 中 | 低 |
| ElevenLabs | 顶级 | 多语言 | 高 | 中 |
| MiniMax TTS | 优秀 | 中文最佳 | 低 | 低 |
| OpenAI TTS | 良好 | 多语言 | 中 | 低 |
| Azure TTS | 良好 | 最多 | 低 | 低 |
| 本地 MLX | 良好 | 英文好 | 免费 | 中 |
成本估算
Gemini TTS 定价(以 Google 官方为准):
- 标准:约 $5-10 / 百万字符
- 对于日常使用:$5-20/月
- 大规模(播客生成):$100-500/月
故障排查
API Key 无效
openclaw doctor providers gemini-tts
声音不存在
# 列出所有可用声音
openclaw providers voices gemini-tts
音质问题
- 提高 sampleRate(44100 或 48000)
- 使用 WAV 而非 MP3
- 检查网络带宽
注意事项
- Gemini TTS 需要 OpenClaw v2026.4.16 或更高版本
- 部分高级声音可能有地区限制
- 实时场景延迟重要,就近选区域
- 长文本建议分段生成
- 商用需遵守 Google 使用条款
- 中文效果很好但可能不如 MiniMax TTS 针对性强