OpenClaw Gemini TTS 配置教程：Google 语音合成接入

2026-04-16 · 6 分钟模型接入

概述

OpenClaw v2026.4.16 将 Google Gemini TTS 从 beta 升级为正式版。Gemini TTS 是 Google 最新的语音合成技术：

自然流畅的多语言声音
情感和语调控制
多种预设声音
低延迟流式输出

前置要求

OpenClaw v2026.4.16 或更高版本
Google Cloud 项目或 AI Studio 账户
Gemini API Key

获取 API Key

方式 1：Google AI Studio

访问 aistudio.google.com
创建项目
生成 API Key
复制 Key

方式 2：Google Cloud

Google Cloud Console → API 和服务
启用 Gemini API
创建服务账户
下载凭证 JSON

配置 OpenClaw

基础配置

# config.yaml
providers:
  gemini-tts:
    enabled: true
    apiKey: "$GOOGLE_API_KEY"
    defaultVoice: "Aoede"  # 默认声音

使用引导

openclaw onboard --provider gemini-tts

OpenClaw 会：

验证 API Key
下载可用声音列表
测试 TTS 合成
配置默认参数

声音选择

Gemini TTS 提供多种预设声音：

英语声音

声音名	风格	适合场景
Puck	活泼	播客、娱乐
Charon	低沉	新闻、权威
Kore	专业	商务、培训
Fenrir	坚定	通知、提醒
Aoede	自然	通用

中文声音

声音名	风格	适合场景
温婉	柔和	客服、助手
沉稳	正式	新闻、公告
活力	欢快	年轻用户

注：具体声音名以 Google 官方为准。

配置不同声音

providers:
  gemini-tts-default:
    apiKey: "$GOOGLE_API_KEY"
    voice: "Aoede"
  
  gemini-tts-chinese:
    apiKey: "$GOOGLE_API_KEY"
    voice: "温婉"
  
  gemini-tts-business:
    apiKey: "$GOOGLE_API_KEY"
    voice: "Kore"

输出格式

WAV 格式（通用）

providers:
  gemini-tts:
    outputFormat: "wav"
    sampleRate: 44100
    channels: 2

适合：

聊天回复中的语音消息
本地播放
存档保留

PCM 格式（电话场景）

providers:
  gemini-tts:
    outputFormat: "pcm"
    sampleRate: 8000  # 电话标准
    channels: 1

适合：

电话机器人
VoIP 系统
实时通话

MP3 格式（带宽优化）

providers:
  gemini-tts:
    outputFormat: "mp3"
    bitrate: 128

适合：

移动应用
Web 流式播放
存储优化

语速和音量

providers:
  gemini-tts:
    speakingRate: 1.0    # 0.25 - 4.0
    volume: 0.0          # -96 ~ 16 dB
    pitch: 0.0           # -20 ~ 20 半音

与 Talk Mode 集成

启用后自动在 Talk Mode 中使用：

voice:
  enabled: true
  tts:
    provider: "gemini-tts"
    voice: "温婉"
  talkMode:
    enabled: true

实际应用场景

1. 多语言播客生成

# workflows/podcast-generation.lobster
steps:
  - id: script
    tool: llm-task
    args:
      prompt: "生成 10 分钟中文科技播客脚本"
  
  - id: audio
    tool: tts
    provider: gemini-tts
    args:
      text: $script.output
      voice: "沉稳"
      outputFormat: "mp3"
  
  - id: publish
    tool: upload-podcast
    args:
      file: $audio.url

2. 电话机器人

channels:
  voip:
    enabled: true
    tts:
      provider: "gemini-tts"
      voice: "温婉"
      outputFormat: "pcm"
      sampleRate: 8000

3. 无障碍支持

为视障用户提供：

accessibility:
  tts:
    enabled: true
    provider: "gemini-tts"
    autoPlay: true  # 自动朗读 AI 回复

对比其他 TTS

TTS	音质	语言	价格	延迟
Gemini TTS	优秀	多语言	中	低
ElevenLabs	顶级	多语言	高	中
MiniMax TTS	优秀	中文最佳	低	低
OpenAI TTS	良好	多语言	中	低
Azure TTS	良好	最多	低	低
本地 MLX	良好	英文好	免费	中

成本估算

Gemini TTS 定价（以 Google 官方为准）：

标准：约 $5-10 / 百万字符
对于日常使用：$5-20/月
大规模（播客生成）：$100-500/月

故障排查

API Key 无效

openclaw doctor providers gemini-tts

声音不存在

# 列出所有可用声音
openclaw providers voices gemini-tts

音质问题

提高 sampleRate（44100 或 48000）
使用 WAV 而非 MP3
检查网络带宽

注意事项

Gemini TTS 需要 OpenClaw v2026.4.16 或更高版本
部分高级声音可能有地区限制
实时场景延迟重要，就近选区域
长文本建议分段生成
商用需遵守 Google 使用条款
中文效果很好但可能不如 MiniMax TTS 针对性强