首页 资讯 下载 教程 Skills 社群

OpenClaw Gemini TTS 配置教程:Google 语音合成接入

概述

OpenClaw v2026.4.16 将 Google Gemini TTS 从 beta 升级为正式版。Gemini TTS 是 Google 最新的语音合成技术:

  • 自然流畅的多语言声音
  • 情感和语调控制
  • 多种预设声音
  • 低延迟流式输出

前置要求

  • OpenClaw v2026.4.16 或更高版本
  • Google Cloud 项目或 AI Studio 账户
  • Gemini API Key

获取 API Key

方式 1:Google AI Studio

  1. 访问 aistudio.google.com
  2. 创建项目
  3. 生成 API Key
  4. 复制 Key

方式 2:Google Cloud

  1. Google Cloud Console → API 和服务
  2. 启用 Gemini API
  3. 创建服务账户
  4. 下载凭证 JSON

配置 OpenClaw

基础配置

# config.yaml
providers:
  gemini-tts:
    enabled: true
    apiKey: "$GOOGLE_API_KEY"
    defaultVoice: "Aoede"  # 默认声音

使用引导

openclaw onboard --provider gemini-tts

OpenClaw 会:

  • 验证 API Key
  • 下载可用声音列表
  • 测试 TTS 合成
  • 配置默认参数

声音选择

Gemini TTS 提供多种预设声音:

英语声音

声音名 风格 适合场景
Puck 活泼 播客、娱乐
Charon 低沉 新闻、权威
Kore 专业 商务、培训
Fenrir 坚定 通知、提醒
Aoede 自然 通用

中文声音

声音名 风格 适合场景
温婉 柔和 客服、助手
沉稳 正式 新闻、公告
活力 欢快 年轻用户

注:具体声音名以 Google 官方为准。

配置不同声音

providers:
  gemini-tts-default:
    apiKey: "$GOOGLE_API_KEY"
    voice: "Aoede"
  
  gemini-tts-chinese:
    apiKey: "$GOOGLE_API_KEY"
    voice: "温婉"
  
  gemini-tts-business:
    apiKey: "$GOOGLE_API_KEY"
    voice: "Kore"

输出格式

WAV 格式(通用)

providers:
  gemini-tts:
    outputFormat: "wav"
    sampleRate: 44100
    channels: 2

适合:

  • 聊天回复中的语音消息
  • 本地播放
  • 存档保留

PCM 格式(电话场景)

providers:
  gemini-tts:
    outputFormat: "pcm"
    sampleRate: 8000  # 电话标准
    channels: 1

适合:

  • 电话机器人
  • VoIP 系统
  • 实时通话

MP3 格式(带宽优化)

providers:
  gemini-tts:
    outputFormat: "mp3"
    bitrate: 128

适合:

  • 移动应用
  • Web 流式播放
  • 存储优化

语速和音量

providers:
  gemini-tts:
    speakingRate: 1.0    # 0.25 - 4.0
    volume: 0.0          # -96 ~ 16 dB
    pitch: 0.0           # -20 ~ 20 半音

与 Talk Mode 集成

启用后自动在 Talk Mode 中使用:

voice:
  enabled: true
  tts:
    provider: "gemini-tts"
    voice: "温婉"
  talkMode:
    enabled: true

实际应用场景

1. 多语言播客生成

# workflows/podcast-generation.lobster
steps:
  - id: script
    tool: llm-task
    args:
      prompt: "生成 10 分钟中文科技播客脚本"
  
  - id: audio
    tool: tts
    provider: gemini-tts
    args:
      text: $script.output
      voice: "沉稳"
      outputFormat: "mp3"
  
  - id: publish
    tool: upload-podcast
    args:
      file: $audio.url

2. 电话机器人

channels:
  voip:
    enabled: true
    tts:
      provider: "gemini-tts"
      voice: "温婉"
      outputFormat: "pcm"
      sampleRate: 8000

3. 无障碍支持

为视障用户提供:

accessibility:
  tts:
    enabled: true
    provider: "gemini-tts"
    autoPlay: true  # 自动朗读 AI 回复

对比其他 TTS

TTS 音质 语言 价格 延迟
Gemini TTS 优秀 多语言
ElevenLabs 顶级 多语言
MiniMax TTS 优秀 中文最佳
OpenAI TTS 良好 多语言
Azure TTS 良好 最多
本地 MLX 良好 英文好 免费

成本估算

Gemini TTS 定价(以 Google 官方为准):

  • 标准:约 $5-10 / 百万字符
  • 对于日常使用:$5-20/月
  • 大规模(播客生成):$100-500/月

故障排查

API Key 无效

openclaw doctor providers gemini-tts

声音不存在

# 列出所有可用声音
openclaw providers voices gemini-tts

音质问题

  • 提高 sampleRate(44100 或 48000)
  • 使用 WAV 而非 MP3
  • 检查网络带宽

注意事项

  • Gemini TTS 需要 OpenClaw v2026.4.16 或更高版本
  • 部分高级声音可能有地区限制
  • 实时场景延迟重要,就近选区域
  • 长文本建议分段生成
  • 商用需遵守 Google 使用条款
  • 中文效果很好但可能不如 MiniMax TTS 针对性强