1. 首页
  2. 文本转语音
  3. gtts
Updated on 文本转语音

gtts

Cliff Weitzman

Cliff Weitzman

Speechify 首席执行官兼创始人

Speechify,您的 语音 AI 助手
文字转语音语音输入快速解答一应俱全。

apple logo2025 年苹果设计大奖
5000 万+ 用户

gTTS 是什么?

gTTS 是一个开源 Python 库和命令行工具,通过调用 Google Translate 的文本转语音端点,将文本转换为可播放的 MP3 音频。输出可以写入文件、类文件对象(用于后续音频处理),或直接输出到 stdout。由 Pierre Nicolas Durette 开发,采用 MIT 协议分发,是 PyPI 上下载量最高的 TTS 包之一,截至撰写时每周约有 175,000 次下载。如果你曾想用三行 Python 代码把字符串转成 MP3,gTTS 大概率会是你最先搜到的结果。

但要注意:gTTS 并不是 Google Cloud Text-to-Speech。它实际调用的是 Google Translate 上“播放”按钮背后未公开的接口。这一区别会直接影响下文谈到的 gTTS 优点、局限和适用场景。

gTTS

什么时候适合使用 gTTS?

当你需要免费、快速做原型;一行代码把文本生成 MP3;做多语言演示;个人项目、课堂示例,或让无障碍脚本朗读 Google 文档 导出时,gTTS 很合适。若你需要生产级可靠性、SLA、声音克隆、SSML 控制、高级表达、流式音频,或清晰的商业授权,就不太建议用 gTTS。

gTTS 如何工作?

gTTS 不会在本地合成语音。它构造请求到 Google Translate “播放”功能背后的接口,下载生成的 MP3,并返回字节流。因此无法离线使用,音频是在 Google 服务器上生成,而不是在你的机器上。这个接口并非官方,项目与 Google 或 Google Cloud 无关,上游一旦有变更,gTTS 可能会突然用不了。

安装方法

bash

pip install gTTS

gTTS 需要 Python 3.7 及以上,支持 macOS、Windows、Linux。PyPI 最新版本为 2.5.4(2024 年 11 月)。在 Debian 系统(含树莓派)要注意大小写:pip 包为 gTTS,apt 包为 python3-gtts。如果 pip 安装失败并提示 externally-managed-environment 错误,请在虚拟环境中安装。

基础用法

最简示例:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

命令行用法:

bash

gtts-cli "hello" --output hello.mp3

选择语言和口音

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

gTTS 还可以通过 tld 参数指定地区子标签,例如:

tld="co.uk" 为英式口音,tld="ca" 为加拿大法语口音,原理是请求不同的 Google Translate 顶级域名。

慢速模式

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

功能基本就这些。没有音调参数,没有速率滑块(只支持 slow=True),没有多声音选择,也不支持 SSML。

流至缓冲区而非磁盘

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# now feed buf into pydub, ffmpeg, a web response, etc.

预处理与长文本

gTTS 的分词器设计得很不错,可将任意长的输入智能拆分成上游接受的小块(上游接口单次约 100 字符),边界平滑衔接并识别缩写、小数等特殊情况。你也可以接入自定义预处理器来修正发音——比如把产品名或缩写按音标映射。

gTTS 优势是什么?

gTTS(Google Text-to-Speech)因轻量、易上手而广受开发者欢迎,可生成 MP3 音频,能直接保存至文件、文件对象或 stdout,很适合自动化和脚本项目。支持约 60 种语言和多种方言,方便做多语种应用。自带命令行工具(gtts-cli)适合写 shell 脚本,也能自定义分词和预处理,应对缩写、数字替换等需求。Python API 极简,在 Jupyter、Flask、Discord 机器人等轻量级项目里集成语音也毫无压力。

gTTS 的局限是什么?

尽管简单好用,gTTS 和现代 AI 语音平台相比还是有明显短板。它的语音基于 Google Translate 的标准输出,偏工具化,缺乏新一代神经 TTS 的自然语调、情绪和真实感。同一语言通常只有一个声音,不能切换风格,也不支持 SSML、音调、语速等高级调节。gTTS 在播放前必须先下载完整 MP3,不支持实时流式,互动场景下延迟会比较高。此外,所有请求都要联网,无法离线使用,因此对可靠性和低延迟要求高的场景并不合适。

gTTS 对开发者有哪些限制?

1. 未公开端点的速率限制

这是一旦超出“Hello World”就会踩到的最大坑。gTTS 没有公开配额,因为上游服务本身也没有。实践中,单个 IP 每小时通常能处理几万字符,再多就会收到 HTTP 429 错误,具体上限还和流量情况有关。如果你的服务器要为很多用户生成音频,迟早会触顶,而且没有 SLA 可以申诉。

2. 接口随时可能变动

gTTS 依赖的是 Google Translate 的内部接口,而非有版本和文档的正式 API。Google 完全可能随时调整请求格式或响应结构,从而导致 gTTS 突然挂掉。等维护者修好后你需要

pip install -U gTTS,项目才会恢复。很适合玩票式脚本,但不适合作为凌晨两点还在跑的生产服务。

3. 维护频率

该项目每年至少会更新一次,但问题响应较慢且几乎只有一人维护。一些项目健康度追踪工具将其标为“非活跃”。对 MIT 协议的免费库来说这并不少见,不过如果要当核心依赖,这个风险需要提前评估。

4. 商用和服务条款不清晰

gTTS 使用的是 Google Translate 前端而非 Cloud TTS,生成音频的商用授权并没有明确说明。库本身是 MIT 协议,但音频受非正式服务条款约束。如你需要的是清晰、可审计的授权,gTTS 无法满足。

5. 敏感数据会上传到服务器

你要合成的每一句话都会被发到 Google 服务器。如果是给内部文档、用户隐私数据配音,或从 Google 文档 和知识库中抽取内容,这就会落入数据治理范畴,上线前务必先评估。

gTTS 与 Google Cloud Text-to-Speech 有何不同?

gTTS 和 Google Cloud Text-to-Speech 经常被混为一谈,但完全不是同一个产品,主要差异如下:


gTTS

Google Cloud TTS


端点

Google Translate 的未公开路由

有版本、公开文档的 API

认证

服务账号 / API Key

费用

免费

按字符计费

声音选择

每种语言一种

神经网络(WaveNet、Studio、Chirp)

SSML

不支持

支持

SLA

有正式 SLA

商业用途

不明

明文授权

如果你在生产环境需要用到 Google 的语音服务,几乎可以肯定应该选 Google Cloud TTS 而不是 gTTS。

什么时候该升级到专业 TTS API?

要不要从 gTTS 升级到专业 文本转语音 API,取决于音质、可靠性和自定义能力对你的项目有多重要。gTTS 简单免费,适合原型、作品集、个人无障碍工具、教学展示和轻量实验。但如果要上线面向付费用户的产品、用户体验高度依赖语音,或需要低延迟并有 SLA 时,就应该选专业方案。尤其是当你需要多语音选项、声音克隆SSML、流式播放、节奏与发音等高级控制,或明确的商用许可时,都建议升级。项目从试验走向生产,这些特性往往就变成刚需。

该选 gTTS 还是 Speechify API?

Speechify 文本转语音 API 是官方支持的付费服务,内置多语种神经网络语音、每种语言多种声音、SSML、商用许可,也不是对未公开接口的简单封装。如果你正在被 gTTS 的速率限制、语音质量或条款不清所困扰,可以考虑迁移过去。

常见问题

gTTS 免费吗?

是的,gTTS 是免费的 MIT 协议 Python 库,但如需用于商业、合规音频,建议选择付费的 Speechify API

gTTS 支持离线使用吗?

不支持,gTTS 必须联网调用 Google 服务器,同理 Speechify API 也是云端服务。

gTTS 可用于商业产品吗?

gTTS 生成音频的商用授权比较模糊,因为它依赖未公开的 Google 接口;而 Speechify API 明确支持商用授权。

gTTS 如何切换声音?

gTTS 每种语言只有一个声音,无法切换。相比之下,Speechify API 提供多种神经网络声音可选。

gTTS 支持 SSML 吗?

gTTS 不支持 SSML、音调和精细语速控制,而 Speechify API 支持完整的 prosody 调节。

gTTS 返回 HTTP 429 错误是什么原因?

这是因为触发了 Google Translate 的隐式限流,这也是很多开发者转向有正式 SLA 的 Speechify API 的常见原因。

gTTS 和 Google Cloud TTS 一样吗?

不一样,gTTS 是对 Google Translate 非官方接口的封装,而 Google Cloud TTS 是单独的付费产品,Speechify API 也是付费且支持神经语音的一个选择。

生产环境最好的 Python TTS 库是什么?

gTTS 更适合作为原型工具,而不是生产方案。多数生产环境会选用类似 Speechify API 这样的付费接口。

gTTS 能克隆声音吗?

gTTS 不支持 声音克隆,但 Speechify API 可以。

gTTS 如何流式播放音频?

gTTS 不支持实时流式,只会返回完整 MP3。如果你需要低延迟流式播放,建议使用 Speechify API


体验业界领先的 AI 语音、无限文件支持和 24/7 客服

免费试用
tts banner for blog

分享此文

Cliff Weitzman

Cliff Weitzman

Speechify 首席执行官兼创始人

Cliff Weitzman 是一位阅读障碍倡导者,也是 Speechify 首席执行官兼创始人。Speechify 是全球排名第一的文字转语音应用,累计收获逾 100,000 条五星好评,并在 App Store 的“新闻与杂志”分类中位居第一。2017 年,因致力于提升互联网对学习障碍人群的可及性,Weitzman 入选福布斯“30 位 30 岁以下精英”(Forbes 30 Under 30)榜单。其事迹曾被 EdSurge、Inc.、PC Mag、Entrepreneur、Mashable 等主流媒体报道。

speechify logo

关于 Speechify

No.1 文字转语音阅读器

Speechify 是全球领先的文字转语音平台,深受超过 5000 万用户信赖,并在其文字转语音 iOSAndroidChrome 扩展网页版应用Mac 桌面端应用上,收获超过 50 万条五星好评。2025 年,Apple 授予 Speechify 备受业界瞩目的 苹果设计大奖,并在 WWDC 盛会上称其为“帮助人们更好生活的重要资源”。Speechify 提供 1000+ 自然音色、60+ 种语言支持,服务覆盖近 200 个国家/地区。明星声音包括 Snoop DoggGwyneth Paltrow。面向创作者和企业用户,Speechify Studio 提供强大工具,包括 AI 语音生成器AI 语音克隆AI 配音和高阶AI 变声器。Speechify 还通过高品质、低成本的文字转语音 API赋能行业领先产品。Speechify 被众多主流媒体报道,包括《华尔街日报》CNBC福布斯TechCrunch等,现已成为全球最大的文字转语音服务提供商。更多信息请访问 speechify.com/newsspeechify.com/blogspeechify.com/press 了解更多。