1. 首頁
  2. 文字轉語音
  3. gtts
Updated on 文字轉語音

gtts

Cliff Weitzman

Cliff Weitzman

Speechify 執行長暨創辦人

#1 文字轉語音工具。
讓 Speechify 為您朗讀。

apple logo2025 Apple 設計大獎
超過 5000 萬用戶

什麼是 gTTS?

gTTS 是一個開源 Python 函式庫和命令列工具,會呼叫 Google Translate 的語音合成端點,把文字轉成語音 MP3。你可以把結果寫入檔案、類檔案物件(方便後續音訊處理),或直接輸出到 stdout。由 Pierre Nicolas Durette 開發,採 MIT 授權,是 PyPI 上最熱門的 TTS 套件之一,截至寫本文時,每週下載約 17.5 萬次。如果你曾想用三行 Python 把文字轉 MP3,gTTS 很可能就是搜尋結果的第一名。

但要先說清楚,gTTS 並不是 Google Cloud Text-to-Speech。它連的是 Google Translate 裡「聆聽」按鈕所用、未公開的後端。這樣的差異,決定了 gTTS 適合的使用情境、優勢與限制,以及什麼時候你該改用別的方案。

gTTS

何時該用 gTTS?

如果你要免費、開發快速、用一行指令就把文字轉成 MP3、多語言 demo、課堂範例、個人專案,或做 無障礙 助理自動朗讀 Google Docs 文件,都適合用 gTTS。若你需要生產等級穩定性、官方 SLA、聲音克隆、SSML、進階語音、串流音訊或明確商業授權,就不建議採用。

gTTS 如何運作?

gTTS 不會在本機生成語音,而是連到 Google Translate 的「聽」端點,下載 MP3,再把結果回傳給你。必須保持連網(沒有離線模式),音訊是在 Google 伺服器上產生,而不是在你的機器上。這個端點並未公開,專案也不是 Google 官方產品。若 Google 更改該後端,gTTS 隨時可能無預警掛掉。

安裝方式

bash

pip install gTTS

gTTS 需 Python 3.7 以上,支援 macOS、Windows、Linux。PyPI 目前版本為 2.5.4(2024 年 11 月)。在 Debian/樹莓派等系統要注意,pip 套件名是 gTTS,apt 套件名則是 python3-gtts。若 pip 安裝遇到 externally-managed-environment 錯誤,請改裝在虛擬環境裡。

基本用法

最簡單的範例:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

命令列執行:

bash

gtts-cli "hello" --output hello.mp3

選擇語言與腔調

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

gTTS 也可用 tld 參數設定地區子標籤,例如:

tld="co.uk" 為英國腔,tld="ca" 可選加拿大法語,透過不同 Google Translate 頂級網域來達成。

慢速模式

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

只有這一種語速控制。沒有音高參數、沒有更細緻的語速設定、不能選聲音,也不支援 SSML。

串流至記憶體(非硬碟)

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# now feed buf into pydub, ffmpeg, a web response, etc.

預處理和長文本

gTTS 的 tokenizer 做得不錯,可自動把超長字串切塊(每次請求約 100 字符),保留語調並支援縮寫、小數、標點。你也能自訂前處理器,修正特殊發音(如產品名、縮寫轉音標)。

gTTS 優點

gTTS(Google Text-to-Speech)因為輕巧、好上手、又容易融入 Python,而深受開發者喜愛。可以把 MP3 輸出到檔案、記憶體或 stdout,很適合自動化或腳本情境。支援約 60 種語言及多種腔調,覆蓋常見多語需求。CLI(gtts-cli)方便搭配 shell 使用,自訂 tokenizer / 前處理能妥善處理縮寫、數字等。API 極簡,能快速加進 Jupyter、Flask、Discord bot 等輕量專案。

gTTS 缺點

雖然簡單好用,gTTS 和現代 AI 語音平台相比還是有明顯限制。音色沿用 Google 翻譯,用於功能導向沒問題,但在音調變化、情感和真實感上,不如新一代神經 TTS。每個語言只有一種聲音,不能多選,也沒有進階設定(像 SSML 支援、音高調整、語速微調等)。還必須先下載整個 MP3,無法即時串流,部分即時互動應用會有明顯延遲。因為每次請求都要連網打到 Google,無法離線,不適合需要高可靠、低延遲語音生成的情境。

gTTS 對開發者的限制?

1. 未公開端點有流量限制

這是「hello world」之後最大的地雷。gTTS 沒公開配額,因為上游端點本來就沒寫清楚。實務上,單一 IP 每小時大概能丟幾萬字,超過後 Google 會回傳 HTTP 429,而且門檻會隨流量浮動。多人共用同一台伺服器產音檔,最後一定會踩到額度上限,且沒有 SLA 能讓你申訴。

2. 端點可能隨時變更

gTTS 接的是 Google Translate 的內部路徑,而不是公開 API,Google 隨時可以改請求欄位或回應格式,讓 gTTS 突然失效,過去也真的發生過。維護者修好之後,你只要

pip install -U gTTS,然後繼續玩。玩票可以,但要是凌晨兩點 production 掛掉,就會非常頭痛。

3. 維護頻率低

專案雖然還有新 release,過去 12 個月至少出過一版,但缺陷修得很慢,實際維護人幾乎就只有一位。有些健康度檢查工具甚至把這專案標成「不活躍」。免費 MIT 授權大多如此;如果你要拿來做付費商品,建議多想幾次。

4. 商用與 TOS 不明

gTTS 打的是 Google Translate 的非官方端點,產出的語音要怎麼商用,在官方文件裡找不到明確說法。函式庫本身是 MIT 授權;但語音檔要看 Google 服務條款,而那個端點又不是公開的 TTS API。若公司法務需要清楚授權,gTTS 通常會讓他們傷腦筋。

5. 機敏資料會傳送到外部

所有內容都會被送到 Google 伺服器。如果你拿來唸公司內部 文件、敏感個資,或是從 Google Docs 等管道抓內容,都是一項資料治理風險,值得事先評估。

gTTS 與 Google Cloud Text-to-Speech 差異?

gTTS 和 Google Cloud Text-to-Speech 常被混為一談,其實是完全不同的產品,主要差異如下:


gTTS

Google Cloud TTS


端點

Google Translate 未公開路徑

有文件的公開 API

認證

服務帳戶 / API 金鑰

費用

免費

付費(按字計)

聲音

每語言只一種

神經語音(WaveNet / Studio / Chirp)

SSML

不支援

支援

SLA

官方 SLA

商業用途

有疑慮

明確授權

若你想在生產環境使用 Google 語音,應選 Google Cloud TTS,而不是 gTTS。

何時該升級專業 TTS API?

從 gTTS 升級到專業 語音 API 的時機,主要取決於你對音質、穩定度和客製化的要求。gTTS 適合原型、作品集、個人 無障礙 工具、教學 demo、小型實驗,因為簡單又免費。若產品面向付費客戶、語音品質會影響 UX、需要 SLA 撐腰,或想要多聲線、聲音克隆SSML 控制、串流音訊、精確掌控朗讀/發音,以及明確商業授權,那就該換成商用方案。專案一旦進入生產階段,這些條件往往都會變成基本門檻。

該選 gTTS 還是 Speechify API?

Speechify 語音 API 是官方支援的付費服務,提供多種神經語音、每種語言都有多個選項,支援 SSML,商業授權也講得一清二楚,而不是套殼未公開端點。若你正卡在 gTTS 流量限制、音質或授權疑慮上,這會是值得評估的替代方案。

常見問答

gTTS 免費嗎?

是的,gTTS 是免費、採 MIT 授權的 Python 套件。但如果要商用且授權要講清楚,建議改用付費方案,例如 Speechify API

gTTS 能離線用嗎?

不行,gTTS 一定要連網才能呼叫 Google 伺服器,Speechify API 也是雲端服務。

gTTS 可商業用途嗎?

gTTS 產出的音檔拿去商用在授權上有疑慮,因為端點本身未公開,但 Speechify API 則有明確的商用授權。

gTTS 如何更換聲音?

沒辦法更換,gTTS 每種語言只有一種聲線可用。Speechify API 則提供多款神經發聲可選。

gTTS 支援 SSML 嗎?

不支援,gTTS 沒有 SSML、音高或語速微調;相對地,Speechify API 則支援完整的音韻控制。

gTTS 為何回 429 錯誤?

代表你觸發了 Google Translate 未公開的流量限制。這也是許多開發者最終改用有 SLA 的 Speechify API 的主因之一。

gTTS 和 Google Cloud TTS 一樣嗎?

不一樣。gTTS 是把 Google 翻譯未公開端點包成工具,Google Cloud TTS 則是獨立的付費產品,而 Speechify API 又是另一款付費方案。

Python 生產用 TTS 最佳選擇?

gTTS 很適合做原型;一旦進入生產環境,多數開發者會改用像 Speechify API 這類付費 API。

gTTS 可聲音克隆嗎?

不支援 聲音克隆,但 Speechify API 則可以。

gTTS 如何串流音訊?

gTTS 無法即時串流,只會回傳整個 MP3。若你需要低延遲串流,請改用 Speechify API


享受最先進的 AI 聲音、無限檔案和 24/7 支援

免費試用
tts banner for blog

分享這篇文章

Cliff Weitzman

Cliff Weitzman

Speechify 執行長暨創辦人

Cliff Weitzman 是閱讀障礙權益的倡議者,也是 Speechify 的執行長暨創辦人。Speechify 為全球領先的文字轉語音應用程式,累積超過 100,000 則五星評價,並曾在 App Store 的「新聞與雜誌」類別中名列第一。2017 年,Weitzman 因致力推動更友善於學習障礙者的網路環境而入選 Forbes 30 Under 30。Cliff Weitzman 的相關事蹟亦常見諸 EdSurge、Inc.、PC Mag、Entrepreneur、Mashable 等多家重要媒體。

speechify logo

關於 Speechify

#1 文字轉語音工具

Speechify 是全球領先的 文字轉語音 平台,擁有超過 5,000 萬用戶信賴,並在其 iOSAndroidChrome 擴展網頁應用Mac 桌面 應用中獲得超過 50 萬個五星評價。2025 年,Apple 將 Speechify 授予了備受矚目的 Apple 設計大獎,並在 WWDC 上稱其為「幫助人們更好生活的重要資源」。Speechify 提供超過 1,000 種自然語音,支持 60 多種語言,並在近 200 個國家使用。名人語音包括 Snoop DoggMr. BeastGwyneth Paltrow。對於創作者和企業,Speechify Studio 提供高級工具,包括 AI 語音生成器AI 語音克隆AI 配音AI 語音變換器。Speechify 還通過其高品質且具成本效益的 文字轉語音 API 為領先產品提供支持。Speechify 曾被報導於 華爾街日報CNBC福布斯TechCrunch 等主要媒體,是全球最大的文字轉語音提供商。訪問 speechify.com/newsspeechify.com/blogspeechify.com/press 了解更多。