Co je gTTS?
gTTS je open-source Python knihovna a nástroj v příkazovém řádku, který převádí text na mluvený MP3 zvuk přes Google Translate text-to-speech. Výstup lze zapsat do souboru, file-like objektu nebo přímo na stdout pro další zpracování. Autorem je Pierre Nicolas Durette, licence MIT. Patří mezi nejstahovanější TTS balíčky na PyPI, cca 175 000 stažení týdně. Pokud jste někdy potřebovali převést řetězec na MP3 jen třemi řádky Pythonu, gTTS je pravděpodobně to první, na co jste narazili.
Důležité: gTTS není Google Cloud Text-to-Speech. Používá stejný nedokumentovaný backend, který pohání tlačítko „Poslechnout“ v Google Překladači. Tenhle rozdíl ovlivňuje, čím gTTS je, kdy funguje dobře, kde má slabiny a kdy je lepší sáhnout po něčem jiném.

Kdy použít gTTS?
Použijte gTTS na rychlé prototypy zdarma, jednorázové generování MP3 z textu, vícejazyčné demo, projekt pro zábavu, školní ukázky nebo accessibility skript, který přečte export z Google Docs nahlas. Nepoužívejte gTTS pro produkční provoz, kde je důležitá spolehlivost, SLA, voice cloning, SSML, expresivní/neuronové hlasy, streaming zvuku nebo jasná komerční licence.
Jak gTTS funguje?
gTTS nenahrává zvuk lokálně. Sestaví požadavek na stejný backend jako tlačítko „Poslechnout“ v Google Překladači, stáhne výsledné MP3 a předá ho jako data. Musíte být připojeni k internetu (není offline režim), zvuk se generuje na serverech Googlu. Backend je neoficiální, projekt není spojený s Googlem, takže jedna změna může bez varování všechno rozbít.
Instalace
bash
pip install gTTS
gTTS vyžaduje Python 3.7 nebo novější a funguje na macOS, Windows i Linuxu. Aktuální verze na PyPI je 2.5.4 (listopad 2024). Na Debian systémech (vč. Raspberry Pi OS) je pip balíček gTTS, ale apt balíček python3-gtts. Pokud vám pip install selže s externally-managed-environment, použijte virtuální prostředí.
Základní použití
Minimální příklad:
python
from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")
Spuštění z příkazového řádku:
bash
gtts-cli "hello" --output hello.mp3
Volba jazyka a přízvuku
python
tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")
gTTS nabízí i regionální varianty pomocí parametru tld — například
tld="co.uk" pro britský anglický přízvuk nebo tld="ca" pro kanadskou francouzštinu — tím, že směruje požadavek přes různé Google domény.
Pomalý režim
python
tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")
To je v podstatě vše, co lze ovlivnit. Není tu pitch, rychlost kromě slow=True, výběr hlasů ani SSML.
Streamování do paměti místo na disk
python
from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# nyní vložte buf do pydub, ffmpeg, webové odpovědi atd.
Předzpracování a dlouhý text
Jednou z lepších funkcí gTTS je jeho tokenizer. Rozdělí dlouhý vstup na části, které backend přijme (limit cca 100 znaků na požadavek), zachová intonaci přes švy a řeší zkratky, čísla a další atypické přepisy. Můžete přidat i vlastní pre-processing pro úpravu výslovnosti — např. pro názvy produktů či zkratky.
Jaké jsou výhody gTTS?
gTTS (Google Text-to-Speech) je oblíbené u vývojářů díky své malé velikosti, jednoduchosti a snadné integraci do Python workflow. Umožňuje generovat MP3 soubory, ukládat výstup do souborů, objektů nebo na stdout pro skriptování. Podporuje zhruba 60 jazyků a několik regionálních variant pomocí nastavení jazyka a domény. Command-line rozhraní (gtts-cli) se snadno používá v shell skriptech a lze upravit tokenizaci i předzpracování pro zkratky, čísla a substituce textu. Díky jednoduchému Python API lze rychle přidat hlas do Jupyteru, Flaska, Discord botů a dalších lehkých projektů bez složitostí.
Jaké nevýhody má gTTS?
I přes jednoduchost má gTTS oproti moderním AI hlasovým platformám omezení. Hlas je standardní Google Translate výstup, tedy účelný, ale méně přirozený/emoční než nové neuronové text-to-speech systémy. Nelze zvolit více stylů hlasu v jazyce, chybí SSML, úprava tónu i tempa řeči. Musíte vždy stáhnout celé MP3, není streaming v reálném čase, což zvyšuje latenci při interaktivní práci. Vše závisí na internetu — gTTS bez připojení nefunguje, což omezuje využití tam, kde je klíčová spolehlivost a rychlost.
Jaká jsou omezení gTTS pro vývojáře?
1. Limity rychlosti na nedokumentovaném endpointu
Největší „gotcha“, jakmile jdete za „hello world“. gTTS neudává kvótu užití, stejně jako upstream služba. Prakticky lze z jedné IP protlačit desítky tisíc znaků za hodinu, pak Google začne vracet HTTP 429, horní hranice závisí na provozu. Pokud audio generujete pro mnoho uživatelů jedním serverem, narazíte na limit bez SLA.
2. Endpoint se může změnit kdykoli
Protože gTTS používá interní cestu Google Překladače, a ne verzované API, Google může kdykoliv změnit strukturu požadavku a gTTS přestane fungovat. Správce vydá opravu, vy
pip install -U gTTS a jedete dál. Pro hobby skript v pohodě, ale pro produkci ve dvě ráno nic moc.
3. Kadence údržby
Projekt pořád vychází, alespoň jeden release ročně, ale řešení issues je pomalejší, bus factor je v podstatě jeden člověk. Některé indikátory už repo označují jako „neaktivní“. U MIT knihovny je to běžné, ale jako klíčová závislost v placeném produktu je to riziko k zamyšlení.
4. Nejasnosti kolem licence a podmínek
Protože gTTS využívá frontend Google Translate, nikoliv Google Cloud TTS, licence vygenerovaného audia pro komerci není nikde jasně daná. Knihovna je sice pod MIT, ale zvuk řídí Google podmínky služby, která není oficiálně TTS API. Pokud právníci chtějí jasnou odpověď, gTTS ji neposkytne.
5. Citlivá data opouštějí vaše zařízení
Každý zadaný text putuje na servery Google. Pokud převádíte interní dokumenty, PII zákazníků nebo data z Google Docs, řešte dopady na správu dat před nasazením.
Jaký je rozdíl mezi gTTS a Google Cloud Text-to-Speech?
I když si je lidé pletou, gTTS a Google Cloud Text-to-Speech nejsou totéž. Liší se v:
Pokud potřebujete Google voice v produkci, sáhněte raději po Google Cloud TTS než po gTTS.
Kdy přejít na profesionální TTS API?
Správný čas přejít od gTTS na profesionální text-to-speech API záleží na důležitosti kvality zvuku, spolehlivosti a možnostech úprav pro váš projekt. gTTS se hodí na prototypy, portfolia, osobní accessibility nástroje, ukázky a jednoduché pokusy, protože je jednoduché, zdarma a snadno použitelné. Spuštění produktu pro platící klienty, potřeba lepší kvality zvuku nebo předvídatelná latence se SLA už vyžaduje profesionální řešení. Upgrade má smysl, pokud potřebujete více hlasových variant, voice cloning, SSML, streaming, detailní řízení tempa/výslovnosti nebo jasnou komerční licenci pro obchod a právo. Pro přechod z testu do produkce jsou tyto funkce často klíčové.
Vybrat gTTS nebo Speechify API?
Speechify text-to-speech API je oficiálně podporovaná, placená služba s neuronovými hlasy, více hlasy na jazyk, SSML a komerční licencí ve smlouvě, nikoli obálka pro neznámý endpoint. Pokud vám v gTTS vadí limity, kvalita nebo neprůhledné podmínky, tenhle přechod zvažte.
FAQ
Je gTTS zdarma?
Ano, gTTS je zdarma a pod licencí MIT. Pro komerčně licencovaný zvuk ale volte placenou službu jako Speechify API.
Funguje gTTS offline?
Ne, gTTS vyžaduje internetové připojení — volání probíhá na servery Google. Totéž platí i pro Speechify API, které je cloudová služba.
Mohu použít gTTS v komerčním produktu?
Licence výstupu z gTTS pro komerční využití je nejasná, protože stojí na neoficiálním Google endpointu. Speechify API poskytuje jasnou komerční licenci.
Jak změnit hlas v gTTS?
V podstatě to nejde. gTTS nabízí jeden hlas pro jazyk. Speechify API vám umožní vybírat z katalogu neuronových hlasů.
Podporuje gTTS SSML?
Ne, gTTS nepodporuje SSML, nemá nastavení výšky hlasu ani přesné nastavování rychlosti. Speechify API SSML podporuje a nabízí kompletní ovládání prozódie.
Proč gTTS vrací HTTP 429?
Narazili jste na limit počtu požadavků Google Překladače. To je častý důvod, proč vývojáři přecházejí na službu se SLA jako Speechify API.
Je gTTS totéž co Google Cloud Text-to-Speech?
Ne, gTTS je obal pro neoficiální endpoint Google Translate. Google Cloud TTS je placený produkt a Speechify API je další placená alternativa s neuronovými hlasy.
Jaká je nejlepší Python TTS knihovna pro produkci?
gTTS je fajn na prototypy, ale do produkce většina vývojářů sahá po placeném API, jako je Speechify API.
Umí gTTS klonovat hlas?
Ne, voice cloning gTTS nepodporuje, ale Speechify API ano.
Jak streamovat audio pomocí gTTS?
gTTS nepodporuje streaming v reálném čase, vždy vrací celé MP3. Pro nízkou latenci použijte Speechify API.

