1. Domů
  2. TTS
  3. gtts
Updated on TTS

gtts

Cliff Weitzman

Cliff Weitzman

Generální ředitel (CEO) a zakladatel společnosti Speechify

#1 Čtečka textu na řeč.
Nechte Speechify číst za vás.

apple logoApple Design Award 2025
50M+ uživatelů

Co je gTTS?

gTTS je open-source Python knihovna a nástroj v příkazovém řádku, který převádí text na mluvený MP3 zvuk přes Google Translate text-to-speech. Výstup lze zapsat do souboru, file-like objektu nebo přímo na stdout pro další zpracování. Autorem je Pierre Nicolas Durette, licence MIT. Patří mezi nejstahovanější TTS balíčky na PyPI, cca 175 000 stažení týdně. Pokud jste někdy potřebovali převést řetězec na MP3 jen třemi řádky Pythonu, gTTS je pravděpodobně to první, na co jste narazili.

Důležité: gTTS není Google Cloud Text-to-Speech. Používá stejný nedokumentovaný backend, který pohání tlačítko „Poslechnout“ v Google Překladači. Tenhle rozdíl ovlivňuje, čím gTTS je, kdy funguje dobře, kde má slabiny a kdy je lepší sáhnout po něčem jiném.

gTTS

Kdy použít gTTS?

Použijte gTTS na rychlé prototypy zdarma, jednorázové generování MP3 z textu, vícejazyčné demo, projekt pro zábavu, školní ukázky nebo accessibility skript, který přečte export z Google Docs nahlas. Nepoužívejte gTTS pro produkční provoz, kde je důležitá spolehlivost, SLA, voice cloning, SSML, expresivní/neuronové hlasy, streaming zvuku nebo jasná komerční licence.

Jak gTTS funguje?

gTTS nenahrává zvuk lokálně. Sestaví požadavek na stejný backend jako tlačítko „Poslechnout“ v Google Překladači, stáhne výsledné MP3 a předá ho jako data. Musíte být připojeni k internetu (není offline režim), zvuk se generuje na serverech Googlu. Backend je neoficiální, projekt není spojený s Googlem, takže jedna změna může bez varování všechno rozbít.

Instalace

bash

pip install gTTS

gTTS vyžaduje Python 3.7 nebo novější a funguje na macOS, Windows i Linuxu. Aktuální verze na PyPI je 2.5.4 (listopad 2024). Na Debian systémech (vč. Raspberry Pi OS) je pip balíček gTTS, ale apt balíček python3-gtts. Pokud vám pip install selže s externally-managed-environment, použijte virtuální prostředí.

Základní použití

Minimální příklad:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

Spuštění z příkazového řádku:

bash

gtts-cli "hello" --output hello.mp3

Volba jazyka a přízvuku

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

gTTS nabízí i regionální varianty pomocí parametru tld — například

tld="co.uk" pro britský anglický přízvuk nebo tld="ca" pro kanadskou francouzštinu — tím, že směruje požadavek přes různé Google domény.

Pomalý režim

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

To je v podstatě vše, co lze ovlivnit. Není tu pitch, rychlost kromě slow=True, výběr hlasů ani SSML.

Streamování do paměti místo na disk

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# nyní vložte buf do pydub, ffmpeg, webové odpovědi atd.

Předzpracování a dlouhý text

Jednou z lepších funkcí gTTS je jeho tokenizer. Rozdělí dlouhý vstup na části, které backend přijme (limit cca 100 znaků na požadavek), zachová intonaci přes švy a řeší zkratky, čísla a další atypické přepisy. Můžete přidat i vlastní pre-processing pro úpravu výslovnosti — např. pro názvy produktů či zkratky.

Jaké jsou výhody gTTS?

gTTS (Google Text-to-Speech) je oblíbené u vývojářů díky své malé velikosti, jednoduchosti a snadné integraci do Python workflow. Umožňuje generovat MP3 soubory, ukládat výstup do souborů, objektů nebo na stdout pro skriptování. Podporuje zhruba 60 jazyků a několik regionálních variant pomocí nastavení jazyka a domény. Command-line rozhraní (gtts-cli) se snadno používá v shell skriptech a lze upravit tokenizaci i předzpracování pro zkratky, čísla a substituce textu. Díky jednoduchému Python API lze rychle přidat hlas do Jupyteru, Flaska, Discord botů a dalších lehkých projektů bez složitostí.

Jaké nevýhody má gTTS?

I přes jednoduchost má gTTS oproti moderním AI hlasovým platformám omezení. Hlas je standardní Google Translate výstup, tedy účelný, ale méně přirozený/emoční než nové neuronové text-to-speech systémy. Nelze zvolit více stylů hlasu v jazyce, chybí SSML, úprava tónu i tempa řeči. Musíte vždy stáhnout celé MP3, není streaming v reálném čase, což zvyšuje latenci při interaktivní práci. Vše závisí na internetu — gTTS bez připojení nefunguje, což omezuje využití tam, kde je klíčová spolehlivost a rychlost.

Jaká jsou omezení gTTS pro vývojáře?

1. Limity rychlosti na nedokumentovaném endpointu

Největší „gotcha“, jakmile jdete za „hello world“. gTTS neudává kvótu užití, stejně jako upstream služba. Prakticky lze z jedné IP protlačit desítky tisíc znaků za hodinu, pak Google začne vracet HTTP 429, horní hranice závisí na provozu. Pokud audio generujete pro mnoho uživatelů jedním serverem, narazíte na limit bez SLA.

2. Endpoint se může změnit kdykoli

Protože gTTS používá interní cestu Google Překladače, a ne verzované API, Google může kdykoliv změnit strukturu požadavku a gTTS přestane fungovat. Správce vydá opravu, vy

pip install -U gTTS a jedete dál. Pro hobby skript v pohodě, ale pro produkci ve dvě ráno nic moc.

3. Kadence údržby

Projekt pořád vychází, alespoň jeden release ročně, ale řešení issues je pomalejší, bus factor je v podstatě jeden člověk. Některé indikátory už repo označují jako „neaktivní“. U MIT knihovny je to běžné, ale jako klíčová závislost v placeném produktu je to riziko k zamyšlení.

4. Nejasnosti kolem licence a podmínek

Protože gTTS využívá frontend Google Translate, nikoliv Google Cloud TTS, licence vygenerovaného audia pro komerci není nikde jasně daná. Knihovna je sice pod MIT, ale zvuk řídí Google podmínky služby, která není oficiálně TTS API. Pokud právníci chtějí jasnou odpověď, gTTS ji neposkytne.

5. Citlivá data opouštějí vaše zařízení

Každý zadaný text putuje na servery Google. Pokud převádíte interní dokumenty, PII zákazníků nebo data z Google Docs, řešte dopady na správu dat před nasazením.

Jaký je rozdíl mezi gTTS a Google Cloud Text-to-Speech?

I když si je lidé pletou, gTTS a Google Cloud Text-to-Speech nejsou totéž. Liší se v:


gTTS

Google Cloud TTS


Endpoint

Nedokumentovaná cesta Google Překladače

Veřejné API s dokumentací a verzí

Ověření

Žádné

Service account / API klíč

Cena

Zdarma

Placené (za znak)

Hlasy

Jeden na jazyk

Neural (WaveNet, Studio, Chirp)

SSML

Ne

Ano

SLA

Žádné

Oficiální SLA

Komerční užití

Nejasné

Jasně licencované

Pokud potřebujete Google voice v produkci, sáhněte raději po Google Cloud TTS než po gTTS.

Kdy přejít na profesionální TTS API?

Správný čas přejít od gTTS na profesionální text-to-speech API záleží na důležitosti kvality zvuku, spolehlivosti a možnostech úprav pro váš projekt. gTTS se hodí na prototypy, portfolia, osobní accessibility nástroje, ukázky a jednoduché pokusy, protože je jednoduché, zdarma a snadno použitelné. Spuštění produktu pro platící klienty, potřeba lepší kvality zvuku nebo předvídatelná latence se SLA už vyžaduje profesionální řešení. Upgrade má smysl, pokud potřebujete více hlasových variant, voice cloning, SSML, streaming, detailní řízení tempa/výslovnosti nebo jasnou komerční licenci pro obchod a právo. Pro přechod z testu do produkce jsou tyto funkce často klíčové.

Vybrat gTTS nebo Speechify API?

Speechify text-to-speech API je oficiálně podporovaná, placená služba s neuronovými hlasy, více hlasy na jazyk, SSML a komerční licencí ve smlouvě, nikoli obálka pro neznámý endpoint. Pokud vám v gTTS vadí limity, kvalita nebo neprůhledné podmínky, tenhle přechod zvažte.

FAQ

Je gTTS zdarma?

Ano, gTTS je zdarma a pod licencí MIT. Pro komerčně licencovaný zvuk ale volte placenou službu jako Speechify API.

Funguje gTTS offline?

Ne, gTTS vyžaduje internetové připojení — volání probíhá na servery Google. Totéž platí i pro Speechify API, které je cloudová služba.

Mohu použít gTTS v komerčním produktu?

Licence výstupu z gTTS pro komerční využití je nejasná, protože stojí na neoficiálním Google endpointu. Speechify API poskytuje jasnou komerční licenci.

Jak změnit hlas v gTTS?

V podstatě to nejde. gTTS nabízí jeden hlas pro jazyk. Speechify API vám umožní vybírat z katalogu neuronových hlasů.

Podporuje gTTS SSML?

Ne, gTTS nepodporuje SSML, nemá nastavení výšky hlasu ani přesné nastavování rychlosti. Speechify API SSML podporuje a nabízí kompletní ovládání prozódie.

Proč gTTS vrací HTTP 429?

Narazili jste na limit počtu požadavků Google Překladače. To je častý důvod, proč vývojáři přecházejí na službu se SLA jako Speechify API.

Je gTTS totéž co Google Cloud Text-to-Speech?

Ne, gTTS je obal pro neoficiální endpoint Google Translate. Google Cloud TTS je placený produkt a Speechify API je další placená alternativa s neuronovými hlasy.

Jaká je nejlepší Python TTS knihovna pro produkci?

gTTS je fajn na prototypy, ale do produkce většina vývojářů sahá po placeném API, jako je Speechify API.

Umí gTTS klonovat hlas?

Ne, voice cloning gTTS nepodporuje, ale Speechify API ano.

Jak streamovat audio pomocí gTTS?

gTTS nepodporuje streaming v reálném čase, vždy vrací celé MP3. Pro nízkou latenci použijte Speechify API.


Vychutnejte si nejpokročilejší AI hlasy, neomezené soubory a podporu 24/7

Vyzkoušejte zdarma
tts banner for blog

Sdílet tento článek

Cliff Weitzman

Cliff Weitzman

Generální ředitel (CEO) a zakladatel společnosti Speechify

Cliff Weitzman je zastáncem lidí s dyslexií a generálním ředitelem a zakladatelem společnosti Speechify, nejpopulárnější aplikace pro převod textu na řeč na světě. Získala přes 100 000 pětihvězdičkových hodnocení a dosáhla na první místo v žebříčku App Store v kategorii Zprávy a časopisy. V roce 2017 byl Weitzman za svou práci na zpřístupnění internetu lidem se specifickými poruchami učení zařazen do prestižního žebříčku Forbes 30 Under 30. O Cliffu Weitzmanovi psala média jako EdSurge, Inc., PC Mag, Entrepreneur, Mashable a další přední tituly.

speechify logo

O Speechify

#1 Čtečka textu na řeč

Speechify je světová jednička mezi platformami text-to-speech, kterou důvěřuje více než 50 milionů uživatelů a která má přes 500 000 pětihvězdičkových recenzí na svých aplikacích pro iOS, Android, rozšíření pro Chrome, webovou aplikaci a desktopové aplikace pro Mac. V roce 2025 Apple ocenil Speechify prestižní cenou Apple Design Award na WWDC a označil ji za „klíčový nástroj, který pomáhá lidem žít jejich životy.“ Speechify nabízí více než 1 000 přirozeně znějících hlasů v 60+ jazycích a používá se ve skoro 200 zemích. Mezi celebrity, jejichž hlasy jsou k dispozici, patří Snoop Dogg, Mr. Beast a Gwyneth Paltrow. Pro tvůrce a firmy nabízí Speechify Studio pokročilé nástroje, včetně generátoru hlasů AI, klonování hlasů AI, dabingu AI a měniče hlasů AI. Speechify také pohání špičkové produkty díky svému vysoce kvalitnímu a cenově dostupnému API pro text-to-speech. O Speechify psali v The Wall Street Journal, CNBC, Forbes, TechCrunch a dalších významných médiích. Speechify je největším poskytovatelem text-to-speech na světě. Navštivte speechify.com/news, speechify.com/blog a speechify.com/press pro více informací.