1. Početna
  2. TTS
  3. gtts
Ažurirano TTS

gtts

Cliff Weitzman

Cliff Weitzman

CEO i osnivač Speechifyja

apple logoApple Design Award 2025.
50M+ korisnika

Što je gTTS?

gTTS je open-source Python biblioteka i alat za naredbeni redak koji pretvara tekst u govorni MP3 zvuk koristeći Google Translate text-to-speech servis. Izlaz možeš spremiti u datoteku, objekt sličan datoteci za daljnju obradu zvuka ili izravno u stdout. Autor je Pierre Nicolas Durette, distribuira se pod MIT licencom i jedan je od najčešće preuzimanih TTS paketa na PyPI-ju, s oko 175.000 tjednih preuzimanja. Ako si ikad trebao pretvoriti string u MP3 u tri linije Pythona, gTTS je vjerojatno bio prvi rezultat.

Ali važno je naglasiti da gTTS nije Google Cloud Text-to-Speech. Komunicira s istom nedokumentiranom pozadinom koja pokreće gumb "Slušaj" u Google Translateu. Ta razlika određuje sve dalje — u čemu je gTTS jak, gdje zapinje i kada trebaš potražiti alternativu.

gTTS

Kada koristiti gTTS?

Koristi gTTS za besplatno, brzo prototipiranje; jednostavno generiranje MP3-ova iz teksta; višejezične demo prikaze; hobi projekt, razredni primjer ili skriptu pristupačnosti koja naglas čita Google Docs izvoze. Ne koristi gTTS za produkcijsku pouzdanost, dokumentirani SLA, kloniranje glasa, SSML podršku, neuralne ili izražajne glasove, streaming audio ili jasne komercijalne licence.

Kako gTTS radi?

gTTS ne sintetizira govor lokalno. Šalje zahtjev na isti servis koji pokreće funkciju "Slušaj" na Google Translateu, preuzima dobiveni MP3 i vraća ti bajtove. To znači da ti treba stalna internetska veza jer nema offline načina rada i audio se generira na Googleovim serverima, a ne na tvom računalu. Endpoint je također neslužben. Projekt nije povezan s Googleom ili Google Cloudom i promjene mogu iznenada uzrokovati prestanak rada.

Instalacija

bash

pip install gTTS

gTTS traži Python 3.7 ili noviji i radi na macOS-u, Windowsu i Linuxu. Zadnje PyPI izdanje je 2.5.4 (studeni 2024.). Na Debian sustavima kao Raspberry Pi OS, pazi na velika/mala slova: pip paket je gTTS, a apt paket python3-gtts. Ako pip install javlja externally-managed-environment grešku, koristi virtualno okruženje.

Osnovna upotreba

Minimalni primjer:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

Iz naredbenog retka:

bash

gtts-cli "hello" --output hello.mp3

Odabir jezika i naglaska

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

gTTS nudi i regionalne podoznake putem parametra tld — na primjer

tld="co.uk" za britanski engleski naglasak ili tld="ca" za kanadski francuski — usmjeravajući zahtjev na različite Google Translate domene.

Spori način

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

To je praktički sva kontrola govora. Nema parametra za visinu, samo slow=True za brzinu, nema izbora glasa ni SSML-a.

Stream u buffer umjesto na disk

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# sada buf možeš dati pydub-u, ffmpeg-u, web responseu itd.

Predobrada i dugi tekst

Jedna od jačih gTTS značajki je tokenizator. Dijeli predugačak tekst na dijelove koje backend može prihvatiti (limit po zahtjevu je oko 100 znakova), održava intonaciju i rješava kratice, decimale i interpunkciju. Možeš koristiti vlastite predobradne funkcije za ispravljanje izgovora — na primjer, pretvarajući nazive proizvoda ili kratice u fonetski zapis.

Koje su prednosti gTTS-a?

gTTS (Google Text-to-Speech) popularan je među developerima jer je lagan, jednostavan za korištenje i fino se uklapa u Python projekte. Može generirati MP3 audio i spremiti ga izravno kao datoteku, objekt sličan datoteci ili u stdout, što olakšava automatizaciju i skripting. Podržava otprilike 60 jezika i više varijanti naglasaka preko jezika i TLD opcije, pa je praktičan za jednostavne višejezične projekte. Tu je i command-line sučelje (gtts-cli) za shell skripte te prilagodljiv tokenizator i predobrada za kratice, brojeve i zamjenu teksta. Minimalan Python API olakšava dodavanje govorne funkcionalnosti u Jupyter, Flask, Discord botove i druge lagane projekte bez puno učenja.

Koji su nedostaci gTTS-a?

Unatoč jednostavnosti, gTTS ima značajna ograničenja u usporedbi s modernim AI TTS rješenjima. Glasovi su bazirani na standardnom Google Translate zvuku, pa zvuče funkcionalno, ali im nedostaje prirodna intonacija i emocija kao kod neuralnih text-to-speech sustava. Ne možeš birati stil glasa po jeziku, nema naprednih kontrola poput SSML podrške, podešavanja visine glasa ili preciznog podešavanja brzine. gTTS traži preuzimanje cijelog MP3-a prije puštanja, nema stvarni streaming pa raste latencija za interaktivne aplikacije. I za svaki zahtjev treba internetska veza – gTTS ne radi offline, pa nije za pouzdan ili brz govor kad je to presudno.

Koja su ograničenja gTTS-a za developere?

1. Ograničenja brzine na neslužbenom endpointu

Ovo je najveća zamka čim ideš dalje od "hello world". gTTS ne objavljuje kvotu jer ne objavljuje ni upstream servis. U praksi IP može generirati nekoliko desetaka tisuća znakova na sat prije nego Google vrati HTTP 429, a limit varira s prometom. Ako tvoj server generira govor za puno korisnika, kad-tad ćeš pogoditi limit bez mogućnosti žalbe.

2. Endpoint se može promijeniti bez najave

gTTS koristi unutarnji Google Translate endpoint, ne javni API, pa Google može (i jest) promijenio način zahtjeva ili odgovora preko noći. Održavatelj izda ispravku, ti

pip install -U gTTS i nastaviš dalje. To prolazi za hobi skripte, ne za produkciju u 2 ujutro.

3. Održavanje

Projekt još izbacuje izdanja, barem jedno u zadnjih 12 mjeseci, ali prijava problema ide sporo, a održava ga praktički jedna osoba. Neki statusi kažu da je repo "neaktivan". Za besplatnu MIT biblioteku to je standardno; kao ključni ovisni paket u komercijalnom proizvodu, o tome trebaš dobro razmisliti.

4. Nejasnoće oko komercijalne upotrebe i TOS-a

gTTS koristi Google Translate frontend, ne Google Cloud TTS, pa nigdje nije eksplicitno navedeno smiješ li MP3 koristiti komercijalno. Sam library je MIT-licenciran, ali audio podliježe Googleovim pravilima za servis koji nije formalno TTS API. Pravni odjel teško će dobiti jasan odgovor.

5. Osjetljivi podaci napuštaju tvoje računalo

Svaki tekst koji sintetiziraš šalje se Googleovim serverima. Ako radiš s internim dokumentima, korisničkim podacima ili sadržajem iz Google Dokumenata i drugdje, važno je razmotriti sigurnost prije produkcije.

Koja je razlika između gTTS-a i Google Cloud Text-to-Speecha?

Iako se gTTS i Google Cloud Text-to-Speech često brkaju, nisu isti proizvod. Razlike su:


gTTS

Google Cloud TTS


Endpoint

Nedokumentirani Google Translate endpoint

Javno dokumentirani API

Autentifikacija

Bez

Service account / API ključ

Cijena

Besplatno

Plaća se (po znaku)

Glasovi

Jedan po jeziku

Neuralni (WaveNet, Studio, Chirp)

SSML

Ne

Da

SLA

Nema

Objavljeni SLA

Komercijalna upotreba

Nejasno

Eksplicitno licencirano

Ako ti treba Google glas za produkciju, gotovo sigurno želiš Google Cloud TTS, a ne gTTS.

Kada prijeći na profesionalni TTS API?

Kada prijeći s gTTS na profesionalni TTS API ovisi o važnosti audio kvalitete, pouzdanosti i mogućnosti prilagodbe za tvoj projekt. gTTS je dobar za prototipe, osobne alate pristupačnosti, edukacijske demo primjere i jednostavne eksperimente jer je besplatan i lagan za implementaciju. Pokrećeš li proizvod za stvarne korisnike ili ti treba zajamčena brzina i kvaliteta govora, profesionalno rješenje je nužno. Nadogradnja ima smisla i kad trebaš više glasova, kloniranje glasa, SSML podršku, streaming, detaljnu kontrolu izgovora i pravno čista komercijalna prava. Kako projekt raste, ove opcije iz "luksuznih" prelaze u "obavezne".

Trebate li odabrati gTTS ili Speechify API?

Speechify API je službeno podržan, plaćeni servis s neuralnim glasovima, višestrukim glasovima po jeziku, SSML podrškom i komercijalnim licenciranjem, nije omotač oko neslužbenih endpointa. Ako te kod gTTS muče ograničenja, kvaliteta ili pravne nejasnoće, ovo je opcija vrijedna razmatranja.

Često postavljena pitanja

Je li gTTS besplatan za korištenje?

Da, gTTS je besplatna Python biblioteka s MIT licencom. Za komercijalni, licencirani zvuk trebaš plaćeni servis kao što je Speechify API.

Radi li gTTS bez interneta?

Ne, gTTS treba internet jer šalje zahtjeve na Googleove servere. Isto vrijedi i za Speechify API, koji je cloud servis.

Smijem li koristiti gTTS komercijalno?

Licenciranje gTTS generiranog zvuka za komercijalnu upotrebu nije jasno, jer se oslanja na neslužbeni Google servis. Speechify API daje izričitu komercijalnu licencu.

Kako promijeniti glas u gTTS-u?

U biti ne možeš. gTTS daje jedan glas po jeziku. Speechify API nudi širok katalog neuralnih glasova.

Podržava li gTTS SSML?

Ne, gTTS nema SSML podršku, nema kontrolu visine ni precizne kontrole brzine, dok Speechify API nudi punu SSML kontrolu.

Zašto gTTS vraća HTTP 429 grešku?

Prešao si nedokumentiranu Google Translate kvotu — zato developeri prelaze na servise sa stvarnim SLA-om poput Speechify API.

Je li gTTS isto što i Google Cloud Text-to-Speech?

Ne, gTTS koristi neslužbeni Google Translate endpoint, dok je Google Cloud TTS zaseban, plaćeni proizvod, a Speechify API je još jedna (plaćena) alternativa s neuralnim glasovima.

Koja je najbolja Python TTS biblioteka za produkciju?

gTTS je OK za prototipe, ali ne za produkciju. Većina developera bira plaćene API-je poput Speechify API za ozbiljan rad.

Može li gTTS klonirati glas?

Ne, kloniranje glasa nije podržano u gTTS, dok je putem Speechify API dostupno.

Kako s gTTS streamati zvuk?

gTTS ne podržava streaming u stvarnom vremenu, vraća kompletan MP3. Za streaming s niskom latencijom koristi Speechify API.


Uživajte u najnaprednijim AI glasovima, neograničenom broju datoteka i 24/7 podršci

Isprobaj besplatno
tts banner for blog

Podijeli ovaj članak

Cliff Weitzman

Cliff Weitzman

CEO i osnivač Speechifyja

Cliff Weitzman je zagovaratelj osoba s disleksijom te CEO i osnivač Speechifyja, najpopularnije aplikacije za pretvaranje teksta u govor na svijetu, s preko 100.000 ocjena s 5 zvjezdica i prvim mjestom u App Store kategoriji Vijesti i časopisi. Godine 2017. Weitzman je uvršten na Forbesovu listu 30 ispod 30 zbog rada na poboljšanju pristupačnosti interneta za osobe s teškoćama u učenju. O njemu su pisali EdSurge, Inc., PC Mag, Entrepreneur, Mashable i drugi vodeći mediji.

speechify logo

O Speechifyju

Br. 1 čitač teksta u govor

Speechify je vodeća svjetska platforma za pretvaranje teksta u govor kojoj vjeruje više od 50 milijuna korisnika, s više od 500.000 recenzija s pet zvjezdica na svojim aplikacijama za iOS, Android, Chrome ekstenziju, web-aplikaciju i Mac desktop. Godine 2025. Apple je dodijelio Speechifyju prestižnu nagradu Apple Design Award na WWDC-u, opisavši ga kao “ključni resurs koji ljudima pomaže živjeti svoje živote”. Speechify nudi više od 1000 prirodnih glasova na više od 60 jezika i koristi se u gotovo 200 zemalja. Među glasovima slavnih su Snoop Dogg i Gwyneth Paltrow. Za kreatore i tvrtke Speechify Studio pruža napredne alate, uključujući AI generator glasa, AI kloniranje glasa, AI sinkronizaciju i vlastiti AI mijenjač glasa. Speechify također pokreće vodeće proizvode svojim visokokvalitetnim i pristupačnim API-jem za pretvaranje teksta u govor. Istaknut u The Wall Street Journalu, CNBC-ju, Forbesu, TechCrunchu i drugim velikim medijima, Speechify je najveći svjetski pružatelj usluga pretvaranja teksta u govor. Posjetite speechify.com/news, speechify.com/blog i speechify.com/press za više informacija.