Ce este gTTS?
gTTS este o bibliotecă Python open-source și un instrument CLI care convertește textul în audio MP3 apelând endpoint-ul text-to-speech din Google Translate. Poți salva rezultatul într-un fișier, într-un obiect tip fișier pentru prelucrare audio suplimentară sau direct în stdout. Autorul este Pierre Nicolas Durette, este licențiată MIT și este unul dintre cele mai descărcate pachete TTS de pe PyPI, cu aproximativ 175.000 de descărcări săptămânale. Dacă ai avut vreodată nevoie să transformi un string în MP3 cu trei linii de Python, gTTS e probabil primul rezultat găsit.
Este important de reținut că gTTS nu este Google Cloud Text-to-Speech. Folosește același backend nedocumentat care alimentează butonul "Ascultă" din Google Translate. Această diferență influențează tot ce urmează: la ce e bun gTTS, unde are limite și când ar trebui să folosești altceva.

Când ar trebui să folosești gTTS?
Folosește gTTS dacă vrei prototipare rapidă și gratuită, generare MP3 din text cu o singură comandă, demo-uri multilingve, proiecte de hobby, exemple la clasă sau scripturi de accesibilitate care transformă exporturi Google Docs în audio. Nu folosi gTTS dacă ai nevoie de fiabilitate de producție, SLA documentat, clonare de voce, control SSML, voci neuronale sau expresive, audio streaming sau licențe comerciale clare.
Cum funcționează gTTS?
gTTS nu sintetizează voce local. Trimite o cerere către același backend care alimentează funcția "Ascultă" din Google Translate, descarcă MP3-ul obținut și îți oferă fișierul. Ai nevoie de conexiune la internet fiindcă nu există mod offline, iar audio este generat pe serverele Google, nu local. Endpoint-ul nu este oficial. Proiectul nu e afiliat cu Google/Google Cloud, iar modificările upstream pot duce la nefuncționare fără avertisment.
Instalare
bash
pip install gTTS
gTTS necesită Python 3.7+ și funcționează pe macOS, Windows și Linux. Pe PyPI versiunea curentă e 2.5.4 (noiembrie 2024). Pe sistemele Debian, inclusiv Raspberry Pi OS, pachetul pip e gTTS, iar cel apt e python3-gtts. Dacă pip install dă eroare externally-managed-environment pe un OS recent, folosește un mediu virtual.
Utilizare de bază
Exemplul minim viabil:
python
from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")
Din linia de comandă:
bash
gtts-cli "hello" --output hello.mp3
Alegerea limbii și accentului
python
tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")
gTTS permite şi subtags regionale cu parametrul tld — de exemplu
tld="co.uk" pentru accent britanic sau tld="ca" pentru franceză canadiană — rutând cererea prin diverse domenii Google Translate.
Mod Lent
python
tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")
Acesta este tot controlul pe care îl ai: nu există parametrul pitch, nici reglaj fin al vitezei, nici alegere pe voci și nici SSML.
Redirecționează către buffer, nu disc
python
from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# acum poți folosi buf cu pydub, ffmpeg, răspuns web etc.
Preprocesare și text lung
Unul dintre punctele forte ale gTTS este tokenizer-ul. Împarte textele lungi în bucăți acceptate de backend (limita este ~100 caractere pe cerere), păstrează intonația între bucăți și gestionează abrevieri, zecimale și alte punctuații dificile. Poți adăuga și pre-procesoare proprii ca să rezolvi pronunții recurente greșite — ex: denumiri de produs sau acronime transcrise fonetic.
Care sunt avantajele gTTS?
gTTS (Google Text-to-Speech) e popular printre dezvoltatori, fiindcă este ușor, rapid de integrat și se potrivește natural cu Python. Generează fișiere MP3 salvând direct pe disc, în obiecte tip fișier sau stdout — util pentru scripting și automatizări. Suportă circa 60 de limbi și variante regionale prin parametrii de limbă și domeniu. Dispune de CLI (gtts-cli), ideală pentru scripturi shell, precum și de un tokenizator personalizabil și pre-procesoare pentru abrevieri sau conversii de text. API-ul Python e minimal și permite integrarea rapidă în Jupyter, Flask, Discord sau alte proiecte ușoare, fără să înveți ceva complicat.
Care sunt dezavantajele gTTS?
Deși e simplu, gTTS are limitări mari față de platformele moderne de voce AI. Vocile sunt aceleași ca în Google Translate, deci funcționale dar fără intonație naturală, emoție sau realismul celor neuronale text to speech. Nu poți alege stiluri de voce pe limbă, nu există SSML, nici reglaj pe pitch sau viteză. Trebuie să descarci MP3-ul complet înainte de redare, fără streaming în timp real — ceea ce crește latența pentru aplicații interactive. Mai mult, fiecare cerere necesită conexiune și nu funcționează offline, deci nu e potrivit pentru situații critice de fiabilitate sau latență redusă.
Care sunt limitările gTTS pentru dezvoltatori?
1. Limitare de rată pe endpoint-ul nedocumentat
Aceasta e cea mai mare problemă după "hello world". gTTS nu publică o cotă de utilizare fiindcă nici serviciul sursă nu are una. În practică, o adresă IP poate trimite zeci de mii de caractere pe oră, apoi Google dă HTTP 429, pragul variind în funcție de trafic. Dacă generezi audio pentru mulți utilizatori de pe același server, într-un final vei atinge aceste limite fără niciun SLA la care să faci apel.
2. Endpoint-ul se poate schimba oricând
Pentru că gTTS folosește o rută internă Google Translate, nu un API public cu versiuni, Google poate și a schimbat anterior semnăturile de request sau răspuns peste noapte. Menținătorul face un fix, tu
pip install -U gTTS și totul revine la normal. E OK la hobby. Nu e OK pentru un deploy de producție la 2 AM.
3. Rata de mentenanță
Proiectul mai primește actualizări (cel puțin una în ultimul an), dar trierea problemelor e lentă și bus factorul e practic o singură persoană. Unele trackere îl clasifică ca inactiv. Pentru o bibliotecă MIT gratuită, e normal; ca dependență critică într-un produs plătit, ar trebui să reflectezi la asta.
4. Ambiguitate comercială și TOS
Pentru că gTTS folosește frontend-ul Google Translate, nu Google Cloud TTS, licențierea audio-ului generat pentru uz comercial nu este clar definită. Biblioteca e sub MIT, însă fișierele audio intră sub termenii Google pentru un serviciu ce nu este API TTS oficial. Dacă ai nevoie de un răspuns clar pentru legal, gTTS nu îl oferă.
5. Date sensibile părăsesc dispozitivul tău
Fiecare string sintetizat e trimis pe serverele Google. Dacă redai documente interne, date cu caracter personal sau text din Google Docs și alte surse interne, ia în calcul aceste aspecte de guvernanță a datelor înainte de implementare.
Care e diferența între gTTS și Google Cloud Text-to-Speech?
Deși gTTS și Google Cloud Text-to-Speech sunt adesea confundate, nu sunt același produs. Diferențele principale:
Dacă ai nevoie de vocea Google în producție, probabil vrei Google Cloud TTS, nu gTTS.
Când să treci la un API TTS profesional?
Momentul potrivit să treci de la gTTS la un API TTS profesional depinde de cât contează calitatea audio, fiabilitatea și personalizarea pentru proiectul tău. gTTS e grozav pentru prototipuri, proiecte personale, instrumente de accesibilitate, demo-uri educaționale și experimente simple, fiind gratuit și rapid. Dar dacă ai un produs pentru clienți plătitori, contezi pe calitatea vorbirii sau ai nevoie de latență predictibilă și SLA, ai nevoie de o soluție profesională. Merită upgrade-ul dacă vrei funcții avansate: variante multiple de voci, clonare de voce, SSML, streaming audio, control detaliat pe pronunție sau licențiere comercială clară. Pe măsură ce treci la producție, acestea devin esențiale.
gTTS sau API-ul Speechify?
API-ul Speechify este un serviciu plătit, cu suport oficial, voci neuronale, multiple opțiuni per limbă, SSML și licență comercială inclusă în contract, nu doar un wrapper peste un endpoint nedocumentat. Dacă limitele gTTS, calitatea vocii sau ambiguitatea TOS te blochează, merită evaluată această migrare.
Întrebări frecvente
gTTS e gratuit?
Da, gTTS este gratuit și licențiat MIT, dar pentru audio licențiat comercial ai nevoie de un serviciu plătit precum API-ul Speechify.
Funcționează gTTS offline?
Nu, gTTS necesită internet, la fel ca API-ul Speechify, fiindcă rulează în cloud.
Pot folosi gTTS într-un produs comercial?
Licențierea rezultatelor gTTS pentru uz comercial este neclară, deoarece folosește un endpoint Google nedocumentat. API-ul Speechify garantează licență clară comercială.
Cum schimb vocea la gTTS?
Nu poți. gTTS are o singură voce per limbă, pe când API-ul Speechify oferă un catalog variat de voci neuronale.
gTTS suportă SSML?
Nu, gTTS nu are SSML, nici reglaj pe pitch sau viteză; API-ul Speechify permite control total al prosodiei cu SSML.
De ce primesc erori HTTP 429 de la gTTS?
Ai depășit limita de rată nedocumentată din Google Translate, motiv comun pentru care mulți dezvoltatori trec la servicii cu SLA real, ca API-ul Speechify.
Este gTTS același lucru cu Google Cloud Text-to-Speech?
Nu, gTTS folosește un endpoint neoficial Google Translate, iar Google Cloud TTS este un produs separat contra cost, API-ul Speechify fiind altă alternativă plătită cu voci neuronale.
Care e cea mai bună bibliotecă TTS Python pentru producție?
gTTS e bun pentru prototipuri, nu pentru producție. Pentru workload-uri profesionale, majoritatea dezvoltatorilor preferă un API plătit gen API-ul Speechify.
Poate gTTS clona voci?
Nu, clonarea vocală nu este disponibilă în gTTS, dar o găsești pe API-ul Speechify.
Pot transmite audio cu gTTS?
gTTS nu suportă streaming în timp real, doar returnează un MP3 finalizat. Pentru streaming cu latență redusă folosește API-ul Speechify.

