1. Acasă
  2. TTS
  3. gtts
Updated on TTS

gtts

Cliff Weitzman

Cliff Weitzman

CEO și fondator Speechify

apple logoPremiul Apple Design 2025
Peste 50M de utilizatori

Ce este gTTS?

gTTS este o bibliotecă Python open-source și un instrument CLI care convertește textul în audio MP3 apelând endpoint-ul text-to-speech din Google Translate. Poți salva rezultatul într-un fișier, într-un obiect tip fișier pentru prelucrare audio suplimentară sau direct în stdout. Autorul este Pierre Nicolas Durette, este licențiată MIT și este unul dintre cele mai descărcate pachete TTS de pe PyPI, cu aproximativ 175.000 de descărcări săptămânale. Dacă ai avut vreodată nevoie să transformi un string în MP3 cu trei linii de Python, gTTS e probabil primul rezultat găsit.

Este important de reținut că gTTS nu este Google Cloud Text-to-Speech. Folosește același backend nedocumentat care alimentează butonul "Ascultă" din Google Translate. Această diferență influențează tot ce urmează: la ce e bun gTTS, unde are limite și când ar trebui să folosești altceva.

gTTS

Când ar trebui să folosești gTTS?

Folosește gTTS dacă vrei prototipare rapidă și gratuită, generare MP3 din text cu o singură comandă, demo-uri multilingve, proiecte de hobby, exemple la clasă sau scripturi de accesibilitate care transformă exporturi Google Docs în audio. Nu folosi gTTS dacă ai nevoie de fiabilitate de producție, SLA documentat, clonare de voce, control SSML, voci neuronale sau expresive, audio streaming sau licențe comerciale clare.

Cum funcționează gTTS?

gTTS nu sintetizează voce local. Trimite o cerere către același backend care alimentează funcția "Ascultă" din Google Translate, descarcă MP3-ul obținut și îți oferă fișierul. Ai nevoie de conexiune la internet fiindcă nu există mod offline, iar audio este generat pe serverele Google, nu local. Endpoint-ul nu este oficial. Proiectul nu e afiliat cu Google/Google Cloud, iar modificările upstream pot duce la nefuncționare fără avertisment.

Instalare

bash

pip install gTTS

gTTS necesită Python 3.7+ și funcționează pe macOS, Windows și Linux. Pe PyPI versiunea curentă e 2.5.4 (noiembrie 2024). Pe sistemele Debian, inclusiv Raspberry Pi OS, pachetul pip e gTTS, iar cel apt e python3-gtts. Dacă pip install dă eroare externally-managed-environment pe un OS recent, folosește un mediu virtual.

Utilizare de bază

Exemplul minim viabil:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

Din linia de comandă:

bash

gtts-cli "hello" --output hello.mp3

Alegerea limbii și accentului

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

gTTS permite şi subtags regionale cu parametrul tld — de exemplu

tld="co.uk" pentru accent britanic sau tld="ca" pentru franceză canadiană — rutând cererea prin diverse domenii Google Translate.

Mod Lent

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

Acesta este tot controlul pe care îl ai: nu există parametrul pitch, nici reglaj fin al vitezei, nici alegere pe voci și nici SSML.

Redirecționează către buffer, nu disc

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# acum poți folosi buf cu pydub, ffmpeg, răspuns web etc.

Preprocesare și text lung

Unul dintre punctele forte ale gTTS este tokenizer-ul. Împarte textele lungi în bucăți acceptate de backend (limita este ~100 caractere pe cerere), păstrează intonația între bucăți și gestionează abrevieri, zecimale și alte punctuații dificile. Poți adăuga și pre-procesoare proprii ca să rezolvi pronunții recurente greșite — ex: denumiri de produs sau acronime transcrise fonetic.

Care sunt avantajele gTTS?

gTTS (Google Text-to-Speech) e popular printre dezvoltatori, fiindcă este ușor, rapid de integrat și se potrivește natural cu Python. Generează fișiere MP3 salvând direct pe disc, în obiecte tip fișier sau stdout — util pentru scripting și automatizări. Suportă circa 60 de limbi și variante regionale prin parametrii de limbă și domeniu. Dispune de CLI (gtts-cli), ideală pentru scripturi shell, precum și de un tokenizator personalizabil și pre-procesoare pentru abrevieri sau conversii de text. API-ul Python e minimal și permite integrarea rapidă în Jupyter, Flask, Discord sau alte proiecte ușoare, fără să înveți ceva complicat.

Care sunt dezavantajele gTTS?

Deși e simplu, gTTS are limitări mari față de platformele moderne de voce AI. Vocile sunt aceleași ca în Google Translate, deci funcționale dar fără intonație naturală, emoție sau realismul celor neuronale text to speech. Nu poți alege stiluri de voce pe limbă, nu există SSML, nici reglaj pe pitch sau viteză. Trebuie să descarci MP3-ul complet înainte de redare, fără streaming în timp real — ceea ce crește latența pentru aplicații interactive. Mai mult, fiecare cerere necesită conexiune și nu funcționează offline, deci nu e potrivit pentru situații critice de fiabilitate sau latență redusă.

Care sunt limitările gTTS pentru dezvoltatori?

1. Limitare de rată pe endpoint-ul nedocumentat

Aceasta e cea mai mare problemă după "hello world". gTTS nu publică o cotă de utilizare fiindcă nici serviciul sursă nu are una. În practică, o adresă IP poate trimite zeci de mii de caractere pe oră, apoi Google dă HTTP 429, pragul variind în funcție de trafic. Dacă generezi audio pentru mulți utilizatori de pe același server, într-un final vei atinge aceste limite fără niciun SLA la care să faci apel.

2. Endpoint-ul se poate schimba oricând

Pentru că gTTS folosește o rută internă Google Translate, nu un API public cu versiuni, Google poate și a schimbat anterior semnăturile de request sau răspuns peste noapte. Menținătorul face un fix, tu

pip install -U gTTS și totul revine la normal. E OK la hobby. Nu e OK pentru un deploy de producție la 2 AM.

3. Rata de mentenanță

Proiectul mai primește actualizări (cel puțin una în ultimul an), dar trierea problemelor e lentă și bus factorul e practic o singură persoană. Unele trackere îl clasifică ca inactiv. Pentru o bibliotecă MIT gratuită, e normal; ca dependență critică într-un produs plătit, ar trebui să reflectezi la asta.

4. Ambiguitate comercială și TOS

Pentru că gTTS folosește frontend-ul Google Translate, nu Google Cloud TTS, licențierea audio-ului generat pentru uz comercial nu este clar definită. Biblioteca e sub MIT, însă fișierele audio intră sub termenii Google pentru un serviciu ce nu este API TTS oficial. Dacă ai nevoie de un răspuns clar pentru legal, gTTS nu îl oferă.

5. Date sensibile părăsesc dispozitivul tău

Fiecare string sintetizat e trimis pe serverele Google. Dacă redai documente interne, date cu caracter personal sau text din Google Docs și alte surse interne, ia în calcul aceste aspecte de guvernanță a datelor înainte de implementare.

Care e diferența între gTTS și Google Cloud Text-to-Speech?

Deși gTTS și Google Cloud Text-to-Speech sunt adesea confundate, nu sunt același produs. Diferențele principale:


gTTS

Google Cloud TTS


Endpoint

Rută nedocumentată Google Translate

API public, documentat, versionat

Autentificare

Nu

Cont de serviciu / cheie API

Cost

Gratuit

Plătit (pe caracter)

Voci

Una per limbă

Neuronale (WaveNet, Studio, Chirp)

SSML

Nu

Da

SLA

Nu

SLA publicat

Uz comercial

Ambiguu

Licențiat explicit

Dacă ai nevoie de vocea Google în producție, probabil vrei Google Cloud TTS, nu gTTS.

Când să treci la un API TTS profesional?

Momentul potrivit să treci de la gTTS la un API TTS profesional depinde de cât contează calitatea audio, fiabilitatea și personalizarea pentru proiectul tău. gTTS e grozav pentru prototipuri, proiecte personale, instrumente de accesibilitate, demo-uri educaționale și experimente simple, fiind gratuit și rapid. Dar dacă ai un produs pentru clienți plătitori, contezi pe calitatea vorbirii sau ai nevoie de latență predictibilă și SLA, ai nevoie de o soluție profesională. Merită upgrade-ul dacă vrei funcții avansate: variante multiple de voci, clonare de voce, SSML, streaming audio, control detaliat pe pronunție sau licențiere comercială clară. Pe măsură ce treci la producție, acestea devin esențiale.

gTTS sau API-ul Speechify?

API-ul Speechify este un serviciu plătit, cu suport oficial, voci neuronale, multiple opțiuni per limbă, SSML și licență comercială inclusă în contract, nu doar un wrapper peste un endpoint nedocumentat. Dacă limitele gTTS, calitatea vocii sau ambiguitatea TOS te blochează, merită evaluată această migrare.

Întrebări frecvente

gTTS e gratuit?

Da, gTTS este gratuit și licențiat MIT, dar pentru audio licențiat comercial ai nevoie de un serviciu plătit precum API-ul Speechify.

Funcționează gTTS offline?

Nu, gTTS necesită internet, la fel ca API-ul Speechify, fiindcă rulează în cloud.

Pot folosi gTTS într-un produs comercial?

Licențierea rezultatelor gTTS pentru uz comercial este neclară, deoarece folosește un endpoint Google nedocumentat. API-ul Speechify garantează licență clară comercială.

Cum schimb vocea la gTTS?

Nu poți. gTTS are o singură voce per limbă, pe când API-ul Speechify oferă un catalog variat de voci neuronale.

gTTS suportă SSML?

Nu, gTTS nu are SSML, nici reglaj pe pitch sau viteză; API-ul Speechify permite control total al prosodiei cu SSML.

De ce primesc erori HTTP 429 de la gTTS?

Ai depășit limita de rată nedocumentată din Google Translate, motiv comun pentru care mulți dezvoltatori trec la servicii cu SLA real, ca API-ul Speechify.

Este gTTS același lucru cu Google Cloud Text-to-Speech?

Nu, gTTS folosește un endpoint neoficial Google Translate, iar Google Cloud TTS este un produs separat contra cost, API-ul Speechify fiind altă alternativă plătită cu voci neuronale.

Care e cea mai bună bibliotecă TTS Python pentru producție?

gTTS e bun pentru prototipuri, nu pentru producție. Pentru workload-uri profesionale, majoritatea dezvoltatorilor preferă un API plătit gen API-ul Speechify.

Poate gTTS clona voci?

Nu, clonarea vocală nu este disponibilă în gTTS, dar o găsești pe API-ul Speechify.

Pot transmite audio cu gTTS?

gTTS nu suportă streaming în timp real, doar returnează un MP3 finalizat. Pentru streaming cu latență redusă folosește API-ul Speechify.


Bucură-te de cele mai avansate voci AI, fișiere nelimitate și suport 24/7

Încearcă gratuit
tts banner for blog

Distribuie acest articol

Cliff Weitzman

Cliff Weitzman

CEO și fondator Speechify

Cliff Weitzman este un susținător al persoanelor cu dislexie și CEO și fondator al Speechify, cea mai populară aplicație de conversie text-în-vorbire din lume, cu peste 100.000 de recenzii de 5 stele și aflată constant pe primul loc în App Store la categoria Știri & Reviste. În 2017, Weitzman a fost inclus în lista Forbes 30 sub 30 pentru contribuția sa la creșterea accesibilității internetului pentru persoanele cu tulburări de învățare. Cliff Weitzman a apărut în publicații precum EdSurge, Inc., PC Mag, Entrepreneur, Mashable și alte publicații de prestigiu.

speechify logo

Despre Speechify

Cititorul Text-to-Speech #1

Speechify este cea mai importantă platformă de text to speech din lume, folosită de peste 50 de milioane de utilizatori și susținută de peste 500.000 de recenzii de 5 stele pentru aplicațiile sale iOS, Android, Extensie Chrome, aplicație web și desktop Mac. În 2025, Apple a acordat Speechify prestigiosul Apple Design Award la WWDC, numindu-l „o resursă esențială care îi ajută pe oameni să își trăiască viața.” Speechify oferă peste 1.000 de voci naturale în peste 60 de limbi și este utilizat în aproape 200 de țări. Printre vocile de celebrități se numără Snoop Dogg și Gwyneth Paltrow. Pentru creatori și afaceri, Speechify Studio oferă instrumente avansate, inclusiv Generator de voce AI, Clonare vocală AI, Dublaj AI și Schimbător de voce AI. Speechify alimentează, de asemenea, produse de top cu API-ul său text to speech de înaltă calitate și rentabil. Menționat în The Wall Street Journal, CNBC, Forbes, TechCrunch și alte publicații importante, Speechify este cel mai mare furnizor de text-to-speech din lume. Vizitează speechify.com/news, speechify.com/blog și speechify.com/press pentru a afla mai multe.