Què és gTTS?
gTTS és una llibreria de Python de codi obert i eina de línia de comandes que converteix text en àudio MP3 usant l’endpoint de text a veu de Google Translate. Pots escriure el resultat en un fitxer, en un objecte tipus fitxer per editar l’àudio, o directament a stdout. Creat per Pierre Nicolas Durette, sota llicència MIT, és un dels paquets de TTS més descarregats a PyPI, amb unes 175.000 baixades setmanals. Si mai has necessitat generar un MP3 amb tres línies de Python, gTTS és segurament el primer que has trobat.
És important tenir clar que gTTS no és Google Cloud Text-to-Speech. Utilitza el mateix backend no documentat que la funció “Escolta” de Google Translate. Aquesta diferència defineix què fa bé gTTS, on falla i quan és millor buscar alternatives.

Quan has d’utilitzar gTTS?
Fes servir gTTS si vols prototipar gratis i ràpid, generar MP3 amb una sola línia, demos multilingües, projectes de hobby, a classe, o un script per accessibilitat que llegeixi en veu alta una exportació de Google Docs. No facis servir gTTS si necessites fiabilitat, SLA documentat, clonació de veu, control d’SSML, veus neuronals, àudio en streaming, o una llicència comercial clara.
Com funciona gTTS?
gTTS no sintetitza la veu localment. Envia una petició al backend que fa servir la funció d’“Escolta” de Google Translate, descarrega l’MP3 generat i te’n retorna els bytes. Cal connexió a internet perquè no hi ha mode offline i el so es crea als servidors de Google. L’endpoint és no oficial i el projecte no té relació amb Google ni Google Cloud; els canvis d’ells poden fer que no funcioni sense avís.
Instal·lació
bash
pip install gTTS
gTTS requereix Python 3.7 o més nou i funciona a macOS, Windows i Linux. L’última versió a PyPI és 2.5.4 (novembre 2024). Als sistemes Debian i Raspberry Pi OS, el nom a pip és gTTS i a apt és python3-gtts. Si pip install falla per un error d’entorn gestionat, fes servir un entorn virtual.
Exemple bàsic
L’exemple més senzill:
python
from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")
Des de la línia de comandes:
bash
gtts-cli "hello" --output hello.mp3
Tria de llengua i accent
python
tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")
gTTS també permet subtags regionals amb el paràmetre tld — per exemple
tld="co.uk" per accent britànic anglès, o tld="ca" per accent francès de Canadà — seleccionant diferents dominis de Google Translate.
Mode lent
python
tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")
Aquestes són totes les opcions de control de parla: no té paràmetre de to, només slow=True per la velocitat, ni tria de veu, ni SSML.
Escriure en un buffer en comptes de disc
python
from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# ara buf es pot passar a pydub, ffmpeg, resposta web, etc.
Preprocessament i text llarg
Un dels punts forts de gTTS és el seu tokenitzador. Divideix textos llargs en trossos compatibles amb el backend (tallat cap als 100 caràcters), conserva la prosòdia i gestiona abreviatures, decimals i altres casos especials. Pots afegir pre-processadors propis per ajustar pronunciacions — com adaptar noms de producte o sigles a formes fonètiques.
Avantatges de gTTS?
gTTS (Google Text-to-Speech) és popular entre desenvolupadors per ser lleuger, simple i fàcil d’integrar en entorns Python. Permet crear fitxers d’àudio MP3 i guardar-los directament en fitxer o stdout, perfecte per automatització i scripts. Suporta unes 60 llengües i diversos dialectes gràcies als paràmetres de llengua i domini. També té una interfície de comandes (gtts-cli) que funciona amb scripts shell, i un tokenitzador i preprocessadors configurables. L’API és mínima i ideal per afegir veu a Jupyter, Flask, bots de Discord o projectes petits, sense gaire corba d’aprenentatge.
Inconvenients de gTTS?
Tot i la seva simplicitat, gTTS té límits respecte als sistemes de veu amb IA moderns. Les veus provenen de Google Translate i sonen funcionals però poc naturals ni expressives en comparació amb sistemes de text a veu neuronals. No pots triar diferents estils de veu dins una llengua, ni controlar SSML, ni afinar to o ritme. gTTS no permet streaming en temps real, cal descarregar l’MP3 sencer i això pot afegir latència. Requereix sempre connexió a internet i no funciona offline, fet que el fa poc útil per entorns on la fiabilitat o una latència baixa són clau.
Limitacions de gTTS per a desenvolupadors
1. Límits de ràtio en un endpoint no documentat
És la trampa principal quan vas més enllà del “hello world”. gTTS no publica límits d’ús perquè el servei tampoc. En la pràctica, una IP pot enviar desenes de milers de caràcters per hora abans que Google retorni HTTP 429, amb el límit variant segons el trànsit. Si la teva app genera àudio per a molts usuaris des d’un sol servidor, acabaràs topant amb aquest límit sense cap SLA al qual recórrer.
2. L’endpoint pot canviar sense avís
Com que gTTS apunta a una ruta interna de Google Translate, no una API pública versionada, Google pot (i ja ha passat) trencar gTTS d’un dia per l’altre canviant signatures de petició o resposta. El mantenidor treu una correcció i tu
pip install -U gTTS, i tornes a funcionar. Això està bé per scripts casolans, però no per desplegar a producció a les 2 de la matinada.
3. Ritme de manteniment
El projecte encara treu noves versions (mínim una l’últim any), però la gestió d’incidències és lenta i tot recau en una sola persona. Alguns trackers el qualifiquen d’“inactiu”. En open source gratuït és normal, però si ho vols com a peça central d’un producte de pagament, val la pena tenir-ho present.
4. Ambigüitat comercial i de TOS
Com que gTTS toca el frontend de Google Translate i no Google Cloud TTS, la llicència per ús comercial de l’àudio generat no és clara enlloc. La llibreria és MIT, però els bytes depenen dels termes de Google per a un servei sense API formal. Si el teu equip legal vol una resposta clara, no la trobarà amb gTTS.
5. Dades sensibles surten de la teva màquina
Tot text sintetitzat s’envia als servidors de Google. Si llegeixes documents interns, dades de clients o textos de Google Docs i altres repositoris, cal plantejar-se bé la governança de dades abans de publicar-ho.
Diferència entre gTTS i Google Cloud Text-to-Speech
Tot i que gTTS i Google Cloud Text-to-Speech sovint es confonen, no són el mateix producte. Les diferències són:
Si vols la veu Google en producció, necessites Google Cloud TTS, no gTTS.
Quan passar a una API TTS professional?
El moment de passar de gTTS a una API text a veu professional depèn de la importància que tinguin la qualitat, la fiabilitat i la personalització de l'àudio per al teu projecte. gTTS és útil en prototips, projectes d’exemple, eines personals d’accessibilitat, demos educatives i proves lleugeres perquè és simple i gratuït. Però si llançaràs un producte per a clients, depens de la qualitat de la veu, o requereixes latència i SLA garantits, necessites una solució pro. També convé si vols veus variades, clonació de veu, SSML, àudio en streaming, control detallat de prosòdia o llicència comercial clara. A mesura que els projectes passen de prova a producció, aquests punts passen de ser desitjables a essencials.
Què escollir: gTTS o l’API Speechify?
L’API de text a veu de Speechify és un servei de pagament oficial amb veus neuronals, opcions de veu per llengua, suport SSML i llicència comercial contractada, no un embolcall sobre un endpoint no documentat. Si et frenen els límits de gTTS, la qualitat de la veu, o la incertesa de TOS, val la pena plantejar aquest canvi.
Preguntes freqüents
gTTS és gratuït?
Sí, gTTS és una llibreria gratuïta amb llicència MIT, però per àudio amb llicència comercial caldrà un servei de pagament com l’API Speechify.
Funciona gTTS offline?
No, gTTS requereix connexió a internet perquè treballa amb els servidors de Google, igual que l’API Speechify, que és un servei al núvol.
Puc usar gTTS en un producte comercial?
La llicència de sortida de gTTS per a ús comercial és ambigua ja que depèn d’un endpoint de Google sense documentar, mentre que l’API Speechify sí que ofereix llicència comercial explícita.
Com canvio la veu a gTTS?
No es pot realment. gTTS només et dona una veu per llengua, mentre que l’API Speechify ofereix un catàleg de veus neuronals.
gTTS suporta SSML?
No, gTTS no suporta SSML, ni control de to ni de velocitat, però l’API Speechify sí permet controlar la prosòdia amb SSML.
Per què gTTS retorna errors HTTP 429?
Has superat el límit no documentat de Google Translate, motiu pel qual molts desenvolupadors opten per un servei amb SLA real com l’API Speechify.
gTTS és el mateix que Google Cloud Text-to-Speech?
No, gTTS empra un endpoint oficiós de Google Translate, Google Cloud TTS és un producte de pagament diferent, i l’API Speechify és una altra alternativa de pagament amb veus neuronals.
Quina és la millor llibreria Python TTS per a producció?
gTTS va bé per a prototips però no per a producció; per a projectes professionals la majoria fan servir APIs de pagament com l’Speechify API.
Puc clonar veus amb gTTS?
No, la clonació de veu no està disponible a gTTS, però sí a l’API Speechify.
Com puc fer streaming d’àudio amb gTTS?
gTTS no permet streaming en temps real; només torna l’MP3 complet. Per a streaming de baixa latència cal emprar l’API Speechify.

