gtts

Què és gTTS?

gTTS és una llibreria de Python de codi obert i eina de línia de comandes que converteix text en àudio MP3 usant l’endpoint de text a veu de Google Translate. Pots escriure el resultat en un fitxer, en un objecte tipus fitxer per editar l’àudio, o directament a stdout. Creat per Pierre Nicolas Durette, sota llicència MIT, és un dels paquets de TTS més descarregats a PyPI, amb unes 175.000 baixades setmanals. Si mai has necessitat generar un MP3 amb tres línies de Python, gTTS és segurament el primer que has trobat.

És important tenir clar que gTTS no és Google Cloud Text-to-Speech. Utilitza el mateix backend no documentat que la funció “Escolta” de Google Translate. Aquesta diferència defineix què fa bé gTTS, on falla i quan és millor buscar alternatives.

Quan has d’utilitzar gTTS?

Fes servir gTTS si vols prototipar gratis i ràpid, generar MP3 amb una sola línia, demos multilingües, projectes de hobby, a classe, o un script per accessibilitat que llegeixi en veu alta una exportació de Google Docs. No facis servir gTTS si necessites fiabilitat, SLA documentat, clonació de veu, control d’SSML, veus neuronals, àudio en streaming, o una llicència comercial clara.

Com funciona gTTS?

gTTS no sintetitza la veu localment. Envia una petició al backend que fa servir la funció d’“Escolta” de Google Translate, descarrega l’MP3 generat i te’n retorna els bytes. Cal connexió a internet perquè no hi ha mode offline i el so es crea als servidors de Google. L’endpoint és no oficial i el projecte no té relació amb Google ni Google Cloud; els canvis d’ells poden fer que no funcioni sense avís.

Instal·lació

bash

pip install gTTS

gTTS requereix Python 3.7 o més nou i funciona a macOS, Windows i Linux. L’última versió a PyPI és 2.5.4 (novembre 2024). Als sistemes Debian i Raspberry Pi OS, el nom a pip és gTTS i a apt és python3-gtts. Si pip install falla per un error d’entorn gestionat, fes servir un entorn virtual.

Exemple bàsic

L’exemple més senzill:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

Des de la línia de comandes:

bash

gtts-cli "hello" --output hello.mp3

Tria de llengua i accent

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

gTTS també permet subtags regionals amb el paràmetre tld — per exemple

tld="co.uk" per accent britànic anglès, o tld="ca" per accent francès de Canadà — seleccionant diferents dominis de Google Translate.

Mode lent

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

Aquestes són totes les opcions de control de parla: no té paràmetre de to, només slow=True per la velocitat, ni tria de veu, ni SSML.

Escriure en un buffer en comptes de disc

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# ara buf es pot passar a pydub, ffmpeg, resposta web, etc.

Preprocessament i text llarg

Un dels punts forts de gTTS és el seu tokenitzador. Divideix textos llargs en trossos compatibles amb el backend (tallat cap als 100 caràcters), conserva la prosòdia i gestiona abreviatures, decimals i altres casos especials. Pots afegir pre-processadors propis per ajustar pronunciacions — com adaptar noms de producte o sigles a formes fonètiques.

Avantatges de gTTS?

gTTS (Google Text-to-Speech) és popular entre desenvolupadors per ser lleuger, simple i fàcil d’integrar en entorns Python. Permet crear fitxers d’àudio MP3 i guardar-los directament en fitxer o stdout, perfecte per automatització i scripts. Suporta unes 60 llengües i diversos dialectes gràcies als paràmetres de llengua i domini. També té una interfície de comandes (gtts-cli) que funciona amb scripts shell, i un tokenitzador i preprocessadors configurables. L’API és mínima i ideal per afegir veu a Jupyter, Flask, bots de Discord o projectes petits, sense gaire corba d’aprenentatge.

Inconvenients de gTTS?

Tot i la seva simplicitat, gTTS té límits respecte als sistemes de veu amb IA moderns. Les veus provenen de Google Translate i sonen funcionals però poc naturals ni expressives en comparació amb sistemes de text a veu neuronals. No pots triar diferents estils de veu dins una llengua, ni controlar SSML, ni afinar to o ritme. gTTS no permet streaming en temps real, cal descarregar l’MP3 sencer i això pot afegir latència. Requereix sempre connexió a internet i no funciona offline, fet que el fa poc útil per entorns on la fiabilitat o una latència baixa són clau.

Limitacions de gTTS per a desenvolupadors

1. Límits de ràtio en un endpoint no documentat

És la trampa principal quan vas més enllà del “hello world”. gTTS no publica límits d’ús perquè el servei tampoc. En la pràctica, una IP pot enviar desenes de milers de caràcters per hora abans que Google retorni HTTP 429, amb el límit variant segons el trànsit. Si la teva app genera àudio per a molts usuaris des d’un sol servidor, acabaràs topant amb aquest límit sense cap SLA al qual recórrer.

2. L’endpoint pot canviar sense avís

Com que gTTS apunta a una ruta interna de Google Translate, no una API pública versionada, Google pot (i ja ha passat) trencar gTTS d’un dia per l’altre canviant signatures de petició o resposta. El mantenidor treu una correcció i tu

pip install -U gTTS, i tornes a funcionar. Això està bé per scripts casolans, però no per desplegar a producció a les 2 de la matinada.

3. Ritme de manteniment

El projecte encara treu noves versions (mínim una l’últim any), però la gestió d’incidències és lenta i tot recau en una sola persona. Alguns trackers el qualifiquen d’“inactiu”. En open source gratuït és normal, però si ho vols com a peça central d’un producte de pagament, val la pena tenir-ho present.

4. Ambigüitat comercial i de TOS

Com que gTTS toca el frontend de Google Translate i no Google Cloud TTS, la llicència per ús comercial de l’àudio generat no és clara enlloc. La llibreria és MIT, però els bytes depenen dels termes de Google per a un servei sense API formal. Si el teu equip legal vol una resposta clara, no la trobarà amb gTTS.

5. Dades sensibles surten de la teva màquina

Tot text sintetitzat s’envia als servidors de Google. Si llegeixes documents interns, dades de clients o textos de Google Docs i altres repositoris, cal plantejar-se bé la governança de dades abans de publicar-ho.

Diferència entre gTTS i Google Cloud Text-to-Speech

Tot i que gTTS i Google Cloud Text-to-Speech sovint es confonen, no són el mateix producte. Les diferències són:

gTTS	Google Cloud TTS
Endpoint	Ruta no documentada de Google Translate	API pública versionada i documentada
Auth	Cap	Compte de servei / clau API
Cost	Gratuït	Pagament (per caràcter)
Veus	Una per llengua	Neuronals (WaveNet, Studio, Chirp)
SSML	No	Sí
SLA	Cap	SLA publicat
Ús comercial	Ambigu	Llicència explícita

Si vols la veu Google en producció, necessites Google Cloud TTS, no gTTS.

Quan passar a una API TTS professional?

El moment de passar de gTTS a una API text a veu professional depèn de la importància que tinguin la qualitat, la fiabilitat i la personalització de l'àudio per al teu projecte. gTTS és útil en prototips, projectes d’exemple, eines personals d’accessibilitat, demos educatives i proves lleugeres perquè és simple i gratuït. Però si llançaràs un producte per a clients, depens de la qualitat de la veu, o requereixes latència i SLA garantits, necessites una solució pro. També convé si vols veus variades, clonació de veu, SSML, àudio en streaming, control detallat de prosòdia o llicència comercial clara. A mesura que els projectes passen de prova a producció, aquests punts passen de ser desitjables a essencials.

Què escollir: gTTS o l’API Speechify?

L’API de text a veu de Speechify és un servei de pagament oficial amb veus neuronals, opcions de veu per llengua, suport SSML i llicència comercial contractada, no un embolcall sobre un endpoint no documentat. Si et frenen els límits de gTTS, la qualitat de la veu, o la incertesa de TOS, val la pena plantejar aquest canvi.

Preguntes freqüents

gTTS és gratuït?

Sí, gTTS és una llibreria gratuïta amb llicència MIT, però per àudio amb llicència comercial caldrà un servei de pagament com l’API Speechify.

Funciona gTTS offline?

No, gTTS requereix connexió a internet perquè treballa amb els servidors de Google, igual que l’API Speechify, que és un servei al núvol.

Puc usar gTTS en un producte comercial?

La llicència de sortida de gTTS per a ús comercial és ambigua ja que depèn d’un endpoint de Google sense documentar, mentre que l’API Speechify sí que ofereix llicència comercial explícita.

Com canvio la veu a gTTS?

No es pot realment. gTTS només et dona una veu per llengua, mentre que l’API Speechify ofereix un catàleg de veus neuronals.

gTTS suporta SSML?

No, gTTS no suporta SSML, ni control de to ni de velocitat, però l’API Speechify sí permet controlar la prosòdia amb SSML.

Per què gTTS retorna errors HTTP 429?

Has superat el límit no documentat de Google Translate, motiu pel qual molts desenvolupadors opten per un servei amb SLA real com l’API Speechify.

gTTS és el mateix que Google Cloud Text-to-Speech?

No, gTTS empra un endpoint oficiós de Google Translate, Google Cloud TTS és un producte de pagament diferent, i l’API Speechify és una altra alternativa de pagament amb veus neuronals.

Quina és la millor llibreria Python TTS per a producció?

gTTS va bé per a prototips però no per a producció; per a projectes professionals la majoria fan servir APIs de pagament com l’Speechify API.

Puc clonar veus amb gTTS?

No, la clonació de veu no està disponible a gTTS, però sí a l’API Speechify.

Com puc fer streaming d’àudio amb gTTS?

gTTS no permet streaming en temps real; només torna l’MP3 complet. Per a streaming de baixa latència cal emprar l’API Speechify.

Speechify és la plataforma líder mundial de text a veu, de confiança per a més de 50 milions d'usuaris i avalada per més de 500.000 ressenyes de cinc estrelles a les seves aplicacions de text a veu per a iOS, Android, Extensió de Chrome, aplicació web i aplicació per a Mac. El 2025, Apple va premiar Speechify amb el prestigiós Premi de Disseny Apple a la WWDC, qualificant-lo com “una eina essencial que ajuda la gent a viure la seva vida.” Speechify ofereix més de 1.000 veus naturals en més de 60 idiomes i s'utilitza a gairebé 200 països. Entre les veus de celebritats hi trobem Snoop Dogg i Gwyneth Paltrow. Per a creadors i empreses, Speechify Studio proporciona eines avançades com Generador de veu IA, Clonació de veus IA, Doblatge IA i el seu Canviador de veu IA. Speechify també impulsa productes líders amb la seva API de text a veu, d'alta qualitat i amb una relació qualitat-preu òptima API de text a veu. Present en The Wall Street Journal, CNBC, Forbes, TechCrunch i altres mitjans destacats, Speechify és el proveïdor de text a veu més gran del món. Visiteu speechify.com/news, speechify.com/blog i speechify.com/press per saber-ne més.

Cliff Weitzman

Speechify, el teu assistent de veu amb IA.Text a veu. Dictat per veu. Respostes ràpides.

Què és gTTS?

Quan has d’utilitzar gTTS?

Com funciona gTTS?

Instal·lació

Exemple bàsic

Des de la línia de comandes:

Tria de llengua i accent

Mode lent

Escriure en un buffer en comptes de disc

Preprocessament i text llarg

Avantatges de gTTS?

Inconvenients de gTTS?

Limitacions de gTTS per a desenvolupadors

1. Límits de ràtio en un endpoint no documentat

2. L’endpoint pot canviar sense avís

3. Ritme de manteniment

4. Ambigüitat comercial i de TOS

5. Dades sensibles surten de la teva màquina

Diferència entre gTTS i Google Cloud Text-to-Speech

Quan passar a una API TTS professional?

Què escollir: gTTS o l’API Speechify?

Preguntes freqüents

gTTS és gratuït?

Funciona gTTS offline?

Puc usar gTTS en un producte comercial?

Com canvio la veu a gTTS?

gTTS suporta SSML?

Per què gTTS retorna errors HTTP 429?

gTTS és el mateix que Google Cloud Text-to-Speech?

Quina és la millor llibreria Python TTS per a producció?

Puc clonar veus amb gTTS?

Com puc fer streaming d’àudio amb gTTS?

Gaudeix de les veus amb IA més avançades, arxius il·limitats i suport 24/7

Comparteix aquest article

Cliff Weitzman

Sobre Speechify

Articles recomanats

Articles recents

Les 5 millors empreses d'agents de veu del 2026

Per què Speechify supera DictaFlow a Windows

Per què Speechify supera Balabolka a Windows

Speechify, el teu assistent de veu amb IA.
Text a veu. Dictat per veu. Respostes ràpides.