1. Inicio
  2. TTS
  3. gtts
Updated on TTS

gtts

Cliff Weitzman

Cliff Weitzman

Consejero delegado y fundador de Speechify

apple logoPremio Apple Design 2025
Más de 50 M de usuarios

¿Qué es gTTS?

gTTS es una biblioteca Python y herramienta de línea de comandos de código abierto que convierte texto en audio MP3 hablado llamando al endpoint TTS de Google Translate. Puedes guardar la salida en un archivo, en un objeto tipo archivo para procesamiento adicional o directamente en la salida estándar. La creó Pierre Nicolas Durette, tiene licencia MIT y es uno de los paquetes de TTS más descargados de PyPI, con unas 175,000 descargas semanales. Si alguna vez necesitaste convertir una cadena en MP3 en tres líneas de Python, probablemente gTTS fuera tu primera opción.

Pero es importante aclarar que gTTS no es Google Cloud Text-to-Speech. Usa el mismo backend no documentado del botón "Escuchar" de Google Translate. Esa diferencia determina para qué es útil gTTS, sus límites y cuándo conviene elegir otra opción.

gTTS

¿Cuándo deberías usar gTTS?

Usa gTTS si necesitas prototipos gratuitos y rápidos, archivos MP3 generados en una línea, demos multilingües, proyectos de hobby, ejemplos de aula o guiones de accesibilidad que leen en voz alta una exportación de Google Docs. No lo uses si requieres fiabilidad en producción, SLA documentada, clonación de voz, control SSML, voces neuronales o expresivas, audio en streaming o licencias comerciales claras.

¿Cómo funciona gTTS?

gTTS no sintetiza localmente. Hace una petición al backend del botón "Escuchar" de Google Translate, descarga el MP3 generado y te entrega los bytes. Por eso necesitas conexión a internet: no hay modo offline y el audio se genera en los servidores de Google. Además, el endpoint no es oficial. El proyecto no tiene relación con Google ni Google Cloud, y cambios en el servicio pueden romper gTTS sin aviso.

Instalación

bash

pip install gTTS

gTTS requiere Python 3.7 o superior y funciona en macOS, Windows y Linux. La versión en PyPI actual es 2.5.4 (noviembre 2024). En sistemas Debian, como Raspberry Pi OS: el paquete de pip es gTTS; el de apt es python3-gtts. Si pip install falla con un error de entorno gestionado externo en un SO reciente, instala en un entorno virtual.

Uso básico

El ejemplo mínimo:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

Desde la línea de comandos:

bash

gtts-cli "hello" --output hello.mp3

Elegir idioma y acento

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

gTTS también permite sub-etiquetas regionales con el parámetro tld, por ejemplo

tld="co.uk" para acento inglés británico o tld="ca" para francés canadiense, enrutando por diferentes dominios de Google Translate.

Modo lento

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

Eso es básicamente todo el control de voz que ofrece. No hay control de tono, ni control de velocidad más allá de slow=True, ni selección por voz, ni SSML.

Transmitir a buffer en vez de disco

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# ahora puedes pasar buf a pydub, ffmpeg, respuesta web, etc.

Preprocesamiento y texto largo

Uno de los puntos mejor logrados de gTTS es su tokenizador: divide entradas largas en trozos aceptados por el backend (límite aprox. 100 caracteres), mantiene la entonación entre fragmentos y maneja abreviaturas, decimales y otros signos. Puedes agregar preprocesadores personalizados para corregir pronunciaciones problemáticas, como mapear nombres de productos o siglas.

¿Cuáles son las ventajas de gTTS?

gTTS (Google Text-to-Speech) es popular entre desarrolladores porque es liviano, fácil de implementar y se integra bien en flujos de Python. Puede generar MP3 y guardar en archivos, objetos tipo archivo o stdout, lo que lo hace flexible para automatización y scripting. Soporta unos 60 idiomas y varios dialectos mediante idioma y tld. Ofrece CLI (gtts-cli) útil en scripts, además de tokenizadores y preprocesadores personalizables. Su API Python es muy simple y permite añadir voz a notebooks, apps Flask, bots de Discord y proyectos ligeros sin una gran curva de aprendizaje.

¿Cuáles son sus desventajas?

Pese a su simpleza, gTTS tiene límites frente a plataformas modernas de voz con IA. Las voces provienen del TTS estándar de Google Translate: resultan funcionales, pero sin la entonación natural ni el realismo de motores neuronales de texto a voz. No puedes elegir voces distintas ni usar SSML, ni ajustar tono o velocidad de forma detallada. gTTS descarga el MP3 completo antes de reproducir, sin streaming, lo que incrementa la latencia en apps interactivas. Además, como todo depende de una conexión a internet, no funciona offline, por lo cual no es la mejor opción si priorizas fiabilidad o baja latencia.

¿Cuáles son las limitaciones de gTTS para desarrolladores?

1. Límite de uso en un endpoint no documentado

Este es el mayor inconveniente al pasar de "hola mundo". gTTS no publica un cupo porque su backend tampoco lo hace. Normalmente, una IP puede procesar unas cuantas decenas de miles de caracteres por hora antes de que Google devuelva HTTP 429, y el techo exacto varía. Si tu app genera audio para varios usuarios desde un mismo servidor, tarde o temprano te toparás con estos límites sin SLA al cual apelar.

2. El endpoint puede cambiar sin aviso

Como gTTS apunta a una ruta interna de Google Translate y no a una API pública versionada, Google puede romper gTTS de un día para otro cambiando firmas o respuestas. El mantenedor publica un parche, tú

pip install -U gTTS y sigues adelante. Eso alcanza para scripts de hobby. No para una app en producción a las 2 a.m.

3. Frecuencia de mantenimiento

El proyecto sigue sacando versiones (al menos una en los últimos 12 meses), pero el triage es lento y solo hay un principal responsable. Algunos trackers lo marcan como "inactivo". Eso es normal para un software gratis y MIT, pero importa si es una pieza clave en un producto de pago.

4. Ambigüedad comercial y de TOS

Como gTTS usa el frontend de Google Translate en vez de Google Cloud TTS, la licencia del audio generado para uso comercial no está clara. La biblioteca es MIT, pero los audios resultan regidos por los términos de un servicio que no es una API TTS formal. Si tu equipo legal quiere una respuesta clara, gTTS no la da.

5. Datos sensibles salen de tu máquina

Cada texto sintetizado se envía a los servidores de Google. Si generas voz de documentos internos, datos de clientes o contenido de Google Docs y otros almacenamientos, vale la pena preguntarse por la gobernanza de datos antes de desplegar.

¿Cuál es la diferencia entre gTTS y Google Cloud Text-to-Speech?

Aunque a menudo se confunden, gTTS y Google Cloud Text-to-Speech no son lo mismo. Las diferencias son:


gTTS

Google Cloud TTS


Endpoint

Ruta de Google Translate no documentada

API pública versionada y documentada

Auth

Ninguna

Cuenta de servicio / API key

Costo

Gratis

De pago (por carácter)

Voces

Una por idioma

Neuronal (WaveNet, Studio, Chirp)

SSML

No

SLA

Ninguna

SLA pública

Uso comercial

Ambiguo

Licenciado expresamente

Si necesitas la voz Google en producción, lo más recomendable es Google Cloud TTS, no gTTS.

¿Cuándo deberías migrar a una API TTS profesional?

El momento de pasar de gTTS a una API profesional de texto a voz depende de cuán críticos sean la calidad de audio, la fiabilidad y la personalización para tu proyecto. gTTS es ideal para prototipos, proyectos personales, herramientas de accesibilidad, demos educativas y pruebas ligeras porque es simple y gratuito. Pero si lanzas un producto pago, dependes de la calidad de voz o necesitas latencia predecible y SLA, conviene un servicio profesional. También si requieres voces variadas, clonación de voz, SSML, audio en streaming, control detallado de ritmo y pronunciación o licencias claras. Al subir tu proyecto de prueba a producción, estas funciones suelen pasar de opcionales a esenciales.

¿Deberías elegir gTTS o la API de Speechify?

La API de texto a voz de Speechify es un servicio oficial de pago con voces neuronales, varias voces por idioma, SSML y licencias comerciales incluidas, no un wrapper de un endpoint no documentado. Si los límites, la calidad o la ambigüedad de gTTS te frenan, esa migración vale la pena evaluarla.

FAQ

¿gTTS es gratis?

Sí, gTTS es gratis y con licencia MIT, pero si buscas audio comercial y con licencia, necesitarás un servicio pago como la API de Speechify.

¿gTTS funciona sin internet?

No, gTTS necesita conexión porque llama a servidores de Google. Lo mismo ocurre con la API de Speechify, que es un servicio en la nube.

¿Puedo usar gTTS en productos comerciales?

La licencia del audio de gTTS para uso comercial es ambigua porque depende de un endpoint no documentado; la API de Speechify sí brinda licencias comerciales explícitas.

¿Se pueden cambiar voces en gTTS?

No realmente. gTTS ofrece solo una voz por idioma; la API de Speechify sí ofrece un catálogo de voces neuronales.

¿gTTS soporta SSML?

No, gTTS no tiene SSML, ni control de tono ni control detallado de velocidad, pero la API de Speechify sí lo soporta para máximo control de prosodia.

¿Por qué gTTS me da error HTTP 429?

Has superado el límite de uso no documentado de Google Translate; por eso muchos desarrolladores migran a servicios con SLA real como la API de Speechify.

¿gTTS es igual a Google Cloud Text-to-Speech?

No, gTTS usa un endpoint no oficial de Google Translate; Google Cloud TTS es otro producto de pago, y la API de Speechify es otra alternativa paga con voces neuronales.

¿Cuál es la mejor librería Python TTS para producción?

gTTS sirve para prototipos, pero no para producción; en producción suelen preferirse APIs pagas como la API de Speechify.

¿Puede gTTS clonar una voz?

No, la clonación de voz no está soportada en gTTS, pero sí en la API de Speechify.

¿Cómo transmito audio en gTTS?

gTTS no permite streaming en tiempo real, solo devuelve un MP3 terminado; para streaming usa la API de Speechify.


Disfruta de las voces con IA más avanzadas, archivos ilimitados y soporte 24/7

Pruébalo gratis
tts banner for blog

Compartir este artículo

Cliff Weitzman

Cliff Weitzman

Consejero delegado y fundador de Speechify

Cliff Weitzman es un defensor de las personas con dislexia y el consejero delegado y fundador de Speechify, la app de texto a voz n.º 1 del mundo, con más de 100.000 reseñas de 5 estrellas, y situada en el primer puesto de la App Store en la categoría Noticias y revistas. En 2017, Weitzman fue seleccionado para la lista Forbes 30 Under 30 por su labor para hacer que Internet sea más accesible para las personas con dificultades de aprendizaje. Cliff Weitzman ha aparecido en medios como EdSurge, Inc., PC Mag, Entrepreneur y Mashable, entre otros medios de referencia.

speechify logo

Acerca de Speechify

Lector de texto a voz #1

Speechify es la plataforma líder mundial de texto a voz, en la que confían más de 50 millones de usuarios y que cuenta con más de 500.000 reseñas de cinco estrellas en sus aplicaciones de texto a voz para iOS, Android, extensión de Chrome, aplicación web y aplicaciones de escritorio para Mac. En 2025, Apple concedió a Speechify el prestigioso Apple Design Award en la WWDC, describiéndolo como “un recurso fundamental que ayuda a las personas a vivir mejor”. Speechify ofrece más de 1.000 voces naturales en más de 60 idiomas y se utiliza en casi 200 países. Entre sus voces de celebridades destacan Snoop Dogg y Gwyneth Paltrow. Para creadores y empresas, Speechify Studio proporciona herramientas avanzadas, como su generador de voz con IA, clonación de voz con IA, doblaje con IA y su modificador de voz con IA. Speechify también impulsa productos líderes con su API de texto a voz de alta calidad y bajo costo. Destacado en The Wall Street Journal, CNBC, Forbes, TechCrunch y otros medios de comunicación de referencia, Speechify es el mayor proveedor de texto a voz del mundo. Visita speechify.com/news, speechify.com/blog y speechify.com/press para saber más.