Todo sobre la API de Google Cloud Text to Speech

La IA generativa y la inteligencia artificial han avanzado muchísimo. Texto a voz es un concepto bastante antiguo, ya lleva tiempo. Hay mucho que analizar y desglosar aquí, y lo veré desde todos los ángulos. Seas principiante o experto, esto debería aclarar todo sobre la API de Google Text to Speech.

Antes de profundizar en cualquier tema, debemos sentar las bases. Vamos a definir algunos términos y construir nuestra base para entenderlo bien.

Separaremos aquí las dos tecnologías: texto a voz y API, y el papel de Google Cloud.

Nota del editor: ¿Buscas la mejor API de texto a voz? Echa un vistazo a la API de texto a voz de Speechify, bien documentada y fácil de usar.

Texto a Voz

He escrito mucho sobre este tema y puedes leer mi blog ¿Qué es texto a voz? y también sobre síntesis de voz para profundizar más. Estos artículos van más al detalle, puedes saltarlos por ahora. Los resumiré en unas frases.

El texto a voz usa tecnología de síntesis de voz para convertir palabras en voces generadas por IA. Sus usos son muchos: ayuda a personas con dislexia, baja visión o a mejorar la productividad de cualquiera.

API

API significa Interfaz de Programación de Aplicaciones. Es un puente entre aplicaciones. Si desarrollas una app con contenido de audio y quieres función de texto a voz, podrías crear tu propio sistema o simplemente conectarte a una API de texto a voz existente.

Te concentras en tu app y usas la API de terceros como puente, importando la función de texto a voz para convertir tu texto.

API de Google Cloud

Aquí entra Google Cloud. Google tiene una potente API de texto a voz y la ofrece a desarrolladores con distintos planes. Si quieres crear apps personalizadas o web con función de texto a voz puedes cubrir ese hueco usando la TTS de Google. Sí, TTS son las siglas en inglés de text to speech.

Encuentra la guía rápida en Google Cloud Console https://cloud.google.com/. Hay tutoriales, gestión de cuentas, acceso a voces wavenet y más.

Google Cloud es una plataforma de servicios en la nube de Google, con muchos servicios modulares. Puedes usar uno, varios o todos. Solo necesitas claves de acceso para autenticar cada API, es decir, el puente. Casi todos los servicios son de pago, aunque puede haber un nivel gratuito.

Google compró DeepMind en 2014 por su tecnología de texto a voz y por su trabajo en redes neuronales. Así que si ves DeepMind, ya es Google DeepMind; es lo mismo.

Ya que tenemos una base sólida, sigamos con Google Cloud Text to Speech API.

Funciones de Google Text to Speech API

Google es líder y pionero global, no hay duda. En la API TTS puedes esperar funciones de primer nivel que siguen mejorando.

Voz de alta fidelidad

Las voces de texto a voz de Google están entre las mejores del sector. Suenan muy humanas y naturales. TTS está en sus inicios y quien logre la voz más realista será el ganador.

Variedad de voces

Google ofrece la selección más amplia de voces, así tu proyecto no sonará igual que los otros 1000, ni que las apps competidoras.

Crea tu propia voz

Esto se relaciona con la tecnología de clonación de voz. Puedes crear una voz personalizada grabando la tuya o la de otra persona (con permiso). Así esa voz lee en voz alta todo tu texto.

Voces neuronales

Las voces neuronales tienen la mejor calidad de todas. Además se pueden internacionalizar para llegar a una audiencia global.

Voces de estudio

Las voces de estudio son las voces premium, suenan profesionales, como si fuesen grabadas de forma tradicional.

Ajuste de voz

Elige una voz y ajusta velocidad, tono y más para personalizar el timbre de la voz.

¿Cuánto cuesta la API de Google Text to Speech?

Todo depende de la calidad de voz y la longitud de texto. Cuanto más natural, mayor el costo. Aunque en realidad, incluso las voces premium son económicas.

Tipo de voz	Gratis al mes	Después del uso gratuito
Voces Neural2	0 a 1 millón de bytes	$16 por un millón de bytes
Voces polyglot	0 a 1 millón de bytes	$16 por un millón de bytes
Voces de estudio	0 a 100,000 bytes	$160 por un millón de bytes
Voces estándar	0 a 4 millones de caracteres	$4 por un millón de caracteres
Voces Wavenet	0 a 1 millón de caracteres	$16 por un millón de caracteres

¿Cuál es la diferencia entre caracteres y bytes?

Como ves, el costo varía según la calidad de voz. La codificación y el procesamiento para convertir texto depende del nivel. Para voces estándar, el costo es menor y se mide en caracteres.

Esto significa que si tu proyecto tiene 4 millones de caracteres, costaría $16 convertirlos a voz con las voces estándar.

Las voces de estudio requieren más potencia y se cobran por bytes. En algunos idiomas, como el japonés, un carácter puede tener varios bytes.

Para obtener el precio más preciso, es clave saber el idioma que usas y tener una idea de cuántos bytes tiene cada carácter en promedio.

¿Cómo configurar tu proyecto de Google Cloud Platform Text to Speech API?

Crea una cuenta de Google Cloud o inicia sesión aquí
Crea un proyecto nuevo y asígnale un nombre
Añade un método de pago. Solo pagarás por lo que uses.
Luego elige tu proyecto y asígnalo a una cuenta de facturación.
Activa la API Text-to-Speech. Busca "speech" en la barra de productos y recursos de arriba.
Elige la API Cloud Text-to-Speech de los resultados.
Configura la autenticación en tu entorno de desarrollo. Mira las instrucciones para Text-to-Speech.

También puedes probar Text-to-Speech sin asociarlo a tu proyecto:

Elige la opción PROBAR ESTA API.
Para habilitar Text-to-Speech con tu proyecto, haz clic en HABILITAR.

Consulta la documentación de Google Cloud para más ayuda.

Cómo desactivar la API de texto a voz

Para desactivar la API de Text-to-Speech, ve a tu panel de Google Cloud Platform y haz clic en el enlace "Ir a descripción general de API" dentro del cuadro de API. Busca la API Text-to-Speech y haz clic, luego selecciona "DESACTIVAR API" arriba.

Empieza con Google Text to Speech API

Ya que tienes tu proyecto, puedes usar la línea de comandos para empezar.

gcloud init

Crea autenticación local

gcloud auth application-default login

Ahora instala una biblioteca cliente. En este ejemplo usamos Node.js

npm install --save @google-cloud/text-to-speech

La API Google Cloud Text to Speech admite estos lenguajes:

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

¿Cómo funciona la API de Google Cloud?

Todo empieza con una llamada sencilla a la API. Envías tu texto y recibes un archivo de audio con tu texto hablado. En tu petición puedes indicar voz, idioma, y la API de texto a voz te devuelve el archivo de audio.

Aprende a instalar y usar las bibliotecas cliente de texto a voz aquí. Los ejemplos de código son para Node.js, pero puedes usar desde Python hasta PHP.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

Y eso es todo. Configuraste Google Cloud Text to Speech API y enviaste tu primera solicitud para convertir texto a voz. Puedes recibir el archivo en varios formatos, de OGG a MP3.

Algunas formas de usar la API Google Text to Speech

La API Google Text to Speech (TTS) es muy versátil y sirve para muchos usos en distintas industrias. Algunos ejemplos habituales:

Texto a voz para usuarios con discapacidad visual: TTS en apps para convertir texto en voz, haciendo accesible la info digital para personas con discapacidad visual.
Sistemas telefónicos automáticos: Usar TTS para crear respuestas naturales en sistemas de atención o información.
Locuciones para contenido multimedia: Generar locuciones naturales para videos, podcasts y otros, mejorando la experiencia.
Texto a voz para contenido traducido: Convertir textos traducidos en voz para aprender idiomas o consumir contenido en distintos idiomas.
Ayuda de lectura para dislexia: Ofrecer función TTS a personas con dislexia o dificultades de lectura.
Navegación por voz en apps: Integrar TTS en apps de navegación para dar indicaciones por voz o información de ubicación.
Texto a voz en educación: Potenciar el e-learning convirtiendo textos educativos en voz, ayudando a la comprensión.
Síntesis vocal en apps de productividad: Integrar TTS en apps de notas o tareas, para ofrecer feedback o info hablada.
Voz natural en asistentes virtuales: Dotar a los asistentes de voz TTS natural para mejorar la interacción y la conversación.
Alertas y notificaciones sonoras: Usar TTS para alertas o notificaciones sonoras en IoT y dispositivos inteligentes.

Mejores alternativas a Google Cloud TTS API

Hasta enero de 2022 hay diversas alternativas a Google Text to Speech API. Ten en cuenta que sus capacidades pueden haber cambiado. Aquí algunas destacadas:

Speechify Text to Speech API: Speechify Text to Speech API ofrece más de 1,000 voces realistas y con emociones voces IA en 60+ idiomas y dialectos. Reserva tu lugar hoy.
Amazon Polly: De Amazon Web Services (AWS), Polly ofrece locuciones naturales en distintos idiomas y voces. Se integra con AWS.
Microsoft Azure Speech Service: Azure Speech Service incluye texto a voz y sirve para asistentes de voz, navegación y más.
IBM Watson Text to Speech: IBM Watson ofrece conversión de texto en voz natural usando varias voces.
Nuance Communications: Nuance tiene soluciones de reconocimiento y síntesis de voz, incluido texto a voz para salud, automoción y atención al cliente.
CereProc: CereProc es una empresa de texto a voz que ofrece voces sintéticas de alta calidad para accesibilidad, entretenimiento y comunicación.
iSpeech: iSpeech ofrece servicios cloud de texto a voz con soporte multilingüe, ideal para apps y webs.
ResponsiveVoice: ResponsiveVoice es una API de texto a voz simple y asequible, multilingüe y útil en apps web.
Neospeech: Neospeech ofrece texto a voz con enfoque en voces naturales, usado en e-learning y entretenimiento.
ReadSpeaker: ReadSpeaker ofrece soluciones online y offline de texto a voz para webs, e-learning y accesibilidad.
Acapelabox: Acapela Group ofrece una API de texto a voz cloud, Acapelabox, que soporta varios idiomas y voces para diferentes industrias.

Preguntas frecuentes

Google tiene varios niveles de voz y casi cada uno con límite gratis. Ej: voz estándar es gratis hasta un millón de bytes. Después cuesta $16 por millón. Así que sí, puede ser gratis con límites.

Solo crea una cuenta en https://cloud.google.com/text-to-speech/ y sigue los pasos. También lo resumo en este blog, más arriba.

Puedes obtener una clave API accediendo a Google Cloud y creando un proyecto. Luego podrás generar una clave API.

La URL de Google Text to Speech API es https://cloud.google.com/text-to-speech/

Técnicamente no hay periodo de prueba gratis para Google Cloud. Hay muchos servicios y cada uno tiene sus propios términos y niveles gratuitos.

No. La API Text to Speech de Google Cloud requiere conexión a Internet.

La autenticación en Google Cloud —incluida Text to Speech API— puede hacerse con claves API, OAuth 2.0 o cuentas de servicio. El método depende del caso de uso y la app.

Le doy 5 estrellas. Es fácil de usar, la búsqueda es excelente y es lo más utilizado. El costo es bueno, es un gran producto.

Google Text to Speech API tiene bibliotecas cliente para varios lenguajes, incluido Python. También permite peticiones REST, compatible con cualquier lenguaje que haga solicitudes HTTP.

Integrar Google Text to Speech API en una app Android implica usar la clase TextToSpeech y hacer peticiones a la API. Puedes ver las instrucciones en la documentación oficial para desarrolladores Android.

Para implementar Google Text to Speech API en JavaScript, solo haz peticiones HTTP al endpoint de la API. Construye la solicitud y maneja la respuesta en tu código JS. Consulta la documentación oficial para más detalles.

Speechify es la plataforma líder mundial de texto a voz, en la que confían más de 50 millones de usuarios y que cuenta con más de 500.000 reseñas de cinco estrellas en sus aplicaciones de texto a voz para iOS, Android, extensión de Chrome, aplicación web y aplicaciones de escritorio para Mac. En 2025, Apple concedió a Speechify el prestigioso Apple Design Award en la WWDC, describiéndolo como “un recurso fundamental que ayuda a las personas a vivir mejor”. Speechify ofrece más de 1.000 voces naturales en más de 60 idiomas y se utiliza en casi 200 países. Entre sus voces de celebridades destacan Snoop Dogg y Gwyneth Paltrow. Para creadores y empresas, Speechify Studio proporciona herramientas avanzadas, como su generador de voz con IA, clonación de voz con IA, doblaje con IA y su modificador de voz con IA. Speechify también impulsa productos líderes con su API de texto a voz de alta calidad y bajo costo. Destacado en The Wall Street Journal, CNBC, Forbes, TechCrunch y otros medios de comunicación de referencia, Speechify es el mayor proveedor de texto a voz del mundo. Visita speechify.com/news, speechify.com/blog y speechify.com/press para saber más.