Tudo sobre a API Google Cloud Text to Speech

A IA generativa e a Inteligência Artificial evoluíram muito. Text to speech é um conceito antigo e já existe há tempos. Tem muita coisa para explicar aqui, vou destrinchar e analisar de todos os ângulos. Seja você iniciante ou já avançado, este guia traz clareza sobre a API do Google Text to Speech.

Antes de mergulhar no assunto, precisamos definir algumas regras básicas. Vamos explicar termos e construir a base para facilitar o entendimento.

Vamos separar as duas tecnologias aqui: text to speech e APIs, e qual é o papel do Google Cloud.

Nota do editor: Procurando a principal API de texto para fala? Veja a API bem documentada e fácil de usar da Speechify.

Text to Speech

Já escrevi bastante sobre esse tema; você pode conferir meu blog sobre o que é text to speech e também sobre síntese de voz para entender melhor. Esses conteúdos são mais aprofundados, então pode pular por enquanto. Vou resumir em poucas frases.

Text to speech usa uma tecnologia chamada síntese de voz para transformar palavras em fala gerada por IA. Os usos são muitos: desde ajudar pessoas com dificuldades de leitura, como dislexia e baixa visão, até quem busca mais eficiência.

API

API significa Interface de Programação de Aplicações. Ela funciona como uma ponte entre aplicativos. Se estiver criando um app com áudio e precisar de text to speech, pode implementar a funcionalidade ou conectar a uma API de texto para fala já pronta.

Você foca em criar seu app e usa a API de terceiros como ponte para adicionar text to speech.

API Google Cloud

Aqui entra o Google Cloud. O Google criou uma API robusta de texto para fala e oferece diferentes planos. Qualquer desenvolvedor pode usar o TTS do Google para apps personalizados. Sim, TTS quer dizer Text to Speech.

Encontre o tutorial rápido no Google Cloud Console https://cloud.google.com/. Lá você encontra tutoriais, gestão de conta, acesso às vozes wavenet e mais.

O Google Cloud é uma plataforma em nuvem do Google com vários serviços modulares. Você pode usar só um, alguns ou todos. Basta criar chaves de acesso para autenticar cada API (a ponte). A maioria dos serviços é paga, mas pode haver cota grátis.

O Google comprou a DeepMind em 2014 pela tecnologia de texto para fala e pelo trabalho em redes neurais. Se encontrar DeepMind, agora é Google DeepMind – é tudo da mesma empresa.

Agora que entendemos tudo, vamos nos aprofundar na Google Cloud Text to Speech API.

Recursos da Google Text to Speech API

O Google é referência mundial em tecnologia. Na API TTS, espere recursos de altíssimo nível que seguem evoluindo.

Vozes de Alta Fidelidade

As vozes de text to speech do Google estão entre as melhores do mercado. São bem naturais e com entonação humana. A TTS está só começando, e quem gerar áudio mais realista vai sair na frente.

Variedade de Vozes

O Google oferece a maior variedade de vozes, então seu projeto não ficará igual aos outros ou até dos concorrentes.

Crie sua Própria Voz

Isso envolve tecnologia de clonagem de voz. Grave você mesmo ou outra pessoa (com permissão) e use como voz personalizada para ler seus textos.

Vozes Neurais

As vozes neurais têm a melhor qualidade e podem ser internacionalizadas para ampliar seu público global.

Vozes de Estúdio

Vozes de estúdio são topo de linha e soam profissionais, como gravações tradicionais.

Ajuste de Voz

Escolha uma voz e ajuste velocidade, tom e outros detalhes para customizar como quiser.

Quanto custa a Google Text to Speech API?

Tudo depende da qualidade da voz e do tamanho do texto. Quanto mais natural for a voz, maior será o preço. Mas, caro é relativo: mesmo as vozes premium são acessíveis.

Tipo de voz	Grátis/mês	Após o uso grátis
Vozes Neural2	0 a 1 milhão bytes	$16 por milhão de bytes
Vozes Polyglot	0 a 1 milhão bytes	$16 por milhão de bytes
Vozes de estúdio	0 a 100.000 bytes	$160 por milhão bytes
Vozes padrão	0 a 4 milhões caracteres	$4 por milhão caracteres
Vozes Wavenet	0 a 1 milhão caracteres	$16 por milhão caracteres

Qual a Diferença Entre Caracteres & Bytes?

Como visto, o preço muda bastante conforme a qualidade da voz. A codificação e o processamento para transformar texto em fala variam. As vozes padrão são contadas por caracteres e por isso custam menos.

Se seu projeto tiver 4 milhões de caracteres, o custo será $16 para converter usando vozes padrão.

Já as vozes de estúdio exigem mais processamento e são cobradas em bytes. Em línguas como japonês, um único caractere pode ter vários bytes.

Para um valor exato, saiba qual idioma está usando e estime a média de bytes por caractere.

Como Configurar seu Projeto Google Cloud Text to Speech API?

Crie uma conta Google Cloud ou faça login aqui
Crie um novo projeto e dê a ele um nome apropriado
Adicione um método de pagamento. Você só paga pelo que usar.
Associe o projeto à conta de cobrança.
Ative a Text-to-Speech API. Procure por "speech" na barra de pesquisa de produtos no topo da página.
Nos resultados, escolha Cloud Text-to-Speech API
Configure a autenticação do seu ambiente de desenvolvimento. Para instruções, veja Como configurar autenticação de Text-to-Speech.

Você também pode testar Text-to-Speech sem vincular ao seu projeto:

Escolha a opção TESTAR ESTA API.
Para ativar a API Text-to-Speech no projeto, clique em ATIVAR.

Veja a Documentação Google Cloud para mais ajuda.

Como Desativar a API Text to Speech

Para desativar a API Text-to-Speech, acesse o painel do Google Cloud, clique em "Visão geral das APIs" no box de APIs. Ache a API Text-to-Speech e clique; depois selecione "DESATIVAR API" no topo da página.

Comece a Usar a Google Text to Speech API

Com seu projeto configurado, você já pode começar pelo terminal.

gcloud init

Crie a autenticação local

gcloud auth application-default login

Agora instale a biblioteca cliente. Exemplo com Node.js:

npm install --save @google-cloud/text-to-speech

Linguagens com suporte da Google Cloud Text to Speech API:

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Como Funciona a Google Cloud API?

Tudo começa com uma chamada de API simples. Envie seu texto na requisição e receba o arquivo de áudio com a fala. Você pode definir preferências: voz, idioma, etc. A API de texto para fala devolve o áudio para você.

Aprenda como instalar e usar as bibliotecas clientes de text to speech aqui. Usamos exemplos com Node.js, mas você pode escolher Python, PHP e outros.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

Pronto. Você configurou a Google Cloud Text to Speech API e fez sua primeira requisição. Pode receber o arquivo em diferentes formatos: OGG ou MP3.

Maneiras de Usar a Google Text to Speech API

A API de texto para fala do Google oferece soluções versáteis para vários mercados e usos. Veja alguns exemplos comuns:

Text to Speech para Deficientes Visuais: Transforme conteúdo escrito em fala, tornando info digital acessível para usuários com deficiência visual.
Sistemas Telefônicos Automatizados: Gere prompts e respostas naturais para centrais de atendimento e IVR.
Vozes para Mídias: Gere voice-overs naturais para vídeos, podcasts, etc., melhorando a experiência do usuário.
Text to Speech para Conteúdos Traduzidos: Converta texto traduzido em fala para facilitar aprendizagem de idiomas, comunicação global e consumo de conteúdo.
Apoio de Leitura para Disléxicos: Ofereça leitura em voz alta para pessoas com dislexia ou dificuldades de leitura.
Navegação por Voz: Integre TTS em apps de navegação/locais para instruções faladas.
Text to Speech em Educação: Potencialize e-learning lendo conteúdos em voz alta, ajudando na compreensão.
Síntese de voz em Apps de Produtividade: Use TTS para feedback falado em apps de anotações, listas e afins.
Voz Natural em Assistentes Virtuais: Potencialize assistentes com TTS natural para interações melhores.
Alertas Sonoros: Use TTS para alertas audíveis ou notificações em dispositivos IoT, chamando mais atenção.

Principais Alternativas à Google Cloud TTS API

Até janeiro de 2022, existiam várias alternativas à API Google Text to Speech. A popularidade e as funções podem ter mudado desde então. Confira algumas opções:

Speechify Text to Speech API: Speechify Text to Speech API oferece mais de 1.000 vozes realistas e emocionais de IA em 60+ idiomas e dialetos regionais. Garanta já sua vaga.
Amazon Polly: Serviço da Amazon Web Services (AWS), Polly entrega síntese de fala natural em vários idiomas e vozes. Integra com outros serviços AWS.
Microsoft Azure Speech Service: O serviço Azure Speech inclui Text to Speech e suporta várias aplicações, como assistentes, navegação e mais.
IBM Watson Text to Speech: O IBM Watson converte textos em vozes naturais com várias opções de voz.
Nuance Communications: A Nuance oferece soluções de voz, reconhecimento e text to speech para saúde, automotivo e atendimento.
CereProc: A CereProc é focada em tecnologias de text to speech com vozes sintéticas de alta qualidade para acessibilidade, entretenimento e comunicação.
iSpeech: O iSpeech tem serviços cloud para text to speech em vários idiomas e vozes – ideal para apps e sites.
ResponsiveVoice: API simples e acessível de text to speech multi-idiomas para aplicações web.
Neospeech: A Neospeech foca em vozes naturais para text to speech, usada em e-learning e entretenimento.
ReadSpeaker: Oferece soluções online/offline de TTS para sites, e-learning e acessibilidade.
Acapelabox: A Acapela Group possui a API Acapelabox em nuvem, com suporte a diversas vozes e idiomas em vários setores.

FAQ

O Google tem vários tipos de voz e basicamente cada um tem um limite gratuito. Por exemplo, vozes padrão são grátis até 1 milhão de bytes. Depois disso, $16 por milhão de bytes. Ou seja, pode ser grátis até certo limite.

Basta criar uma conta em https://cloud.google.com/text-to-speech/ e seguir o passo a passo. Também expliquei o processo acima neste blog.

Para obter sua chave API, entre na sua conta Google Cloud e crie um projeto. Depois de criar, gere a chave API.

A URL da API Google Text to Speech é https://cloud.google.com/text-to-speech/

Tecnicamente, o Google Cloud não tem um período único de teste grátis. Cada serviço tem seus próprios termos e cotas gratuitas.

Não. A API de texto para fala do Google Cloud precisa de internet.

A autenticação no Google Cloud, incluindo a API de Text to Speech, pode ser feita por chave API, OAuth 2.0 ou contas de serviço. Depende do app e da situação.

Dou 5 estrelas. Fácil de usar, busca eficiente e é bem difundido. O custo é justo e, no geral, é um ótimo produto.

A API oferece bibliotecas para várias linguagens, incluindo Python. Também aceita requisições REST, então pode ser usada por praticamente qualquer linguagem.

No Android, use a classe TextToSpeech e faça requisições de API. Detalhes completos estão na documentação oficial para desenvolvedores Android.

Para usar a Google Text to Speech API em JavaScript, faça requisições HTTP para a API. Monte o request e trate a resposta no seu código JS. Detalhes na documentação oficial.

Speechify é a principal plataforma de texto para fala do mundo, confiável por mais de 50 milhões de usuários e com mais de 500.000 avaliações cinco estrelas em suas versões para iOS, Android, extensão para Chrome, web app e aplicativos para Mac desktop. Em 2025, a Apple premiou a Speechify com o prestigiado Apple Design Award na WWDC, chamando-a de “um recurso essencial que ajuda as pessoas a viverem melhor”. A Speechify oferece mais de 1.000 vozes naturais em mais de 60 idiomas e é usada em quase 200 países. As vozes de celebridades incluem Snoop Dogg e Gwyneth Paltrow. Para criadores e empresas, o Speechify Studio oferece ferramentas avançadas, incluindo o Gerador de Voz IA, Clonagem de Voz IA, Dublagem de IA e seu próprio Alterador de Voz IA. A Speechify também integra grandes produtos com sua API de texto para fala de alta qualidade e custo acessível. Em destaque no The Wall Street Journal, CNBC, Forbes, TechCrunch e outros grandes veículos de mídia, a Speechify é a maior provedora de texto para fala do mundo. Visite speechify.com/news, speechify.com/blog e speechify.com/press para saber mais.

Tudo sobre a API Google Cloud Text to Speech

Cliff Weitzman

A API Speechify oferece latência de 300 ms, vozes com qualidade humana e mais de 50 idiomas