Tudo o que você precisa saber sobre a API Google Cloud Text to Speech

A IA generativa e a inteligência artificial já avançaram muito. A conversão de texto em fala (text to speech) é um conceito relativamente antigo, já existe há um tempo. Há muitos detalhes para analisar e categorizar aqui, e vou destrinchar esse tema para olharmos de todos os ângulos. Seja você um iniciante ou profissional, isso deve dar uma visão geral sobre a API do Text to Speech do Google.

Certo, antes de mergulharmos em qualquer tópico, é fundamental estabelecermos as regras básicas. Vamos definir alguns termos e construir nossa base para seguirmos com segurança.

Vamos separar as duas tecnologias aqui: Text to Speech e APIs, e entender qual é o papel do Google Cloud.

Nota do editor: Procurando a principal API de texto para fala? Confira a API de texto para fala do Speechify, bem documentada e fácil de usar text to speech API.

Texto para fala (Text to Speech)

Já escrevi bastante sobre esse tema e você pode ler meu O que é texto para fala no blog e também conferir síntese de fala para entender profundamente o assunto. Eles vão mais a fundo e você pode pular por enquanto. Aqui, vou resumir em algumas frases.

A conversão de texto em fala é baseada em uma tecnologia chamada síntese de fala, que transforma palavras em voz gerada por IA. Os casos de uso são inúmeros, desde auxiliar pessoas com dislexia, baixa visão ou outras barreiras de leitura, até quem apenas busca mais eficiência.

API

API significa Interface de Programação de Aplicações (do inglês Application Programming Interface). Ela funciona como uma ponte entre dois sistemas. Se você está desenvolvendo um app com conteúdo em áudio e precisa da funcionalidade de texto para fala, teria que criar isso do zero ou simplesmente se conectar a uma API já existente de texto para fala.

Assim, você pode focar no desenvolvimento do seu app e usar uma API de terceiros como ponte, para importar a funcionalidade de texto para fala e sintetizar o seu texto.

API Google Cloud

É aqui que entra o Google Cloud. O Google desenvolveu uma poderosa API de texto para fala e oferece isso aos desenvolvedores em vários modelos de cobrança. Qualquer desenvolvedor que queira criar apps personalizados, web apps ou produtos que dependem dessa funcionalidade pode usar os recursos de TTS (Text to Speech) do Google para suprir a necessidade. Sim, TTS significa texto para fala.

Encontre o guia rápido no Google Cloud Console em https://cloud.google.com/. Você pode acessar tutoriais, gerenciar sua conta de serviço, acessar vozes Wavenet e muito mais.

O Google Cloud em si é uma plataforma em nuvem oferecida pelo Google, com um conjunto de serviços modulares. Você pode escolher usar um, vários ou todos esses serviços. Para cada API - essa ponte - basta criar chaves de acesso e realizar a autenticação necessária. A maioria dos serviços é paga (alguns têm limites gratuitos).

O Google comprou a DeepMind em 2014 por sua tecnologia de texto para fala e desenvolvimento de redes neurais. Portanto, se você ouvir falar em DeepMind, agora é Google DeepMind, tudo parte da mesma empresa.

Agora que temos uma boa base, vamos nos aprofundar na API Google Cloud Text to Speech.

Funcionalidades da API Google Text to Speech

O Google é pioneiro e líder global em tecnologia, isso é indiscutível. No caso da API TTS, você pode esperar recursos de primeira linha que continuam evoluindo.

Voz de alta fidelidade

As vozes de texto para fala do Google estão entre as melhores do setor. Elas soam muito naturais, com entonação semelhante à humana. O TTS ainda está em seus estágios iniciais e quem conseguir sintetizar o áudio para soar mais humano, leva vantagem nessa corrida.

Seleção de vozes

O Google diz oferecer a seleção mais ampla de vozes, então seu projeto não precisa soar igual a outros 1000 por aí – ou pior, igual ao app do seu concorrente.

Crie sua própria voz

Isso se aproxima da tecnologia de clonagem de voz. Você pode criar uma voz personalizada gravando sua voz ou de outra pessoa (com consentimento). Depois, é possível usar esse exemplo como a voz padrão para leitura dos textos.

Vozes neurais

As vozes neurais oferecem a melhor qualidade dentro da grande variedade de vozes. Também é possível internacionalizar essas vozes e, assim, ampliar sua audiência global.

Vozes de estúdio

As vozes de estúdio são ainda mais avançadas e soam extremamente profissionais, como se fossem gravadas pelos métodos tradicionais.

Ajuste de voz

Escolha uma voz e ajuste a velocidade, o tom e outros parâmetros para personalizar o estilo ou o timbre da voz.

Quanto custa a API Google Text to Speech?

Tudo depende da qualidade da voz e do tamanho do seu texto. Quanto mais natural você quiser que a voz soe, maior será o custo. Apesar de tudo, caro aqui é relativo: mesmo as vozes de alta qualidade têm um preço baixo.

Tipo de voz	Grátis por mês	Após atingir o uso gratuito
Vozes Neural2	0 a 1 milhão de bytes	US$ 16 por cada milhão de bytes
Vozes Poliglotas	0 a 1 milhão de bytes	US$ 16 por cada milhão de bytes
Vozes de Estúdio	0 a 100.000 bytes	US$ 160 por cada milhão de bytes
Vozes Padrão	0 a 4 milhões de caracteres	US$ 4 por cada milhão de caracteres
Vozes Wavenet	0 a 1 milhão de caracteres	US$ 16 por cada milhão de caracteres

Qual a diferença entre caracteres e bytes?

Como você pode ver, a cobrança varia bastante de acordo com a qualidade da voz. A codificação e o processamento de áudio necessários para transformar texto em fala também mudam de um nível para outro. No caso das vozes padrão, por exemplo, a cobrança é mais baixa e feita por caracteres.

Ou seja, se seu projeto tem 4 milhões de caracteres, custaria US$ 16 para transformar esses caracteres em fala usando as Vozes Padrão.

Já as Vozes de Estúdio exigem maior processamento e são cobradas por bytes. Em alguns idiomas, como o japonês, por exemplo, um único caractere pode ser composto por vários bytes.

Por isso, para um cálculo mais preciso é importante saber qual idioma você está utilizando e ter uma noção básica de quantos bytes, em média, cada caractere possui para fazer a estimativa corretamente.

Como configurar seu projeto Google Cloud Platform Text to Speech API?

Crie uma conta no Google Cloud ou faça login nesta página
Crie um novo projeto e dê um nome apropriado
Adicione uma forma de pagamento. Você só vai pagar pelo que usar.
Em seguida, escolha seu projeto e associe-o a uma conta de faturamento.
Ative a API Text-to-Speech. Vá até a barra de pesquisa de produtos e recursos no topo da página e digite "speech".
Nos resultados que aparecerem, selecione a Cloud Text-to-Speech API
Configure a autenticação do seu ambiente de desenvolvimento. Para instruções, veja Como configurar a autenticação para Text-to-Speech.

Você também pode testar o Text-to-Speech sem vinculá-lo ao seu projeto:

Escolha a opção TENTE ESTA API.
Para habilitar a API Text-to-Speech no seu projeto, clique em HABILITAR.

Consulte a Documentação do Google Cloud para mais informações.

Como desativar a API Text to Speech

Para desativar a API Text-to-Speech, acesse o painel do Google Cloud Platform e clique no link “Ir para visão geral das APIs” dentro do bloco de APIs. Localize a API Text-to-Speech e clique nela, depois clique no botão “DESATIVAR API” no topo da página.

Comece a usar a API Google Text to Speech

Agora que seu projeto está configurado, você pode começar pelo terminal.

gcloud init

Crie a autenticação local

gcloud auth application-default login

Agora você pode instalar uma biblioteca cliente. Neste exemplo, vamos ver o Node.js

npm install --save @google-cloud/text-to-speech

A API Google Cloud Text to Speech suporta esses idiomas:

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Como funciona a API Google Cloud?

Tudo começa com uma simples chamada de API. Você envia o seu texto em uma solicitação de transcrição e depois recebe um arquivo de áudio com a fala. Nessa solicitação, é possível definir requisitos específicos, como voz, idioma e outros, e a API de texto para fala retorna o áudio conforme os parâmetros.

Você pode aprender como instalar e usar as bibliotecas cliente de texto para fala aqui. Nossos exemplos de código serão em Node.js, mas você pode escolher qualquer outra linguagem, como Python ou PHP. Fique à vontade para usar a linguagem de sua preferência.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

E é isso. Agora você configurou a API Google Cloud Text to Speech e enviou sua primeira solicitação para converter texto em fala. Você pode receber o arquivo de áudio em vários formatos: OGG, MP3, entre outros.

Veja algumas maneiras de usar a API Google Text to Speech

A API Google Text-to-Speech (TTS) oferece uma solução versátil para diversos casos de uso em diferentes setores. Alguns exemplos de uso incluem:

Texto para fala para usuários com deficiência visual: Implementação em apps para converter conteúdo escrito em palavras faladas e facilitar o acesso à informação digital para pessoas com deficiência visual.
Sistemas telefônicos automatizados: Utilização do TTS para criar mensagens e respostas sonoras naturais para centrais de atendimento e linhas de informação.
Narração para conteúdo de mídia: Geração de narrações naturais para vídeos, podcasts ou outros conteúdos multimídia, tornando a experiência do usuário mais rica.
Texto para fala em conteúdos traduzidos: Conversão de textos traduzidos em fala para facilitar aprendizado de idiomas, comunicação internacional ou consumo de conteúdos em múltiplos idiomas.
Leitura assistida para dislexia: Disponibilização de TTS para auxiliar pessoas com dislexia ou dificuldades de leitura no consumo de textos.
Navegação por voz em aplicativos: Integração do TTS em apps de navegação para fornecer instruções sonoras e informações de localização em áudio.
Texto para fala em conteúdo educacional: Melhora a experiência em e-learning, convertendo materiais em texto para formato falado, auxiliando na compreensão e no engajamento.
Síntese de voz para apps de produtividade: Integração do TTS em ferramentas de produtividade, como apps de anotações ou gerenciamento de tarefas, para feedback sonoro ou leitura de informações.
Voz natural para assistentes virtuais: Uso de TTS de som natural em assistentes de voz, melhorando a interação e tornando o diálogo mais fluido e natural.
Alertas sonoros e notificações: Utilização do TTS para emitir alertas, notificações ou atualizações em dispositivos IoT, trazendo mais praticidade ao usuário.

Melhores alternativas à API Google Cloud TTS

Até minha última atualização de conhecimento em janeiro de 2022, havia várias alternativas à API Google Text-to-Speech. Vale ressaltar que a popularidade e os recursos desses serviços podem ter mudado desde então. Veja algumas das principais alternativas:

Speechify Text to Speech API: Estamos empolgados em apresentar o desenvolvimento de uma API de texto para fala que oferece as vozes de IA mais naturais e queridas do Speechify diretamente para desenvolvedores do mundo todo. Reserve sua vaga hoje.
Amazon Polly: Disponibilizada pela Amazon Web Services (AWS), a Polly oferece síntese de fala natural em vários idiomas e vozes, com integração com outros serviços AWS.
Microsoft Azure Speech Service: O Azure Speech Service inclui recursos de texto para fala e suporta diferentes aplicações, incluindo assistentes de voz, sistemas de navegação, entre outros.
IBM Watson Text to Speech: O IBM Watson oferece um serviço de texto para fala que permite aos desenvolvedores converter texto escrito em fala natural utilizando várias vozes.
Nuance Communications: A Nuance fornece soluções de reconhecimento e síntese de fala para áreas como saúde, automotivo e atendimento ao cliente.
CereProc: A CereProc é uma empresa de tecnologia de texto para fala que oferece vozes sintéticas de alta qualidade para acessibilidade, entretenimento e comunicação.
iSpeech: A iSpeech oferece serviços de texto para fala na nuvem, suportando múltiplos idiomas e vozes, adequada para aplicativos móveis e web.
ResponsiveVoice: A ResponsiveVoice traz uma API simples e acessível de texto para fala, com suporte a vários idiomas e integração fácil em soluções web.
Neospeech: A Neospeech oferece soluções de texto para fala com foco em vozes naturais, usadas em e-learning e entretenimento.
ReadSpeaker: A ReadSpeaker fornece soluções online e offline de texto para fala para sites, e-learning e acessibilidade.
Acapelabox: O Acapela Group disponibiliza a Acapelabox, uma API de texto para fala baseada em nuvem, com suporte a múltiplos idiomas e vozes para várias indústrias.

Perguntas frequentes sobre a API Google Text to Speech

O Google possui vários níveis de voz e quase todos têm um limite gratuito. Por exemplo, as vozes padrão são gratuitas até o primeiro milhão de bytes. Depois disso, o valor é de US$ 16 por milhão de bytes. Ou seja, pode ser gratuito com limitação de caracteres ou bytes.

Basta criar uma conta em https://cloud.google.com/text-to-speech/ e seguir as etapas disponíveis lá. Também expliquei todo o processo detalhadamente neste blog, logo acima.

Você pode obter uma chave de API Google Text to Speech acessando sua conta Google Cloud e criando um projeto. Após criar o projeto, é possível gerar uma chave de API.

A URL da API Google Text to Speech é https://cloud.google.com/text-to-speech/

Tecnicamente o Google Cloud não tem um período de teste gratuito. Existem vários serviços dentro do Google Cloud, e cada um tem suas próprias regras e limites gratuitos.

Não. A API Google Cloud Text to Speech requer conexão à internet.

A autenticação nos serviços do Google Cloud, incluindo a API Text-to-Speech, pode ser feita usando chaves de API, OAuth 2.0 ou contas de serviço. O método ideal depende do caso de uso e do tipo de aplicação.

Eu daria nota 5 estrelas. É fácil de usar, o recurso de pesquisa é ótimo e muito utilizado. Os preços são justos e, no geral, é um ótimo produto.

A API Google Text-to-Speech fornece bibliotecas cliente para várias linguagens de programação, incluindo Python. Ela também aceita requisições REST, o que permite integração por qualquer linguagem capaz de realizar chamadas HTTP.

A integração da API Google Text-to-Speech em aplicativos Android envolve o uso da classe TextToSpeech e o envio de requisições para a API. Instruções detalhadas podem ser encontradas na documentação oficial do Android para desenvolvedores.

Para implementar a API Google Text-to-Speech em um app JavaScript, basta realizar requisições HTTP para o endpoint da API. O processo envolve construir a requisição apropriada e tratar a resposta no seu código JavaScript. Consulte a documentação oficial para mais detalhes.

Speechify é a principal plataforma de texto para fala do mundo, confiável por mais de 50 milhões de usuários e com mais de 500.000 avaliações cinco estrelas em suas versões para iOS, Android, extensão para Chrome, web app e aplicativos para Mac desktop. Em 2025, a Apple premiou a Speechify com o prestigiado Apple Design Award na WWDC, chamando-a de “um recurso essencial que ajuda as pessoas a viverem melhor”. A Speechify oferece mais de 1.000 vozes naturais em mais de 60 idiomas e é usada em quase 200 países. As vozes de celebridades incluem Snoop Dogg e Gwyneth Paltrow. Para criadores e empresas, o Speechify Studio oferece ferramentas avançadas, incluindo o Gerador de Voz IA, Clonagem de Voz IA, Dublagem de IA e seu próprio Alterador de Voz IA. A Speechify também integra grandes produtos com sua API de texto para fala de alta qualidade e custo acessível. Em destaque no The Wall Street Journal, CNBC, Forbes, TechCrunch e outros grandes veículos de mídia, a Speechify é a maior provedora de texto para fala do mundo. Visite speechify.com/news, speechify.com/blog e speechify.com/press para saber mais.