Tudo o Que Você Precisa Saber Sobre a API de Texto para Fala do Google Cloud

A IA generativa e a inteligência artificial evoluíram bastante. Texto para fala é um conceito relativamente antigo, já existe há algum tempo. Há muito a explorar e categorizar aqui, e vou detalhar e analisar isso de todos os ângulos. Seja você um iniciante ou um profissional, isso deve trazer clareza geral sobre a API de Texto para Fala do Google.

Ok, antes de mergulharmos em qualquer tópico, é essencial que estabeleçamos as regras básicas. Vamos definir alguns termos e construir nossa base para que possamos nos apoiar firmemente nela.

Vamos separar as duas tecnologias aqui; texto para fala e APIs, e qual é o papel do Google Cloud.

Nota do editor: Procurando a principal API de texto para fala? Confira a bem documentada e fácil de usar API de texto para fala da Speechify.

Texto para Fala

Escrevi extensivamente sobre este tópico e você pode ler meu O que é texto para fala no blog e também ler sobre síntese de fala para ter uma compreensão firme sobre este assunto. Estes vão mais a fundo e você pode pular por enquanto. Vou resumir em algumas frases.

Texto para fala depende de uma tecnologia chamada síntese de fala para converter palavras em fala gerada por IA. Os casos de uso para isso são abundantes. Desde ajudar pessoas com dificuldades de leitura, como dislexia e problemas de visão, até aquelas que simplesmente buscam eficiência.

API

API significa Interface de Programação de Aplicações. Ela simplesmente atua como uma ponte entre duas aplicações. Se você estivesse desenvolvendo um aplicativo que tivesse conteúdo de áudio e precisasse de funcionalidade de texto para fala, então teria que construir essa funcionalidade você mesmo, ou poderia simplesmente se conectar a uma API de texto para fala existente.

Você se concentraria em construir seu aplicativo e confiaria em uma API de terceiros como uma ponte, para importar a funcionalidade de texto para fala para sintetizar seu texto.

API do Google Cloud

É aqui que o Google Cloud entra em cena. O Google desenvolveu uma robusta API de texto para fala e a oferece aos desenvolvedores em várias estruturas de tarifas. Qualquer desenvolvedor que deseje criar aplicativos personalizados ou aplicativos web que exijam funcionalidade de texto para fala pode simplesmente preencher essa lacuna usando os recursos TTS do Google. Sim, TTS é a sigla para texto para fala.

Encontre o início rápido no Google Cloud Console https://cloud.google.com/. Você pode encontrar tutoriais, gerenciar sua conta de serviço, acessar vozes wavenet e muito mais.

O Google Cloud em si é uma plataforma de nuvem oferecida pelo Google e oferece uma série de serviços modulares. Você pode optar por usar um, vários ou todos os seus serviços. Tudo o que você precisaria fazer é criar chaves de acesso para autenticação de cada API - a ponte. A maioria, senão todos, os serviços têm um custo, embora possa haver um limite gratuito.

O Google comprou a DeepMind em 2014 por sua tecnologia de texto para fala e trabalho em desenvolvimento de redes neurais. Então, se você encontrar a DeepMind, agora é Google DeepMind e são todos um só.

Agora que temos uma compreensão sólida, vamos nos aprofundar na API de Texto para Fala do Google Cloud.

Recursos da API de Texto para Fala do Google

O Google é um pioneiro e líder global em tecnologia, não há dúvida sobre isso. Quando se trata da API TTS, você pode esperar encontrar recursos de classe mundial que continuam a evoluir.

Fala de Alta Fidelidade

As vozes de texto para fala do Google estão entre as melhores do setor. Elas soam muito humanas e com entonação natural. TTS está em seus estágios iniciais e aqueles que melhor sintetizarem áudio para soar como uma pessoa falando vão vencer essa corrida.

Seleção de Vozes

O Google afirma ter a mais ampla seleção de vozes, para que seu projeto não precise soar igual aos outros 1000 por aí ou, pior ainda, ao aplicativo do seu concorrente.

Crie Sua Própria Voz

Isso se aproxima da tecnologia de clonagem de voz. Você pode criar sua voz personalizada gravando você ou outra pessoa, com permissão. Você pode então usar essa amostra para ser a voz que lê em voz alta todo o seu texto.

Vozes Neurais

As vozes neurais oferecem a melhor qualidade entre a vasta seleção de vozes. Você também pode internacionalizar essas vozes para expandir seu público internacional.

Vozes de Estúdio

As vozes de estúdio são mais sofisticadas e soam muito profissionais, como se fossem gravadas pelo método tradicional.

Ajuste de Voz

Escolha uma voz e ajuste a velocidade, o tom e mais para personalizar o tom ou a voz.

Quanto custa a API de Texto para Fala do Google?

Tudo se resume à qualidade da voz e ao comprimento do seu texto. Quanto mais natural você quiser que a voz soe, mais caro será. No entanto, caro é relativo aqui. Mesmo as vozes de alta qualidade são relativamente baratas.

Tipo de voz	Grátis por mês	Após atingir o uso gratuito
Vozes Neural2	0 a 1 milhão de bytes	$16 por um milhão de bytes
Vozes Poliglotas	0 a 1 milhão de bytes	$16 por um milhão de bytes
Vozes de Estúdio	0 a 100.000 bytes	$160 por um milhão de bytes
Vozes Padrão	0 a 4 milhões de caracteres	$4 por um milhão de caracteres
Vozes Wavenet	0 a 1 milhão de caracteres	$16 por um milhão de caracteres

Qual é a Diferença Entre Caracteres e Bytes

Como você pode ver, o preço varia significativamente com base na qualidade da voz. A codificação de áudio e o processamento necessários para transformar texto em fala variam de nível para nível. Para os níveis mais baixos, como as Vozes Padrão, o preço é menor e é contado por caracteres.

Isso significa que, se seu projeto tiver 4 milhões de caracteres, custará $16 para converter esses caracteres em fala usando os Caracteres Padrão.

As Vozes de Estúdio, por outro lado, requerem maior poder de processamento e são cobradas com base em bytes. Em alguns idiomas, como o japonês, por exemplo, um único caractere pode ser composto por vários bytes.

Portanto, para obter o preço mais preciso, é importante saber em qual idioma você está trabalhando e ter um entendimento básico da quantidade média de bytes por caractere e estimar isso adequadamente.

Como Configurar Seu Projeto de API de Texto para Fala do Google Cloud Platform?

Crie uma conta no Google Cloud ou faça login nesta página
Crie um novo projeto e nomeie-o adequadamente
Adicione um método de pagamento. Você só será cobrado pelo que usar.
Em seguida, escolha seu projeto e associe-o a uma conta de faturamento.
Ative a API de Texto para Fala. Vá para a barra de pesquisa de produtos e recursos localizada no topo da página e digite "fala".
Nos resultados exibidos, escolha a API de Texto para Fala do Cloud
Configure a autenticação para seu ambiente de desenvolvimento. Para instruções, veja Configurar autenticação para Texto para Fala.

Você também pode experimentar o Texto para Fala sem vinculá-lo ao seu projeto:

Escolha a opção EXPERIMENTE ESTA API.
Para habilitar a API de Texto para Fala para uso com seu projeto, clique em HABILITAR.

Confira a Documentação do Google Cloud para mais ajuda.

Como Desativar a API de Texto para Fala

Para desativar a API de Texto para Fala, vá para o painel do Google Cloud Platform e clique no link "Ir para visão geral das APIs" dentro da caixa de APIs. Localize a API de Texto para Fala e clique nela, seguido de selecionar o botão "DESATIVAR API" no topo da página.

Comece com a API de Texto para Fala do Google

Agora que você configurou seu projeto, pode usar a linha de comando para começar.

gcloud init

Crie autenticação local

gcloud auth application-default login

Agora você pode instalar uma biblioteca cliente. Neste exemplo, veremos o Node.js

npm install --save @google-cloud/text-to-speech

A API de Texto para Fala do Google Cloud Suporta Estes Idiomas:

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Como Funciona a API do Google Cloud?

Tudo começa com uma simples chamada de API. Você envia seu texto em uma chamada de transcrição e então recebe um arquivo de áudio do seu texto falado. Com sua solicitação, você pode fazer requisitos específicos. Escolha uma voz, um idioma e mais, e então a API de texto para fala enviará de volta o arquivo de áudio.

Você pode aprender como instalar e usar as bibliotecas cliente de texto para fala aqui. Nossos exemplos de código serão para Node.js. Mas você pode escolher qualquer outra coisa, de Python a PHP. O que for mais confortável para você.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

E é isso. Você configurou a API de Texto para Fala do Google Cloud e enviou sua primeira solicitação para converter texto em fala. Você pode receber o arquivo de volta em vários formatos; de OGG a MP3.

Aqui Estão Algumas Maneiras de Usar a API de Texto para Fala do Google

A API de Texto para Fala (TTS) do Google oferece uma solução versátil para diversos casos de uso em diferentes indústrias. Alguns casos de uso comuns incluem:

Texto para Fala para Usuários com Deficiência Visual: Implementar TTS em aplicativos para converter conteúdo escrito em palavras faladas, tornando a informação digital acessível para usuários com deficiência visual.
Sistemas Telefônicos Automatizados: Utilizar TTS para criar prompts e respostas com som natural para sistemas de resposta de voz interativa em atendimento ao cliente ou linhas de informação.
Narrações para Conteúdo de Mídia: Gerar narrações com som natural para vídeos, podcasts ou outros conteúdos multimídia para melhorar a experiência do usuário.
Texto para Fala para Conteúdo Traduzido: Converter texto traduzido em palavras faladas para facilitar o aprendizado de idiomas, comunicação internacional ou consumo de conteúdo em vários idiomas.
Assistência de Leitura para Usuários com Dislexia: Fornecer funcionalidade TTS para ajudar indivíduos com dislexia ou dificuldades de leitura a consumir conteúdo escrito.
Navegação por Voz em Aplicativos: Integrar TTS em aplicativos de navegação para fornecer direções passo a passo ou informações baseadas em localização de forma audível.
Texto para Fala para Conteúdo Educacional: Melhorar experiências de e-learning convertendo conteúdo educacional em texto para palavras faladas, auxiliando na compreensão e engajamento.
Síntese de Voz para Aplicativos de Produtividade: Integrar TTS em ferramentas de produtividade, como aplicativos de anotações ou gerenciamento de tarefas, para permitir feedback falado ou recuperação de informações.
Voz Natural para Assistentes Virtuais: Potencializar assistentes de voz com TTS de som natural para melhorar as interações do usuário e fornecer informações de maneira conversacional.
Alertas e Notificações Auditivas: Usar TTS para fornecer alertas audíveis, notificações ou atualizações de status em dispositivos de Internet das Coisas (IoT) para maior conscientização do usuário.

Melhores Alternativas à API de TTS do Google Cloud

Até minha última atualização de conhecimento em janeiro de 2022, existem várias alternativas à API de Texto para Fala do Google. Lembre-se de que a popularidade e as capacidades desses serviços podem ter mudado desde então. Aqui estão algumas alternativas notáveis:

API de Texto para Fala da Speechify: Estamos empolgados em revelar o desenvolvimento de uma API de texto para fala que entrega as vozes de IA mais naturais e queridas da Speechify diretamente para desenvolvedores em todo o mundo. Garanta sua vaga hoje.
Amazon Polly: Oferecido pela Amazon Web Services (AWS), o Polly fornece síntese de fala com som natural em vários idiomas e vozes. Ele se integra bem com outros serviços da AWS.
Microsoft Azure Speech Service: O Azure Speech Service inclui capacidades de Texto para Fala e suporta uma variedade de aplicações, incluindo assistentes de voz, sistemas de navegação e mais.
IBM Watson Texto para Fala: O IBM Watson oferece um serviço de Texto para Fala que permite aos desenvolvedores converter texto escrito em fala com som natural usando várias vozes.
Nuance Communications: A Nuance fornece uma gama de soluções de reconhecimento de fala e voz, incluindo texto para fala, para aplicações em saúde, automotivo e atendimento ao cliente.
CereProc: A CereProc é uma empresa de tecnologia de texto para fala que oferece vozes sintéticas de alta qualidade para aplicações como acessibilidade, entretenimento e comunicação.
iSpeech: A iSpeech fornece serviços de texto para fala baseados em nuvem com suporte para múltiplos idiomas e vozes. É adequado para várias aplicações, incluindo aplicativos móveis e sites.
ResponsiveVoice: O ResponsiveVoice é uma API de texto para fala simples e acessível que suporta múltiplos idiomas e pode ser usada em várias aplicações baseadas na web.
Neospeech: A Neospeech oferece soluções de texto para fala com foco em vozes de som natural. Sua tecnologia é usada em aplicações como e-learning e entretenimento.
ReadSpeaker: O ReadSpeaker fornece soluções de texto para fala online e offline para diversas aplicações, incluindo sites, e-learning e serviços de acessibilidade.
Acapelabox: O Acapela Group oferece uma API de texto para fala baseada em nuvem, o Acapelabox, que suporta múltiplos idiomas e vozes para aplicações em várias indústrias.

Perguntas Frequentes sobre a API de Texto para Fala do Google

O Google possui múltiplos níveis de vozes e quase cada nível tem um limite gratuito. Por exemplo, as vozes padrão são gratuitas até o primeiro milhão de bytes. Depois disso, custa $16 por milhão de bytes. Então sim, pode ser gratuito com caracteres ou bytes limitados.

Basta criar uma conta em https://cloud.google.com/text-to-speech/ e seguir os passos lá. Além disso, descrevi o processo em detalhes neste blog, logo acima.

Você pode obter uma chave de API de texto para fala do Google fazendo login na sua conta do Google Cloud e criando um projeto. Uma vez criado o projeto, você pode gerar uma chave de API.

A URL da API de texto para fala do Google é https://cloud.google.com/text-to-speech/

Tecnicamente, não há um período de teste gratuito para o Google Cloud. Existem múltiplos serviços dentro do Google Cloud e cada serviço tem seus próprios termos e níveis gratuitos.

Não. A API de texto para fala do Google Cloud requer uma conexão com a internet.

A autenticação para serviços do Google Cloud, incluindo a API de Texto para Fala, pode ser feita usando chaves de API, OAuth 2.0 ou contas de serviço. O método de autenticação apropriado depende do caso de uso e do tipo de aplicação.

Eu daria 5 estrelas. É fácil de usar, o recurso de busca é ótimo e é o mais utilizado. O preço é razoável e, no geral, é um ótimo produto.

A API Google Text-to-Speech oferece bibliotecas de cliente para várias linguagens de programação, incluindo Python. Ela também suporta requisições de API RESTful, tornando-a compatível com linguagens que podem fazer requisições HTTP.

Integrar a API Google Text-to-Speech em um aplicativo Android envolve o uso da classe TextToSpeech e a realização de requisições à API. Instruções detalhadas podem ser encontradas na documentação oficial para desenvolvedores Android.

Para implementar a API Google Text-to-Speech em uma aplicação JavaScript, você pode fazer requisições HTTP para o endpoint da API. O processo envolve construir a requisição apropriada para a API e lidar com a resposta no seu código JavaScript. Consulte a documentação oficial para mais detalhes.

Speechify é a principal plataforma de leitura de texto em voz alta do mundo, confiada por mais de 50 milhões de usuários e com mais de 500.000 avaliações cinco estrelas em seus aplicativos de leitura em voz alta para iOS, Android, extensão para Chrome, web app e para Mac. Em 2025, a Apple premiou a Speechify com o prestigiado Apple Design Award na WWDC, chamando a plataforma de “um recurso essencial que ajuda as pessoas a viverem suas vidas.” A Speechify oferece mais de 1.000 vozes naturais em mais de 60 idiomas, sendo usada em quase 200 países. Vozes de celebridades incluem Snoop Dogg e Gwyneth Paltrow. Para criadores e empresas, o Speechify Studio oferece ferramentas avançadas, incluindo Gerador de Voz IA, Clonagem de Voz IA, Dublagem IA e seu Modificador de Voz IA. A Speechify também impulsiona produtos líderes de mercado com sua solução de API de leitura em voz alta de alta qualidade e baixo custo. Destaque em The Wall Street Journal, CNBC, Forbes, TechCrunch e outros grandes veículos de imprensa, a Speechify é a maior provedora de leitura em voz alta do mundo. Acesse speechify.com/news, speechify.com/blog e speechify.com/press para saber mais.