O que é gTTS?
gTTS é uma biblioteca Python open-source e uma ferramenta de linha de comando que converte texto em áudio MP3, usando o endpoint de texto para fala do Google Translate. Você pode salvar o resultado em um arquivo, em um objeto similar a arquivo para pós-processamento ou diretamente no stdout. Criado por Pierre Nicolas Durette e distribuído sob licença MIT, é um dos pacotes de TTS mais baixados do PyPI, com cerca de 175.000 downloads semanais. Se você já precisou transformar um texto em MP3 em três linhas de Python, gTTS provavelmente foi a primeira opção que apareceu.
Mas é importante notar que gTTS não é o Google Cloud Text-to-Speech. Ele utiliza o mesmo backend não documentado que aciona o botão “Ouvir” no Google Tradutor. Essa diferença muda tudo: em que o gTTS se destaca, onde falha e quando você deve procurar outra solução.

Quando usar o gTTS?
Use gTTS se precisar de prototipagem grátis e rápida, criar MP3s a partir de texto em uma linha, demos multilíngues, projetos pessoais, exemplos para sala de aula ou um script de acessibilidade que lê um arquivo exportado do Google Docs em voz alta. Não use gTTS se precisar de confiabilidade para produção, SLA documentado, clonagem de voz, controle SSML, vozes neurais ou expressivas, streaming de áudio ou licença comercial clara.
Como o gTTS funciona?
O gTTS não sintetiza voz localmente. Ele faz uma requisição ao backend responsável pelo “Ouvir” do Google Tradutor, baixa o MP3 gerado e retorna os bytes para você. Por isso, exige internet ativa, pois não há modo offline, e o áudio é criado nos servidores do Google, não no seu computador. O endpoint é não oficial, o projeto não é afiliado ao Google e mudanças podem quebrá-lo sem aviso.
Instalação
bash
pip install gTTS
gTTS exige Python 3.7+ e funciona no macOS, Windows e Linux. A versão atual do PyPI é 2.5.4 (novembro 2024). Em sistemas Debian e Raspberry Pi OS, atenção ao nome: no pip é gTTS, no apt é python3-gtts. Se pip install falhar com erro externally-managed-environment, instale em um ambiente virtual.
Uso Básico
Exemplo mínimo:
python
from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")
Na Linha de Comando:
bash
gtts-cli "hello" --output hello.mp3
Escolhendo idioma e sotaque
python
tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")
gTTS também permite sub-etiquetas regionais via parâmetro tld, por exemplo
tld="co.uk" para inglês britânico ou tld="ca" para francês canadense — muda o domínio do Google Translate usado.
Modo Lento
python
tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")
Esse é praticamente todo o controle sobre a fala. Não há parâmetro de pitch, nem ajuste de velocidade além de slow=True, nem escolha de voz, nem SSML.
Transmitindo para Buffer ao invés de disco
python
from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# now feed buf into pydub, ffmpeg, a web response, etc.
Pré-processamento e texto longo
Um dos melhores recursos de engenharia do gTTS é o tokenizador. Ele divide entradas longas em blocos aceitos pelo backend (limitado a cerca de 100 caracteres por requisição), mantém entonação entre blocos e lida com abreviações, decimais e pontuações especiais. Dá para incluir pré-processadores customizados para corrigir pronúncias recorrentes — por exemplo, adaptar nomes de produto ou siglas para versões fonéticas.
Quais são as vantagens do gTTS?
gTTS (Google Text-to-Speech) é popular entre desenvolvedores por ser leve e fácil de implementar e integrar no Python. Pode gerar arquivos MP3, salvar em arquivos, objetos tipo arquivo ou stdout, sendo flexível para automação e scripts. Suporta cerca de 60 idiomas e dialetos diferentes via opções de linguagem e TLD. Tem CLI (gtts-cli), funciona bem em shell scripts e permite customizar tokenizadores e pré-processadores para abreviações, números e substituições de texto. A API Python simples facilita adicionar voz a Jupyter notebooks, apps Flask, bots do Discord e outros projetos leves sem grande curva de aprendizado.
Quais são as desvantagens do gTTS?
Apesar da simplicidade, o gTTS tem limitações em relação a plataformas de voz com IA modernas. As vozes são padrão do Google Translate — funcionais, mas sem a entonação natural, emoção ou realismo das vozes neurais novas de texto para fala. Não é possível escolher estilos de voz por idioma, nem controles avançados como suporte SSML, ajuste de pitch ou controle preciso de velocidade. É preciso baixar o MP3 completo antes de reproduzir, sem streaming em tempo real, o que pode gerar atrasos em apps interativos. Além disso, cada requisição depende de internet, impedindo uso offline e tornando o gTTS inadequado para casos críticos de confiabilidade ou latência baixa.
Quais são as limitações do gTTS para desenvolvedores?
1. Limite de uso em endpoint não documentado
Esse é o maior problema após o “hello world”. O gTTS não divulga quota pois o serviço upstream também não. Na prática, um IP pode enviar dezenas de milhares de caracteres por hora até o Google retornar HTTP 429. O limite exato varia. Se seu app gera áudio para muitos usuários a partir de um servidor, eventualmente esses limites serão atingidos e não há SLA garantido.
2. O endpoint pode mudar sem aviso
Como o gTTS usa uma rota interna do Google Tradutor e não uma API pública versionada, o Google pode — e já fez isso — quebrar o gTTS de um dia para o outro mudando chaves de requisição ou formatos de resposta. O mantenedor lança um patch, você
pip install -U gTTS, e segue o jogo. Ok para scripts de hobby. Não para produção que roda a noite toda.
3. Ritmo de manutenção
O projeto ainda recebe atualizações (pelo menos uma no ano anterior), mas a triagem de issues é lenta e só há um responsável. Alguns sites classificam o repositório como “inativo”. Para uma biblioteca gratuita MIT isso é esperado; mas, sendo dependência central em produto pago, cuidado.
4. Ambiguidade comercial e nos Termos de Uso
Como o gTTS acessa o Google Tradutor e não o Google Cloud TTS, a licença do áudio gerado para uso comercial não é definida. A biblioteca é MIT; os bytes de áudio são regidos pelos termos do Google para um serviço que não é formalmente exposto como TTS. Se sua equipe jurídica precisa de uma resposta clara, o gTTS não oferece.
5. Dados sensíveis saem da sua máquina
Todo texto enviado é transmitido para os servidores do Google. Se você lê documentos internos, PII ou conteúdos extraídos do Google Docs ou de outros repositórios, avalie bem a governança de dados antes de implantar.
Qual a diferença entre gTTS e Google Cloud Text-to-Speech?
Embora confundidos, gTTS e Google Cloud Text-to-Speech não são o mesmo produto. Veja as diferenças:
Se você precisa da Voz Google em produção, provavelmente deve usar o Google Cloud TTS, não o gTTS.
Quando migrar para uma API TTS profissional?
A hora de trocar o gTTS por uma API TTS profissional depende da importância de áudio de alta qualidade, confiabilidade e personalização para seu projeto. O gTTS é ótimo para protótipos, projetos pessoais, acessibilidade e experimentos leves por ser simples, gratuito e fácil. Mas se você vai lançar um produto pago, depende da qualidade da voz ou precisa de latência baixa e SLA, o ideal é uma solução profissional. Vale a pena migrar também caso precise de múltiplas vozes, clonagem de voz, SSML, streaming, controle fino de pronúncia ou licenciamento comercial claro. À medida que o projeto cresce, esses recursos deixam de ser opcionais e passam a ser essenciais.
Devo escolher gTTS ou a API do Speechify?
A API TTS do Speechify é um serviço oficial, pago, com vozes neurais, diversas opções por idioma, SSML e licenciamento comercial contratual, não apenas um wrapper de endpoint não documentado. Se limites, qualidade de voz ou TOS do gTTS te incomodam, é um caminho a considerar.
FAQ
O gTTS é gratuito?
Sim, o gTTS é livre, licenciado MIT, mas para áudio licenciado comercialmente prefira um serviço pago como a API Speechify.
gTTS funciona offline?
Não, exige conexão com internet pois usa os servidores do Google, assim como a API Speechify, que também é cloud.
Posso usar gTTS em produto comercial?
O licenciamento do áudio via gTTS para uso comercial é ambíguo pois depende de endpoint Google não oficial; já a API Speechify tem licença comercial explícita.
Como trocar de voz no gTTS?
Não é possível. O gTTS oferece uma voz por idioma, enquanto a API Speechify traz um catálogo de vozes neurais variadas.
gTTS suporta SSML?
Não, o gTTS não tem SSML, nem controle de pitch, nem ajuste fino de velocidade; a API Speechify tem controle total da prosódia via SSML.
Por que o gTTS retorna erro HTTP 429?
Você atingiu o limite do Google Tradutor — motivo comum para migrar para serviços com SLA real como a API Speechify.
gTTS é igual ao Google Cloud Text-to-Speech?
Não, o gTTS acessa endpoint não oficial do Tradutor, o Cloud TTS é outro produto pago, e a API Speechify oferece uma alternativa neural paga.
Qual a melhor biblioteca TTS Python para produção?
O gTTS é bom para protótipos, mas não para produção; para rodar em produção, use uma API paga como a API Speechify.
O gTTS clona voz?
Não, clonagem de voz não existe no gTTS, mas está disponível via API Speechify.
Como faço streaming de áudio com gTTS?
gTTS não faz streaming em tempo real; retorna um MP3 já finalizado. Para streaming de baixa latência, use a API Speechify.

