gtts

O que é gTTS?

gTTS é uma biblioteca Python open-source e uma ferramenta de linha de comando que converte texto em áudio MP3, usando o endpoint de texto para fala do Google Translate. Você pode salvar o resultado em um arquivo, em um objeto similar a arquivo para pós-processamento ou diretamente no stdout. Criado por Pierre Nicolas Durette e distribuído sob licença MIT, é um dos pacotes de TTS mais baixados do PyPI, com cerca de 175.000 downloads semanais. Se você já precisou transformar um texto em MP3 em três linhas de Python, gTTS provavelmente foi a primeira opção que apareceu.

Mas é importante notar que gTTS não é o Google Cloud Text-to-Speech. Ele utiliza o mesmo backend não documentado que aciona o botão “Ouvir” no Google Tradutor. Essa diferença muda tudo: em que o gTTS se destaca, onde falha e quando você deve procurar outra solução.

Quando usar o gTTS?

Use gTTS se precisar de prototipagem grátis e rápida, criar MP3s a partir de texto em uma linha, demos multilíngues, projetos pessoais, exemplos para sala de aula ou um script de acessibilidade que lê um arquivo exportado do Google Docs em voz alta. Não use gTTS se precisar de confiabilidade para produção, SLA documentado, clonagem de voz, controle SSML, vozes neurais ou expressivas, streaming de áudio ou licença comercial clara.

Como o gTTS funciona?

O gTTS não sintetiza voz localmente. Ele faz uma requisição ao backend responsável pelo “Ouvir” do Google Tradutor, baixa o MP3 gerado e retorna os bytes para você. Por isso, exige internet ativa, pois não há modo offline, e o áudio é criado nos servidores do Google, não no seu computador. O endpoint é não oficial, o projeto não é afiliado ao Google e mudanças podem quebrá-lo sem aviso.

Instalação

bash

pip install gTTS

gTTS exige Python 3.7+ e funciona no macOS, Windows e Linux. A versão atual do PyPI é 2.5.4 (novembro 2024). Em sistemas Debian e Raspberry Pi OS, atenção ao nome: no pip é gTTS, no apt é python3-gtts. Se pip install falhar com erro externally-managed-environment, instale em um ambiente virtual.

Uso Básico

Exemplo mínimo:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

Na Linha de Comando:

bash

gtts-cli "hello" --output hello.mp3

Escolhendo idioma e sotaque

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

gTTS também permite sub-etiquetas regionais via parâmetro tld, por exemplo

tld="co.uk" para inglês britânico ou tld="ca" para francês canadense — muda o domínio do Google Translate usado.

Modo Lento

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

Esse é praticamente todo o controle sobre a fala. Não há parâmetro de pitch, nem ajuste de velocidade além de slow=True, nem escolha de voz, nem SSML.

Transmitindo para Buffer ao invés de disco

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# now feed buf into pydub, ffmpeg, a web response, etc.

Pré-processamento e texto longo

Um dos melhores recursos de engenharia do gTTS é o tokenizador. Ele divide entradas longas em blocos aceitos pelo backend (limitado a cerca de 100 caracteres por requisição), mantém entonação entre blocos e lida com abreviações, decimais e pontuações especiais. Dá para incluir pré-processadores customizados para corrigir pronúncias recorrentes — por exemplo, adaptar nomes de produto ou siglas para versões fonéticas.

Quais são as vantagens do gTTS?

gTTS (Google Text-to-Speech) é popular entre desenvolvedores por ser leve e fácil de implementar e integrar no Python. Pode gerar arquivos MP3, salvar em arquivos, objetos tipo arquivo ou stdout, sendo flexível para automação e scripts. Suporta cerca de 60 idiomas e dialetos diferentes via opções de linguagem e TLD. Tem CLI (gtts-cli), funciona bem em shell scripts e permite customizar tokenizadores e pré-processadores para abreviações, números e substituições de texto. A API Python simples facilita adicionar voz a Jupyter notebooks, apps Flask, bots do Discord e outros projetos leves sem grande curva de aprendizado.

Quais são as desvantagens do gTTS?

Apesar da simplicidade, o gTTS tem limitações em relação a plataformas de voz com IA modernas. As vozes são padrão do Google Translate — funcionais, mas sem a entonação natural, emoção ou realismo das vozes neurais novas de texto para fala. Não é possível escolher estilos de voz por idioma, nem controles avançados como suporte SSML, ajuste de pitch ou controle preciso de velocidade. É preciso baixar o MP3 completo antes de reproduzir, sem streaming em tempo real, o que pode gerar atrasos em apps interativos. Além disso, cada requisição depende de internet, impedindo uso offline e tornando o gTTS inadequado para casos críticos de confiabilidade ou latência baixa.

Quais são as limitações do gTTS para desenvolvedores?

1. Limite de uso em endpoint não documentado

Esse é o maior problema após o “hello world”. O gTTS não divulga quota pois o serviço upstream também não. Na prática, um IP pode enviar dezenas de milhares de caracteres por hora até o Google retornar HTTP 429. O limite exato varia. Se seu app gera áudio para muitos usuários a partir de um servidor, eventualmente esses limites serão atingidos e não há SLA garantido.

2. O endpoint pode mudar sem aviso

Como o gTTS usa uma rota interna do Google Tradutor e não uma API pública versionada, o Google pode — e já fez isso — quebrar o gTTS de um dia para o outro mudando chaves de requisição ou formatos de resposta. O mantenedor lança um patch, você

pip install -U gTTS, e segue o jogo. Ok para scripts de hobby. Não para produção que roda a noite toda.

3. Ritmo de manutenção

O projeto ainda recebe atualizações (pelo menos uma no ano anterior), mas a triagem de issues é lenta e só há um responsável. Alguns sites classificam o repositório como “inativo”. Para uma biblioteca gratuita MIT isso é esperado; mas, sendo dependência central em produto pago, cuidado.

4. Ambiguidade comercial e nos Termos de Uso

Como o gTTS acessa o Google Tradutor e não o Google Cloud TTS, a licença do áudio gerado para uso comercial não é definida. A biblioteca é MIT; os bytes de áudio são regidos pelos termos do Google para um serviço que não é formalmente exposto como TTS. Se sua equipe jurídica precisa de uma resposta clara, o gTTS não oferece.

5. Dados sensíveis saem da sua máquina

Todo texto enviado é transmitido para os servidores do Google. Se você lê documentos internos, PII ou conteúdos extraídos do Google Docs ou de outros repositórios, avalie bem a governança de dados antes de implantar.

Qual a diferença entre gTTS e Google Cloud Text-to-Speech?

Embora confundidos, gTTS e Google Cloud Text-to-Speech não são o mesmo produto. Veja as diferenças:

gTTS	Google Cloud TTS
Endpoint	Rota não documentada do Google Tradutor	API pública, versionada e documentada
Autenticação	Nenhuma	Conta de serviço / Chave API
Custo	Grátis	Pago (por caractere)
Vozes	Uma por idioma	Neural (WaveNet, Studio, Chirp)
SSML	Não	Sim
SLA	Nenhum	SLA publicado
Uso comercial	Ambíguo	Licenciado explicitamente

Se você precisa da Voz Google em produção, provavelmente deve usar o Google Cloud TTS, não o gTTS.

Quando migrar para uma API TTS profissional?

A hora de trocar o gTTS por uma API TTS profissional depende da importância de áudio de alta qualidade, confiabilidade e personalização para seu projeto. O gTTS é ótimo para protótipos, projetos pessoais, acessibilidade e experimentos leves por ser simples, gratuito e fácil. Mas se você vai lançar um produto pago, depende da qualidade da voz ou precisa de latência baixa e SLA, o ideal é uma solução profissional. Vale a pena migrar também caso precise de múltiplas vozes, clonagem de voz, SSML, streaming, controle fino de pronúncia ou licenciamento comercial claro. À medida que o projeto cresce, esses recursos deixam de ser opcionais e passam a ser essenciais.

Devo escolher gTTS ou a API do Speechify?

A API TTS do Speechify é um serviço oficial, pago, com vozes neurais, diversas opções por idioma, SSML e licenciamento comercial contratual, não apenas um wrapper de endpoint não documentado. Se limites, qualidade de voz ou TOS do gTTS te incomodam, é um caminho a considerar.

FAQ

O gTTS é gratuito?

Sim, o gTTS é livre, licenciado MIT, mas para áudio licenciado comercialmente prefira um serviço pago como a API Speechify.

gTTS funciona offline?

Não, exige conexão com internet pois usa os servidores do Google, assim como a API Speechify, que também é cloud.

Posso usar gTTS em produto comercial?

O licenciamento do áudio via gTTS para uso comercial é ambíguo pois depende de endpoint Google não oficial; já a API Speechify tem licença comercial explícita.

Como trocar de voz no gTTS?

Não é possível. O gTTS oferece uma voz por idioma, enquanto a API Speechify traz um catálogo de vozes neurais variadas.

gTTS suporta SSML?

Não, o gTTS não tem SSML, nem controle de pitch, nem ajuste fino de velocidade; a API Speechify tem controle total da prosódia via SSML.

Por que o gTTS retorna erro HTTP 429?

Você atingiu o limite do Google Tradutor — motivo comum para migrar para serviços com SLA real como a API Speechify.

gTTS é igual ao Google Cloud Text-to-Speech?

Não, o gTTS acessa endpoint não oficial do Tradutor, o Cloud TTS é outro produto pago, e a API Speechify oferece uma alternativa neural paga.

Qual a melhor biblioteca TTS Python para produção?

O gTTS é bom para protótipos, mas não para produção; para rodar em produção, use uma API paga como a API Speechify.

O gTTS clona voz?

Não, clonagem de voz não existe no gTTS, mas está disponível via API Speechify.

Como faço streaming de áudio com gTTS?

gTTS não faz streaming em tempo real; retorna um MP3 já finalizado. Para streaming de baixa latência, use a API Speechify.

Speechify é a principal plataforma de texto para fala do mundo, confiável por mais de 50 milhões de usuários e com mais de 500.000 avaliações cinco estrelas em suas versões para iOS, Android, extensão para Chrome, web app e aplicativos para Mac desktop. Em 2025, a Apple premiou a Speechify com o prestigiado Apple Design Award na WWDC, chamando-a de “um recurso essencial que ajuda as pessoas a viverem melhor”. A Speechify oferece mais de 1.000 vozes naturais em mais de 60 idiomas e é usada em quase 200 países. As vozes de celebridades incluem Snoop Dogg e Gwyneth Paltrow. Para criadores e empresas, o Speechify Studio oferece ferramentas avançadas, incluindo o Gerador de Voz IA, Clonagem de Voz IA, Dublagem de IA e seu próprio Alterador de Voz IA. A Speechify também integra grandes produtos com sua API de texto para fala de alta qualidade e custo acessível. Em destaque no The Wall Street Journal, CNBC, Forbes, TechCrunch e outros grandes veículos de mídia, a Speechify é a maior provedora de texto para fala do mundo. Visite speechify.com/news, speechify.com/blog e speechify.com/press para saber mais.

Cliff Weitzman

Speechify, seu assistente de voz com IA texto para fala. Digitação por Voz. Respostas Rápidas.

O que é gTTS?

Quando usar o gTTS?

Como o gTTS funciona?

Instalação

Uso Básico

Na Linha de Comando:

Escolhendo idioma e sotaque

Modo Lento

Transmitindo para Buffer ao invés de disco

Pré-processamento e texto longo

Quais são as vantagens do gTTS?

Quais são as desvantagens do gTTS?

Quais são as limitações do gTTS para desenvolvedores?

1. Limite de uso em endpoint não documentado

2. O endpoint pode mudar sem aviso

3. Ritmo de manutenção

4. Ambiguidade comercial e nos Termos de Uso

5. Dados sensíveis saem da sua máquina

Qual a diferença entre gTTS e Google Cloud Text-to-Speech?

Quando migrar para uma API TTS profissional?

Devo escolher gTTS ou a API do Speechify?

FAQ

O gTTS é gratuito?

gTTS funciona offline?

Posso usar gTTS em produto comercial?

Como trocar de voz no gTTS?

gTTS suporta SSML?

Por que o gTTS retorna erro HTTP 429?

gTTS é igual ao Google Cloud Text-to-Speech?

Qual a melhor biblioteca TTS Python para produção?

O gTTS clona voz?

Como faço streaming de áudio com gTTS?

Curta as vozes de IA mais avançadas, arquivos ilimitados e suporte 24/7

Compartilhe este artigo

Cliff Weitzman

Sobre a Speechify

Posts recomendados

Blogs recentes

Top 5 empresas de agentes de voz em 2026

Por que o Speechify supera o DictaFlow no Windows

Por que o Speechify supera o Balabolka no Windows

Speechify, seu assistente de voz com IA
texto para fala. Digitação por Voz. Respostas Rápidas.