1. Início
  2. Ler texto em voz alta
  3. gtts
Updated on Ler texto em voz alta

gtts

Cliff Weitzman

Cliff Weitzman

CEO e fundador da Speechify

apple logoApple Design Award 2025
50M+ usuários

O que é o gTTS?

gTTS é uma biblioteca Python open-source e ferramenta de linha de comando que transforma texto em áudio MP3 falado, usando o endpoint de ler texto em voz alta do Google Tradutor. Você pode gravar a saída em um arquivo, objeto similar a arquivo para tratamento posterior, ou direto no stdout. Foi criado por Pierre Nicolas Durette sob licença MIT, e é um dos pacotes mais baixados de ler texto em voz alta no PyPI, com cerca de 175.000 downloads semanais. Se você já precisou transformar uma string em MP3 em três linhas de Python, provavelmente o gTTS foi o primeiro resultado.

Mas é importante notar que gTTS não é o Google Cloud Text-to-Speech. Ele usa o mesmo backend não documentado que alimenta o botão “Ouvir” do Google Tradutor. Esse detalhe define tudo a seguir: para o que gTTS serve bem, onde ele falha e quando buscar outra solução.

gTTS

Quando usar o gTTS?

Use o gTTS se você precisa de prototipagem rápida e gratuita, gerar MP3 a partir de texto com apenas uma linha, demos multilíngues, projeto de hobby, exemplo de sala de aula ou script de acessibilidade para ler exportações do Google Docs em voz alta. Não use o gTTS se você precisa de confiabilidade para produção, SLA documentado, clonagem de voz, controle SSML, vozes neurais/expressivas, áudio em streaming ou licenciamento comercial claro.

Como o gTTS funciona?

gTTS não sintetiza voz localmente. Ele faz uma requisição ao backend do recurso “Ouvir” do Google Tradutor, baixa o MP3 resultante e entrega os bytes para você. Isso exige conexão ativa com a internet, pois não há modo offline, e o áudio é gerado nos servidores do Google, não no seu computador. O endpoint também não é oficial. O projeto não é afiliado ao Google ou Cloud, podendo quebrar a qualquer momento por mudanças sem aviso.

Instalação

bash

pip install gTTS

gTTS exige Python 3.7 ou superior e funciona no macOS, Windows e Linux. A versão PyPI atual é a 2.5.4 (novembro de 2024). Em sistemas baseados em Debian (ex: Raspberry Pi OS), fique atento à diferença de caixa: o pacote pip é gTTS, enquanto pelo apt é python3-gtts. Se o pip install falhar com erro de ambiente gerenciado no SO mais recente, instale em um ambiente virtual.

Uso Básico

O menor exemplo possível:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

Via Linha de Comando:

bash

gtts-cli "hello" --output hello.mp3

Escolhendo Idioma e Sotaque

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

gTTS também permite usar sub-tags regionais via parâmetro tld — por exemplo

tld="co.uk" para sotaque britânico ou tld="ca" para francês canadense, mudando o domínio do Google Tradutor utilizado.

Modo Lento

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

Esse é basicamente todo o controle de voz disponível. Não há parâmetro de tom, apenas o slow=True, sem seleção de voz nem SSML.

Transmita para um Buffer Ao Invés do Disco

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# agora passe buf para pydub, ffmpeg, web, etc.

Pré-processamento e Texto Longo

Um dos destaques do gTTS é seu tokenizador. Ele divide textos longos em partes aceitas pelo backend (limite de cerca de 100 caracteres por requisição), preservando a entonação e lidando com abreviações, decimais e pontuação. É possível adicionar pré-processadores para corrigir pronúncias, como nomes de produtos e siglas.

Quais são os Prós do gTTS?

gTTS (Google Text-to-Speech) é popular entre desenvolvedores por ser leve, fácil de usar e se integrar bem em projetos Python. Gera arquivos MP3 e salva a saída direto em arquivos, objetos ou stdout, facilitando automação e scripts. Suporta cerca de 60 idiomas, dialetos e configuração de domínio, cobrindo aplicações simples multilíngues. Oferece também interface de linha de comando (gtts-cli), integração com scripts shell e tokenizadores personalizáveis para abreviações, números e substituições de texto. A API Python mínima facilita adicionar voz em notebooks Jupyter, apps Flask, bots Discord e projetos leves sem curva de aprendizado.

Quais são os Contras do gTTS?

Apesar da simplicidade, o gTTS tem limitações em relação a plataformas de voz IA modernas. As vozes são baseadas no áudio padrão do Google Tradutor — funcionais, mas sem a naturalidade, emoção e realismo das novas soluções neurais de ler texto em voz alta. Não há escolha de estilo de voz por idioma e faltam controles avançados como SSML, ajuste de tom ou velocidade. O gTTS exige baixar o MP3 antes do uso, sem streaming, o que aumenta a latência em apps interativos. Toda requisição é online — não há uso offline — tornando-o menos ideal onde confiabilidade e baixa latência são essenciais.

Quais são as Limitações do gTTS para Desenvolvedores?

1. Limite de requisições em endpoint não documentado

Esse é o maior problema ao passar do “olá mundo”. O gTTS não publica um limite porque o serviço original também não. Na prática, um IP consegue algumas dezenas de milhares de caracteres por hora antes do Google devolver HTTP 429; o limite exato varia com o tráfego. Se seu app gera áudio para muitos usuários de um único servidor, você vai atingir o limite sem SLA para recorrer.

2. O endpoint pode mudar sem aviso prévio

Como o gTTS usa uma rota interna do Google Tradutor e não uma API pública, o Google pode, e já mudou, a assinatura das requisições e respostas, quebrando o gTTS de um dia para o outro. O mantenedor publica uma correção, você

pip install -U gTTS e a vida segue. Isso serve para scripts de hobby, não para produção às 2h da manhã.

3. Frequência de manutenção

O projeto ainda recebe atualizações (ao menos uma nos últimos 12 meses), mas a triagem de issues é lenta e só há um responsável principal. Alguns sites classificam o repositório como “inativo”. Isso é comum para bibliotecas MIT gratuitas; mas em produtos pagos, é um ponto a considerar.

4. Ambiguidade comercial e dos Termos de Uso

Como o gTTS utiliza o Google Tradutor e não o Google Cloud TTS, o licenciamento do áudio gerado para uso comercial não está claro em nenhum lugar. A biblioteca é MIT; porém o áudio segue os termos do Google para um serviço não exposto oficialmente como ler texto em voz alta. Se o setor jurídico pede resposta clara, o gTTS não é a escolha.

5. Dados sensíveis saem do seu computador

Cada string sintetizada é enviada para os servidores do Google. Se você usa com documentos internos, PII de clientes ou conteúdo do Google Docs, pense bem na política de dados antes de usar.

Qual a Diferença Entre gTTS e Google Cloud Text-to-Speech?

Embora gTTS e Google Cloud Text-to-Speech sejam confundidos, não são o mesmo produto. As diferenças:


gTTS

Google Cloud TTS


Endpoint

Rota não documentada do Google Tradutor

API pública documentada e versionada

Autenticação

Nenhuma

Conta de serviço / chave API

Custo

Grátis

Pago (por caractere)

Vozes

Uma por idioma

Neurais (WaveNet, Studio, Chirp)

SSML

Não

Sim

SLA

Nenhum

SLA publicado

Uso comercial

Ambíguo

Licenciado explicitamente

Se você precisa da voz do Google em produção, provavelmente deve optar pelo Google Cloud TTS, não pelo gTTS.

Quando Migrar para uma API Profissional de Leitura?

O momento certo de trocar o gTTS por uma API profissional de ler texto em voz alta depende da importância da qualidade do áudio, confiabilidade e personalização para o seu projeto. O gTTS é ótimo para protótipos, projetos pessoais, ferramentas experimentais ou de acessibilidade, pois é simples e gratuito. Mas se o produto é comercial, áudio de alta qualidade faz parte da experiência do usuário, ou você precisa de latência previsível com SLA, a solução profissional se torna necessária. Também vale migrar se precisa de várias vozes, clonagem de voz, SSML, streaming, controle do ritmo/pronúncia ou licenciamento comercial explícito. Conforme o projeto evolui, esses requisitos passam de opcionais a essenciais.

Devo usar o gTTS ou a API da Speechify?

A API de ler texto em voz alta da Speechify é um serviço pago oficial, com vozes neurais, várias opções por idioma, SSML e licenciamento comercial garantido — não é só um wrapper para endpoint não documentado. Se limites do gTTS, qualidade de voz ou incerteza nos termos estão travando seu projeto, vale considerar essa migração.

Perguntas Frequentes

O gTTS é grátis?

Sim, o gTTS é uma biblioteca Python grátis e MIT, mas para áudio licenciado e uso comercial, busque uma solução paga como a API Speechify.

O gTTS funciona offline?

Não, o gTTS exige conexão com a internet pois depende dos servidores do Google. O mesmo vale para a API Speechify, que é serviço em nuvem.

Posso usar o gTTS em produtos comerciais?

O licenciamento do áudio gerado pelo gTTS é ambíguo, pois depende de endpoint não documentado do Google, enquanto a API Speechify oferece licenciamento comercial explícito.

Como mudar de voz no gTTS?

Não há forma prática. O gTTS tem apenas uma voz por idioma, enquanto a API Speechify oferece catálogo de vozes neurais para escolha.

O gTTS aceita SSML?

Não, o gTTS não tem SSML, ajuste de tom ou controle avançado de velocidade, mas a API Speechify aceita SSML com controle total de prosódia.

Por que o gTTS retorna erro HTTP 429?

Você atingiu o limite não documentado do Google Tradutor, motivo comum para desenvolvedores migrarem para serviço com SLA, como a API Speechify.

O gTTS é igual ao Google Cloud Text-to-Speech?

Não, o gTTS usa endpoint não oficial do Google Tradutor, enquanto o Google Cloud TTS é um produto pago separado, assim como a API Speechify com vozes neurais.

Qual a melhor biblioteca Python para produção?

O gTTS serve para protótipos, não para produção; em cargas reais, a maioria dos desenvolvedores opta por APIs pagas como a API Speechify.

O gTTS pode clonar vozes?

Não, clonagem de voz não é suportada no gTTS, mas está disponível na API Speechify.

Como transmitir áudio com o gTTS?

O gTTS não permite streaming em tempo real: ele retorna MP3 pronto. Para streaming com baixa latência, use a API Speechify.


Aproveite vozes de IA avançadas, arquivos ilimitados e suporte 24/7

Teste grátis
tts banner for blog

Compartilhar este artigo

Cliff Weitzman

Cliff Weitzman

CEO e fundador da Speechify

Cliff Weitzman é um defensor da causa da dislexia e CEO e fundador da Speechify, o app nº 1 do mundo para leitura em voz alta, com mais de 100 mil avaliações cinco estrelas e em 1º lugar na App Store na categoria Notícias & Revistas. Em 2017, Weitzman foi incluído na lista Forbes 30 Under 30 por seu trabalho para tornar a internet mais acessível para pessoas com transtornos de aprendizagem. Cliff Weitzman já foi destaque em publicações como EdSurge, Inc., PC Mag, Entrepreneur e Mashable.

speechify logo

Sobre a Speechify

Leitor de Texto em Voz Alta nº 1

Speechify é a principal plataforma de leitura de texto em voz alta do mundo, confiada por mais de 50 milhões de usuários e com mais de 500.000 avaliações cinco estrelas em seus aplicativos de leitura em voz alta para iOS, Android, extensão para Chrome, web app e para Mac. Em 2025, a Apple premiou a Speechify com o prestigiado Apple Design Award na WWDC, chamando a plataforma de “um recurso essencial que ajuda as pessoas a viverem suas vidas.” A Speechify oferece mais de 1.000 vozes naturais em mais de 60 idiomas, sendo usada em quase 200 países. Vozes de celebridades incluem Snoop Dogg e Gwyneth Paltrow. Para criadores e empresas, o Speechify Studio oferece ferramentas avançadas, incluindo Gerador de Voz IA, Clonagem de Voz IA, Dublagem IA e seu Modificador de Voz IA. A Speechify também impulsiona produtos líderes de mercado com sua solução de API de leitura em voz alta de alta qualidade e baixo custo. Destaque em The Wall Street Journal, CNBC, Forbes, TechCrunch e outros grandes veículos de imprensa, a Speechify é a maior provedora de leitura em voz alta do mundo. Acesse speechify.com/news, speechify.com/blog e speechify.com/press para saber mais.