1. Strona główna
  2. TTS
  3. gtts
Updated on TTS

gtts

Cliff Weitzman

Cliff Weitzman

CEO i założyciel Speechify

apple logoNagroda Apple Design 2025
Ponad 50 mln użytkowników

Czym jest gTTS?

gTTS to otwartoźródłowa biblioteka Pythona i narzędzie CLI zamieniające tekst na MP3 przez endpoint text-to-speech Google Translate. Wynik możesz zapisać do pliku, obiektu plikopodobnego do dalszej obróbki audio lub wyprowadzić bezpośrednio na stdout. Autorem jest Pierre Nicolas Durette, licencja MIT, a pakiet jest jednym z najczęściej pobieranych TTS na PyPI – ok. 175 000 pobrań tygodniowo. Jeśli szukałeś sposobu na konwersję tekstu do MP3 w 3 linijkach Pythona, pewnie natrafiłeś na gTTS.

Ważne: gTTS to nie to samo co Google Cloud Text-to-Speech. Korzysta z tego samego nieoficjalnego backendu co przycisk „Odsłuchaj” w Google Translate. To rozróżnienie wpływa na poniższe opisy — gTTS jest świetne w niektórych sytuacjach, a w innych działa mniej stabilnie lub w ogóle się nie sprawdzi.

gTTS

Kiedy używać gTTS?

Użyj gTTS, jeśli potrzebujesz darmowego, szybkiego prototypowania; prostego polecenia do generowania MP3 z tekstu; wielojęzycznych dem, projektu hobbystycznego, przykładu na zajęcia czy narzędzia dostępności czytającego eksport z Google Docs. Nie używaj gTTS, jeśli wymagasz stabilności produkcyjnej, SLA, klonowania głosu, obsługi SSML, głosów neuronowych lub ekspresyjnych, streamingu audio ani jasnej komercyjnej licencji.

Jak działa gTTS?

gTTS nie syntezuje mowy lokalnie. Tworzy żądanie do backendu Google Translate (przycisk „Odsłuchaj”), pobiera MP3 i zwraca bajty. Wymaga połączenia z internetem (brak trybu offline); audio generuje się na serwerach Google, a nie lokalnie. Endpoint jest nieoficjalny. Projekt nie ma powiązania z Google czy Google Cloud, a zmiany po stronie Google mogą go unieruchomić bez ostrzeżenia.

Instalacja

bash

pip install gTTS

gTTS wymaga Pythona 3.7+ i działa na macOS, Windows i Linuksie. Obecna wersja PyPI to 2.5.4 (listopad 2024). Na Debianie (w tym Raspberry Pi OS) zwróć uwagę: pakiet pip to gTTS, a apt to python3-gtts. Jeśli pip install zgłasza błąd externally-managed-environment na nowym systemie, zainstaluj w wirtualnym środowisku.

Podstawowe użycie

Najprostszy przykład:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

Z linii poleceń:

bash

gtts-cli "hello" --output hello.mp3

Wybór języka i akcentu

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

gTTS pozwala też na regionalne subtagi przez parametr tld — np.

tld="co.uk" dla brytyjskiego angielskiego lub tld="ca" dla francuskiego kanadyjskiego — kierując żądania przez różne domeny krajowe Google Translate.

Tryb wolny

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

To właściwie jedyna opcja kontroli mowy. Nie ma parametru wysokości głosu, suwaka tempa poza slow=True, wyboru głosu czy SSML.

Stream do buffora zamiast na dysk

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# teraz przekaż buf do pydub, ffmpeg, odpowiedzi HTTP itp.

Przetwarzanie wstępne i długie teksty

Jedną z lepszych funkcjonalności gTTS jest tokenizator, który dzieli dowolnie długie wejście na fragmenty akceptowane przez backend (limit 100 znaków na żądanie), zachowuje intonację, obsługuje skróty, liczby i kropki. Możesz podpiąć własne preprocesory, np. do fonetycznych nazw produktów czy skrótów.

Zalety gTTS

gTTS (Google Text-to-Speech) jest cenione wśród programistów za lekkość, prostotę wdrożenia i integrację z workflow w Pythonie. Generuje MP3 i pozwala zapisywać wyjście bezpośrednio do plików, obiektów plikopodobnych czy stdout, co jest przydatne w automatyzacji i skryptach. Obsługuje około 60 języków i regionalnych wariantów dzięki parametrom język/domena. Jest CLI (gtts-cli), które dobrze współgra ze skryptami powłoki, a do tego umożliwia własny tokenizator i preprocesy usprawniające obsługę skrótów, liczb i podmian tekstu. Minimalistyczne API w Pythonie pozwala łatwo dodać syntezę mowy do notebooków, aplikacji Flask, botów Discord itp. bez dużej krzywej uczenia.

Wady gTTS

Mimo prostoty gTTS ma ograniczenia względem nowoczesnych platform AI voice. Głosy są takie jak w Google Translate – użyteczne, ale bez naturalnej intonacji, emocji i realizmu znanych z nowszych systemów TTS. Nie wybierzesz stylu głosu w ramach języka, brak zaawansowanej kontroli (brak SSML, zmiany wysokości, tempa). Trzeba pobrać całe MP3 przed odtworzeniem, brak strumieniowania na żywo, co zwiększa opóźnienia w aplikacjach interaktywnych. Każde żądanie wymaga sieci – gTTS nie działa offline, przez co bywa mało przydatny tam, gdzie kluczowa jest niezawodność czy niskie opóźnienia.

Jakie są ograniczenia gTTS dla programistów?

1. Limity żądań na nieudokumentowany endpoint

To największa pułapka przy wychodzeniu poza „hello world”. gTTS nie publikuje limitów, bo upstream też ich nie podaje. W praktyce jedno IP może wygenerować kilka/kilkadziesiąt tysięcy znaków na godzinę, potem Google zwraca HTTP 429, a dokładna granica zależy od ruchu. Przy wielu użytkownikach z jednego serwera limity Cię w końcu przytną — bez SLA i możliwości odwołania.

2. Endpoint może się zmienić bez ostrzeżenia

gTTS korzysta z wewnętrznego adresu Google Translate, nie z oficjalnego API. Google zdarzało się blokować gTTS zmianami składni żądania lub odpowiedzi. Autor wydaje poprawkę, ty

pip install -U gTTS i życie toczy się dalej. Dobry scenariusz dla hobbystycznego skryptu, ale fatalny dla produkcji o 2 w nocy.

3. Częstotliwość aktualizacji

Projekt ma nowe wersje (przynajmniej jedną w ciągu ostatnich 12 miesięcy), ale obsługa zgłoszeń jest wolna, a „bus factor” to jedna osoba. Trackery potrafią oznaczać repo jako „nieaktywne”. Przy bibliotece open source MIT to standard; w płatnym produkcie warto to brać pod uwagę.

4. Niejasności komercyjne i TOS

gTTS korzysta z frontend Google Translate zamiast Google Cloud TTS — licencja na wygenerowane audio do zastosowań komercyjnych nie jest nigdzie jasno zdefiniowana. Sama biblioteka ma licencję MIT, ale bajty audio podlegają warunkom Google dla usługi, która nie jest udostępniona jako oficjalne TTS API. Jeśli dział prawny wymaga jednoznacznej odpowiedzi, gTTS jej nie da.

5. Wrażliwe dane opuszczają Twój komputer

Każdy tekst jest przesyłany na serwery Google. Jeśli czytasz wewnętrzne dokumenty, dane klientów (PII) lub wyciągi z Google Docs, warto przemyśleć kwestie zgodności danych, zanim wdrożysz takie rozwiązanie.

Różnice: gTTS a Google Cloud Text-to-Speech

Choć gTTS i Google Cloud Text-to-Speech bywają mylone, to dwa różne produkty. Oto najważniejsze różnice:


gTTS

Google Cloud TTS


Endpoint

Nieudokumentowana ścieżka Google Translate

Publiczne API, wersjonowane i opisane

Auth

Brak

Konto serwisowe / klucz API

Koszt

Darmowe

Płatne (za znak)

Głosy

Jeden na język

Neuronalne (WaveNet, Studio, Chirp)

SSML

Nie

Tak

SLA

Brak

Oficjalne SLA

Użycie komercyjne

Niejasne

Jasna licencja

Jeśli potrzebujesz Google'owego głosu w produkcji, prawie na pewno lepszy będzie Google Cloud TTS, a nie gTTS.

Kiedy przejść na profesjonalne API TTS?

Decyzja o przejściu z gTTS na profesjonalne API TTS zależy od wymagań projektu co do jakości audio, niezawodności i personalizacji. gTTS sprawdza się do prototypów, projektów portfolio, narzędzi dostępności, demo edukacyjnych i lekkich eksperymentów — jest prosty, bezpłatny i szybki do wdrożenia. Jeśli jednak tworzysz produkt komercyjny, liczy się jakość dźwięku lub oczekujesz przewidywalnego opóźnienia/gwarantowanego SLA, warto postawić na płatne rozwiązanie. Warto też przejść na nie, jeśli zależy Ci na opcjach wielu głosów, klonowaniu głosu, SSML, streamingu audio, pełnej kontroli nad tempem i wymową lub jasnej komercyjnej licencji. Wraz z rozwojem projektu te funkcje przestają być opcjonalne, a stają się wymagane.

Wybrać gTTS czy API Speechify?

API Speechify to płatna, oficjalnie wspierana usługa z głosami neural, wieloma wariantami głosów na język, SSML i licencją komercyjną w umowie — bez korzystania z nieoficjalnych endpointów. Jeśli przeszkadzają ci limity, jakość głosu lub niejasności prawne gTTS, warto rozważyć migrację.

FAQ

Czy gTTS jest darmowy?

Tak, gTTS to darmowa biblioteka na licencji MIT dla Pythona, ale do nagrań komercyjnych lepsza jest płatna usługa jak Speechify API.

Czy gTTS działa offline?

Nie, gTTS wymaga internetu, korzysta z serwerów Google. To samo dotyczy Speechify API jako usługi w chmurze.

Czy mogę użyć gTTS w produkcie komercyjnym?

Licencja wyjścia gTTS do celów komercyjnych jest niejasna, bo opiera się na nieoficjalnym endpointzie Google, podczas gdy Speechify API daje jasną licencję komercyjną.

Jak zmienić głos w gTTS?

Nie da się. gTTS oferuje jeden głos na język, podczas gdy Speechify API pozwala wybrać neuralne głosy z katalogu.

Czy gTTS obsługuje SSML?

Nie, gTTS nie obsługuje SSML, nie daje kontroli nad wysokością i tempem, za to API Speechify daje pełną kontrolę prozodii przez SSML.

Dlaczego gTTS zwraca błąd HTTP 429?

Przekroczyłeś nieoficjalny limit Google Translate – częsty powód migracji do usługi z prawdziwym SLA, takiej jak Speechify API.

Czy gTTS to to samo co Google Cloud Text-to-Speech?

Nie, gTTS opakowuje nieoficjalny endpoint Google Translate, a Google Cloud TTS to osobna, płatna usługa. Speechify API to też płatna alternatywa z neuralnymi głosami.

Jaka biblioteka TTS dla Pythona na produkcję?

gTTS nadaje się na prototypy, nie do produkcji; na produkcji większość ludzi przechodzi na płatne API, takie jak Speechify API.

Czy gTTS potrafi klonować głos?

Nie, klonowanie głosu nie jest wspierane w gTTS — jest dostępne przez Speechify API.

Jak streamować audio w gTTS?

gTTS nie wspiera streamingu w czasie rzeczywistym, zwraca gotowy plik MP3. Do niskiego opóźnienia/zapewnienia streamingu wybierz Speechify API.


Korzystaj z najbardziej zaawansowanych głosów AI, nieograniczonej liczby plików i całodobowego wsparcia

Wypróbuj za darmo
tts banner for blog

Udostępnij ten artykuł

Cliff Weitzman

Cliff Weitzman

CEO i założyciel Speechify

Cliff Weitzman jest orędownikiem osób z dysleksją oraz CEO i założycielem Speechify — najlepszej na świecie aplikacji do zamiany tekstu na mowę, która ma na koncie ponad 100 000 pięciogwiazdkowych recenzji i zajęła 1. miejsce w App Store w kategorii News & Magazines. W 2017 roku Weitzman został wyróżniony na liście Forbes 30 Under 30 za działania na rzecz zwiększania dostępności internetu dla osób z trudnościami w uczeniu się. O Cliffie Weitzmanie pisały m.in. EdSurge, Inc., PC Mag, Entrepreneur i Mashable oraz inne czołowe redakcje.

speechify logo

O Speechify

Najlepszy czytnik tekstu na mowę

Speechify to wiodąca na świecie platforma tekstu na mowę, zaufana przez ponad 50 milionów użytkowników, z ponad 500 000 recenzji na 5 gwiazdek w aplikacjach tekstu na mowę na iOS, Androida, rozszerzenie Chrome, aplikację webową oraz aplikację desktopową na Maca. W 2025 roku Apple przyznało Speechify prestiżową Nagrodę Apple Design podczas WWDC, nazywając to rozwiązanie „kluczowym zasobem, który pomaga ludziom w codziennym życiu”. Speechify oferuje ponad 1 000 naturalnych głosów w ponad 60 językach i jest używane w niemal 200 krajach. Wśród znanych głosów znajdują się Snoop Dogg i Gwyneth Paltrow. Dla twórców i firm Speechify Studio zapewnia zaawansowane narzędzia, w tym Generator Głosu AI, Klonowanie głosu AI, AI Dubbing oraz Zmieniacz głosu AI. Speechify dostarcza także wysokiej jakości i przystępne cenowo API tekstu na mowę dla czołowych produktów na świecie. O Speechify pisano w The Wall Street Journal, CNBC, Forbes, TechCrunch i innych najważniejszych mediach – Speechify to największy dostawca tekstu na mowę na świecie. Odwiedź speechify.com/news, speechify.com/blog oraz speechify.com/press, aby dowiedzieć się więcej.