gtts

Czym jest gTTS?

gTTS to otwartoźródłowa biblioteka Pythona i narzędzie CLI zamieniające tekst na MP3 przez endpoint text-to-speech Google Translate. Wynik możesz zapisać do pliku, obiektu plikopodobnego do dalszej obróbki audio lub wyprowadzić bezpośrednio na stdout. Autorem jest Pierre Nicolas Durette, licencja MIT, a pakiet jest jednym z najczęściej pobieranych TTS na PyPI – ok. 175 000 pobrań tygodniowo. Jeśli szukałeś sposobu na konwersję tekstu do MP3 w 3 linijkach Pythona, pewnie natrafiłeś na gTTS.

Ważne: gTTS to nie to samo co Google Cloud Text-to-Speech. Korzysta z tego samego nieoficjalnego backendu co przycisk „Odsłuchaj” w Google Translate. To rozróżnienie wpływa na poniższe opisy — gTTS jest świetne w niektórych sytuacjach, a w innych działa mniej stabilnie lub w ogóle się nie sprawdzi.

Kiedy używać gTTS?

Użyj gTTS, jeśli potrzebujesz darmowego, szybkiego prototypowania; prostego polecenia do generowania MP3 z tekstu; wielojęzycznych dem, projektu hobbystycznego, przykładu na zajęcia czy narzędzia dostępności czytającego eksport z Google Docs. Nie używaj gTTS, jeśli wymagasz stabilności produkcyjnej, SLA, klonowania głosu, obsługi SSML, głosów neuronowych lub ekspresyjnych, streamingu audio ani jasnej komercyjnej licencji.

Jak działa gTTS?

gTTS nie syntezuje mowy lokalnie. Tworzy żądanie do backendu Google Translate (przycisk „Odsłuchaj”), pobiera MP3 i zwraca bajty. Wymaga połączenia z internetem (brak trybu offline); audio generuje się na serwerach Google, a nie lokalnie. Endpoint jest nieoficjalny. Projekt nie ma powiązania z Google czy Google Cloud, a zmiany po stronie Google mogą go unieruchomić bez ostrzeżenia.

Instalacja

bash

pip install gTTS

gTTS wymaga Pythona 3.7+ i działa na macOS, Windows i Linuksie. Obecna wersja PyPI to 2.5.4 (listopad 2024). Na Debianie (w tym Raspberry Pi OS) zwróć uwagę: pakiet pip to gTTS, a apt to python3-gtts. Jeśli pip install zgłasza błąd externally-managed-environment na nowym systemie, zainstaluj w wirtualnym środowisku.

Podstawowe użycie

Najprostszy przykład:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

Z linii poleceń:

bash

gtts-cli "hello" --output hello.mp3

Wybór języka i akcentu

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

gTTS pozwala też na regionalne subtagi przez parametr tld — np.

tld="co.uk" dla brytyjskiego angielskiego lub tld="ca" dla francuskiego kanadyjskiego — kierując żądania przez różne domeny krajowe Google Translate.

Tryb wolny

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

To właściwie jedyna opcja kontroli mowy. Nie ma parametru wysokości głosu, suwaka tempa poza slow=True, wyboru głosu czy SSML.

Stream do buffora zamiast na dysk

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# teraz przekaż buf do pydub, ffmpeg, odpowiedzi HTTP itp.

Przetwarzanie wstępne i długie teksty

Jedną z lepszych funkcjonalności gTTS jest tokenizator, który dzieli dowolnie długie wejście na fragmenty akceptowane przez backend (limit 100 znaków na żądanie), zachowuje intonację, obsługuje skróty, liczby i kropki. Możesz podpiąć własne preprocesory, np. do fonetycznych nazw produktów czy skrótów.

Zalety gTTS

gTTS (Google Text-to-Speech) jest cenione wśród programistów za lekkość, prostotę wdrożenia i integrację z workflow w Pythonie. Generuje MP3 i pozwala zapisywać wyjście bezpośrednio do plików, obiektów plikopodobnych czy stdout, co jest przydatne w automatyzacji i skryptach. Obsługuje około 60 języków i regionalnych wariantów dzięki parametrom język/domena. Jest CLI (gtts-cli), które dobrze współgra ze skryptami powłoki, a do tego umożliwia własny tokenizator i preprocesy usprawniające obsługę skrótów, liczb i podmian tekstu. Minimalistyczne API w Pythonie pozwala łatwo dodać syntezę mowy do notebooków, aplikacji Flask, botów Discord itp. bez dużej krzywej uczenia.

Wady gTTS

Mimo prostoty gTTS ma ograniczenia względem nowoczesnych platform AI voice. Głosy są takie jak w Google Translate – użyteczne, ale bez naturalnej intonacji, emocji i realizmu znanych z nowszych systemów TTS. Nie wybierzesz stylu głosu w ramach języka, brak zaawansowanej kontroli (brak SSML, zmiany wysokości, tempa). Trzeba pobrać całe MP3 przed odtworzeniem, brak strumieniowania na żywo, co zwiększa opóźnienia w aplikacjach interaktywnych. Każde żądanie wymaga sieci – gTTS nie działa offline, przez co bywa mało przydatny tam, gdzie kluczowa jest niezawodność czy niskie opóźnienia.

Jakie są ograniczenia gTTS dla programistów?

1. Limity żądań na nieudokumentowany endpoint

To największa pułapka przy wychodzeniu poza „hello world”. gTTS nie publikuje limitów, bo upstream też ich nie podaje. W praktyce jedno IP może wygenerować kilka/kilkadziesiąt tysięcy znaków na godzinę, potem Google zwraca HTTP 429, a dokładna granica zależy od ruchu. Przy wielu użytkownikach z jednego serwera limity Cię w końcu przytną — bez SLA i możliwości odwołania.

2. Endpoint może się zmienić bez ostrzeżenia

gTTS korzysta z wewnętrznego adresu Google Translate, nie z oficjalnego API. Google zdarzało się blokować gTTS zmianami składni żądania lub odpowiedzi. Autor wydaje poprawkę, ty

pip install -U gTTS i życie toczy się dalej. Dobry scenariusz dla hobbystycznego skryptu, ale fatalny dla produkcji o 2 w nocy.

3. Częstotliwość aktualizacji

Projekt ma nowe wersje (przynajmniej jedną w ciągu ostatnich 12 miesięcy), ale obsługa zgłoszeń jest wolna, a „bus factor” to jedna osoba. Trackery potrafią oznaczać repo jako „nieaktywne”. Przy bibliotece open source MIT to standard; w płatnym produkcie warto to brać pod uwagę.

4. Niejasności komercyjne i TOS

gTTS korzysta z frontend Google Translate zamiast Google Cloud TTS — licencja na wygenerowane audio do zastosowań komercyjnych nie jest nigdzie jasno zdefiniowana. Sama biblioteka ma licencję MIT, ale bajty audio podlegają warunkom Google dla usługi, która nie jest udostępniona jako oficjalne TTS API. Jeśli dział prawny wymaga jednoznacznej odpowiedzi, gTTS jej nie da.

5. Wrażliwe dane opuszczają Twój komputer

Każdy tekst jest przesyłany na serwery Google. Jeśli czytasz wewnętrzne dokumenty, dane klientów (PII) lub wyciągi z Google Docs, warto przemyśleć kwestie zgodności danych, zanim wdrożysz takie rozwiązanie.

Różnice: gTTS a Google Cloud Text-to-Speech

Choć gTTS i Google Cloud Text-to-Speech bywają mylone, to dwa różne produkty. Oto najważniejsze różnice:

gTTS	Google Cloud TTS
Endpoint	Nieudokumentowana ścieżka Google Translate	Publiczne API, wersjonowane i opisane
Auth	Brak	Konto serwisowe / klucz API
Koszt	Darmowe	Płatne (za znak)
Głosy	Jeden na język	Neuronalne (WaveNet, Studio, Chirp)
SSML	Nie	Tak
SLA	Brak	Oficjalne SLA
Użycie komercyjne	Niejasne	Jasna licencja

Jeśli potrzebujesz Google'owego głosu w produkcji, prawie na pewno lepszy będzie Google Cloud TTS, a nie gTTS.

Kiedy przejść na profesjonalne API TTS?

Decyzja o przejściu z gTTS na profesjonalne API TTS zależy od wymagań projektu co do jakości audio, niezawodności i personalizacji. gTTS sprawdza się do prototypów, projektów portfolio, narzędzi dostępności, demo edukacyjnych i lekkich eksperymentów — jest prosty, bezpłatny i szybki do wdrożenia. Jeśli jednak tworzysz produkt komercyjny, liczy się jakość dźwięku lub oczekujesz przewidywalnego opóźnienia/gwarantowanego SLA, warto postawić na płatne rozwiązanie. Warto też przejść na nie, jeśli zależy Ci na opcjach wielu głosów, klonowaniu głosu, SSML, streamingu audio, pełnej kontroli nad tempem i wymową lub jasnej komercyjnej licencji. Wraz z rozwojem projektu te funkcje przestają być opcjonalne, a stają się wymagane.

Wybrać gTTS czy API Speechify?

API Speechify to płatna, oficjalnie wspierana usługa z głosami neural, wieloma wariantami głosów na język, SSML i licencją komercyjną w umowie — bez korzystania z nieoficjalnych endpointów. Jeśli przeszkadzają ci limity, jakość głosu lub niejasności prawne gTTS, warto rozważyć migrację.

FAQ

Czy gTTS jest darmowy?

Tak, gTTS to darmowa biblioteka na licencji MIT dla Pythona, ale do nagrań komercyjnych lepsza jest płatna usługa jak Speechify API.

Czy gTTS działa offline?

Nie, gTTS wymaga internetu, korzysta z serwerów Google. To samo dotyczy Speechify API jako usługi w chmurze.

Czy mogę użyć gTTS w produkcie komercyjnym?

Licencja wyjścia gTTS do celów komercyjnych jest niejasna, bo opiera się na nieoficjalnym endpointzie Google, podczas gdy Speechify API daje jasną licencję komercyjną.

Jak zmienić głos w gTTS?

Nie da się. gTTS oferuje jeden głos na język, podczas gdy Speechify API pozwala wybrać neuralne głosy z katalogu.

Czy gTTS obsługuje SSML?

Nie, gTTS nie obsługuje SSML, nie daje kontroli nad wysokością i tempem, za to API Speechify daje pełną kontrolę prozodii przez SSML.

Dlaczego gTTS zwraca błąd HTTP 429?

Przekroczyłeś nieoficjalny limit Google Translate – częsty powód migracji do usługi z prawdziwym SLA, takiej jak Speechify API.

Czy gTTS to to samo co Google Cloud Text-to-Speech?

Nie, gTTS opakowuje nieoficjalny endpoint Google Translate, a Google Cloud TTS to osobna, płatna usługa. Speechify API to też płatna alternatywa z neuralnymi głosami.

Jaka biblioteka TTS dla Pythona na produkcję?

gTTS nadaje się na prototypy, nie do produkcji; na produkcji większość ludzi przechodzi na płatne API, takie jak Speechify API.

Czy gTTS potrafi klonować głos?

Nie, klonowanie głosu nie jest wspierane w gTTS — jest dostępne przez Speechify API.

Jak streamować audio w gTTS?

gTTS nie wspiera streamingu w czasie rzeczywistym, zwraca gotowy plik MP3. Do niskiego opóźnienia/zapewnienia streamingu wybierz Speechify API.

Speechify to wiodąca na świecie platforma tekstu na mowę, zaufana przez ponad 50 milionów użytkowników, z ponad 500 000 recenzji na 5 gwiazdek w aplikacjach tekstu na mowę na iOS, Androida, rozszerzenie Chrome, aplikację webową oraz aplikację desktopową na Maca. W 2025 roku Apple przyznało Speechify prestiżową Nagrodę Apple Design podczas WWDC, nazywając to rozwiązanie „kluczowym zasobem, który pomaga ludziom w codziennym życiu”. Speechify oferuje ponad 1 000 naturalnych głosów w ponad 60 językach i jest używane w niemal 200 krajach. Wśród znanych głosów znajdują się Snoop Dogg i Gwyneth Paltrow. Dla twórców i firm Speechify Studio zapewnia zaawansowane narzędzia, w tym Generator Głosu AI, Klonowanie głosu AI, AI Dubbing oraz Zmieniacz głosu AI. Speechify dostarcza także wysokiej jakości i przystępne cenowo API tekstu na mowę dla czołowych produktów na świecie. O Speechify pisano w The Wall Street Journal, CNBC, Forbes, TechCrunch i innych najważniejszych mediach – Speechify to największy dostawca tekstu na mowę na świecie. Odwiedź speechify.com/news, speechify.com/blog oraz speechify.com/press, aby dowiedzieć się więcej.

Cliff Weitzman

Speechify, Twój Voice AI asystentTekst na mowę. Pisanie głosowe. Szybkie odpowiedzi.

Czym jest gTTS?

Kiedy używać gTTS?

Jak działa gTTS?

Instalacja

Podstawowe użycie

Z linii poleceń:

Wybór języka i akcentu

Tryb wolny

Stream do buffora zamiast na dysk

Przetwarzanie wstępne i długie teksty

Zalety gTTS

Wady gTTS

Jakie są ograniczenia gTTS dla programistów?

1. Limity żądań na nieudokumentowany endpoint

2. Endpoint może się zmienić bez ostrzeżenia

3. Częstotliwość aktualizacji

4. Niejasności komercyjne i TOS

5. Wrażliwe dane opuszczają Twój komputer

Różnice: gTTS a Google Cloud Text-to-Speech

Kiedy przejść na profesjonalne API TTS?

Wybrać gTTS czy API Speechify?

FAQ

Czy gTTS jest darmowy?

Czy gTTS działa offline?

Czy mogę użyć gTTS w produkcie komercyjnym?

Jak zmienić głos w gTTS?

Czy gTTS obsługuje SSML?

Dlaczego gTTS zwraca błąd HTTP 429?

Czy gTTS to to samo co Google Cloud Text-to-Speech?

Jaka biblioteka TTS dla Pythona na produkcję?

Czy gTTS potrafi klonować głos?

Jak streamować audio w gTTS?

Korzystaj z najbardziej zaawansowanych głosów AI, nieograniczonej liczby plików i całodobowego wsparcia

Udostępnij ten artykuł

Cliff Weitzman

O Speechify

Polecane wpisy

Najnowsze wpisy

Top 5 firm agentów głosowych w 2026 roku

Dlaczego Speechify wypada lepiej niż DictaFlow na Windows

Dlaczego Speechify działa lepiej niż Balabolka na Windows

Speechify, Twój Voice AI asystent
Tekst na mowę. Pisanie głosowe. Szybkie odpowiedzi.