1. Startseite
  2. Text vorlesen lassen
  3. gtts
Updated on Text vorlesen lassen

gtts

Cliff Weitzman

Cliff Weitzman

CEO und Gründer von Speechify

apple logoApple Design Award 2025
50 Mio.+ Nutzer

Was ist gTTS?

gTTS ist eine Open-Source-Python-Bibliothek und ein Kommandozeilentool, das Text mit Hilfe von Google Translate in gesprochenes MP3-Audio umwandelt. Die Ausgabe kann in eine Datei, ein dateiähnliches Objekt für weitere Audioverarbeitung oder direkt nach stdout geschrieben werden. Autor ist Pierre Nicolas Durette, die Verteilung erfolgt unter MIT-Lizenz, und es ist eines der meistgeladenen Text vorlesen lassen-Pakete auf PyPI mit etwa 175.000 Downloads pro Woche zum Zeitpunkt dieses Textes. Wer je einen String in drei Zeilen Python zu MP3 machen wollte, ist wahrscheinlich zuerst bei gTTS gelandet.

Wichtig: gTTS ist nicht Google Cloud Text-to-Speech. Es nutzt dasselbe, nicht dokumentierte Backend wie der „Anhören“-Button von Google Translate. Diese Unterscheidung beeinflusst alles, was gTTS gut kann, wo es Einschränkungen gibt und wann Sie besser zu einer anderen Lösung greifen.

gTTS

Wann sollten Sie gTTS verwenden?

gTTS eignet sich ideal für kostenloses, schnelles Prototyping, Einzeiler zum Erzeugen von MP3s aus Text, mehrsprachige Demos, Hobbyprojekte, Unterrichtsbeispiele oder Barrierefreiheit-Skripte, die einen Google Docs-Export vorlesen. Nicht nutzen sollten Sie gTTS, wenn Sie produktionsreife Zuverlässigkeit, dokumentierte SLAs, Stimmenklonen, SSML, neuronale/ausdrucksstarke Stimmen, Streaming oder eindeutige kommerzielle Lizenzen brauchen.

Wie funktioniert gTTS?

gTTS erzeugt lokal keine Sprache. Es stellt eine Anfrage an dasselbe Backend wie Googles „Anhören“-Funktion bei Translate, lädt das MP3 herunter und liefert die Bytes. Dafür brauchen Sie eine aktive Internetverbindung; offline funktioniert es nicht, und das Audio wird auf Googles Servern erzeugt. Das genutzte Endpoint ist inoffiziell. Das Projekt steht nicht in Verbindung mit Google oder Google Cloud und Änderungen am Backend können ohne Vorwarnung zu Ausfällen führen.

Installation

bash

pip install gTTS

gTTS benötigt Python 3.7+, läuft unter macOS, Windows und Linux. Die aktuelle PyPI-Version ist 2.5.4 (November 2024). Achtung bei Debian-basierten Systemen (z. B. Raspberry Pi OS): Das pip-Paket heißt gTTS, das apt-Paket python3-gtts. Scheitert pip install mit einem externally-managed-environment-Fehler, installieren Sie besser in eine virtuelle Umgebung.

Grundlegende Nutzung

Das minimalste Beispiel:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

Von der Kommandozeile:

bash

gtts-cli "hello" --output hello.mp3

Auswahl von Sprache und Akzent

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

gTTS unterstützt Regionen-Subtags über den tld-Parameter – beispielsweise

tld="co.uk" für britisches Englisch oder tld="ca" für kanadisches Französisch, indem die Anfrage über verschiedene Google-Translate-Domains läuft.

Langsam-Modus

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

Das ist praktisch schon der ganze Funktionsumfang für Sprachsteuerung. Es gibt keinen Pitch-Parameter, keinen Regler außer slow=True, keine Stimmwahl, kein SSML.

In einen Buffer statt auf Disk streamen

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# nun buf in pydub, ffmpeg, Web-Response usw. einspeisen

Preprocessing und langer Text

Eine der am besten umgesetzten Funktionen von gTTS ist der Tokenizer. Er teilt beliebig lange Eingaben in Backend-taugliche Stücke (das Upstream-Endpoint begrenzt pro Anfrage auf ca. 100 Zeichen), erhält Intonation, erkennt Abkürzungen, Dezimalzahlen und andere Spezialfälle. Eigene Pre-Processor lassen sich einbauen, um z. B. Produktnamen oder Akronyme phonetisch korrekt auszugeben.

Was sind die Vorteile von gTTS?

gTTS (Google Text-to-Speech) ist bei Entwicklern beliebt, weil es schlank, leicht einzusetzen und sehr gut in Python-Projekte integrierbar ist. Es erstellt MP3-Dateien und kann in Dateien, Streams oder stdout ausgeben und ist damit flexibel für Automatisierungs- und Scripting-Projekte. Mit Unterstützung für ca. 60 Sprachen plus Dialekt-Varianten durch Domain-Einstellung ist es breit mehrsprachig nutzbar. Praktisch sind auch das Kommandozeilentool (gtts-cli), Anpassungen für Abkürzungen/Zahlen/Textsubstitutionen sowie das minimalistische Python-API – so lässt sich Sprache leicht etwa in Jupyter-Notebooks, Flask-Apps, Discord-Bots und mehr einbauen.

Was sind die Nachteile von gTTS?

Trotz seiner Einfachheit hat gTTS deutliche Einschränkungen gegenüber modernen KI-Stimmengeneratoren. Die Stimmen basieren auf der Standardausgabe von Google Translate, sind zwar funktional, klingen aber weniger natürlich und emotional als neue neuronale Text vorlesen lassen-Systeme. Man kann pro Sprache nicht zwischen Stilen wählen, es gibt keine erweiterten Kontrollen wie SSML-Unterstützung, keine Tonhöhen- oder exakte Geschwindigkeitssteuerung. gTTS lädt das komplette MP3 vorab, statt Streaming zu unterstützen, was die Latenz erhöht. Da alle Anfragen eine Internetverbindung benötigen, funktioniert gTTS offline nicht und ist für geschäftskritische, latenzarme Anwendungen kaum geeignet.

Was sind die Einschränkungen von gTTS für Entwickler?

1. Ratenlimits auf einem undokumentierten Endpoint

Das ist die größte Stolperfalle über „Hello World“ hinaus. gTTS veröffentlicht kein Nutzungslimit, weil der Upstream-Service es auch nicht tut. Im Normalfall gehen pro Stunde zehntausende Zeichen pro IP, bis Google HTTP 429 („zu viele Anfragen“) zurückgibt. Wenn Ihre App Audio für viele Nutzer von einem Server aus erzeugt, stoßen Sie irgendwann an diese Grenze – ohne SLA für Reklamationen.

2. Das Endpoint kann sich ohne Vorwarnung ändern

Da gTTS eine interne Google-Translate-Route nutzt und keine veröffentlichte API, kann Google – wie schon passiert – gTTS durch Änderungen von Signaturen oder Antworten abrupt unbrauchbar machen. Der Maintainer liefert Fixes und

pip install -U gTTS – und alles läuft weiter. Für Hobbys okay, für produktive Einsätze um 2 Uhr nachts eher heikel.

3. Wartungsfrequenz

Das Projekt liefert noch Releases (mindestens eines im letzten Jahr), aber die Problembearbeitung geht langsam, und der Busfaktor ist praktisch eine Person. Manche Tracker stufen das Repo als „inaktiv“ ein. Für eine kostenlose MIT-Lizenz üblich, als tragende Abhängigkeit in einem Bezahlprodukt aber ein Risiko.

4. Kommerzielle Nutzung & TOS unklar

Da gTTS das Google-Translate-Frontend nutzt, ist die Lizenzierung der Audioausgabe für kommerzielle Nutzung nirgends klar geregelt. Die Bibliothek ist MIT-lizenziert, aber für die Audio-Bytes gelten die Terms of Service eines nicht offiziell bereitgestellten TTS-Dienstes. Einfache rechtliche Antworten liefert gTTS nicht.

5. Sensible Daten verlassen Ihr System

Jede Zeichenkette wird an Googles Server übermittelt. Wer interne Dokumente, Kundendaten oder Inhalte aus Google Docs vertonen möchte, muss dies vorab mit dem Datenschutz abklären.

Was ist der Unterschied zwischen gTTS und Google Cloud Text-to-Speech?

Obwohl gTTS und Google Cloud Text-to-Speech oft verwechselt werden, sind es verschiedene Produkte. Hier die Unterscheidungen:


gTTS

Google Cloud TTS


Endpoint

Undokumentierte Google-Translate-Route

Versionierte, dokumentierte API

Auth

Keine

Service-Konto / API-Key

Kosten

Kostenlos

Kostenpflichtig (pro Zeichen)

Stimmen

Eine pro Sprache

Neuronale (WaveNet, Studio, Chirp)

SSML

Nein

Ja

SLA

Keine

Veröffentlichte SLA

Kommerzielle Nutzung

Unklar

Explizit lizenziert

Wenn Sie die Google-Stimme produktiv nutzen möchten, brauchen Sie fast immer Google Cloud TTS, nicht gTTS.

Wann auf professionelle Text vorlesen lassen-API umsteigen?

Wann Sie von gTTS zu einer professionellen Text vorlesen lassen-API wechseln sollten, hängt davon ab, wie wichtig Audioqualität, Zuverlässigkeit und Anpassungen für Ihr Projekt sind. Für Prototypen, Hobby-Apps, Barrierefreiheit, Unterricht und leichte Experimente ist gTTS ideal, da es einfach, kostenlos und schnell einsatzbereit ist. Für produktive Anwendungen mit zahlenden Kunden, Qualität als UX-Kriterium oder SLA wird aber ein Profi-Anbieter wichtig. Auch bei Wunsch nach mehreren Stimmen, Stimmenklonen, SSML-Unterstützung, Streaming, detaillierter Steuerung oder klarer juristischer Lizenz lohnt sich der Schritt. Je produktionsnäher Ihr Projekt, desto wichtiger werden diese Funktionen.

gTTS oder Speechify API wählen?

Speechify Text vorlesen lassen API ist ein offiziell unterstützter, kostenpflichtiger Dienst mit neuronalen Stimmen, mehreren Stimmoptionen pro Sprache, SSML-Unterstützung und offizieller Lizenz im Vertrag – statt eines Wrappers für ein nicht dokumentiertes Endpoint. Stoßen Sie bei gTTS an Grenzen bei Umfang, Sprachqualität oder Lizenz, ist dieser Wechsel ein sinnvoller Ansatz.

FAQ

Ist gTTS kostenlos?

Ja, gTTS ist eine kostenlose Python-Bibliothek (MIT-Lizenz), aber für kommerzielle, lizenzierte Audioausgabe empfiehlt sich ein Dienst wie die Speechify API.

Funktioniert gTTS offline?

Nein, gTTS benötigt Internetzugang (Zugriff auf Googles Server). Gleiches gilt für die Speechify API, die cloudbasiert ist.

Darf ich gTTS kommerziell nutzen?

Die Lizenzierung der gTTS-Ausgabe für kommerzielle Nutzung ist unklar, da ein undokumentiertes Google-Endpoint genutzt wird. Die Speechify API bietet hierfür explizite Lizenzierung.

Wie kann ich in gTTS Stimmen wechseln?

Kann man nicht wirklich. gTTS bietet je Sprache eine Stimme, während die Speechify API einen Katalog neuronaler Stimmen bereitstellt.

Kann gTTS SSML?

Nein, gTTS bietet keine SSML-Unterstützung, keine Tonhöhenregelung und keine genaue Geschwindigkeitssteuerung. Die Speechify API unterstützt SSML und Prosodie.

Warum gibt gTTS HTTP 429 aus?

Sie haben das undokumentierte Google-Translate-Limit erreicht. Viele Entwickler steigen dann auf einen Dienst mit echtem SLA um, zum Beispiel die Speechify API.

Ist gTTS das gleiche wie Google Cloud Text-to-Speech?

Nein, gTTS nutzt einen inoffiziellen Google-Translate-Endpoint, Google Cloud TTS ist ein eigenständiges Bezahlprodukt. Die Speechify API ist eine weitere kostenpflichtige Alternative mit neuronalen Stimmen.

Beste Python-Bibliothek für Produktion?

gTTS reicht für Prototypen, aber nicht für Produktion. Für produktive Workloads nutzen die meisten eine bezahlte API, etwa die Speechify API.

Kann gTTS Stimmen klonen?

Nein, Stimmenklonen wird von gTTS nicht unterstützt – mit der Speechify API ist es möglich.

Wie kann ich mit gTTS Audio streamen?

gTTS unterstützt kein Echtzeit-Streaming, sondern gibt eine fertige MP3 zurück. Für niedrige Latenz nutzen Sie am besten die Speechify API.


Profitieren Sie von modernsten KI-Stimmen, unbegrenzten Dateien und 24/7-Support

Kostenlos testen
tts banner for blog

Diesen Artikel teilen

Cliff Weitzman

Cliff Weitzman

CEO und Gründer von Speechify

Cliff Weitzman setzt sich als Fürsprecher für Menschen mit Dyslexie ein und ist Gründer und CEO von Speechify, der weltweit führenden Text‑to‑Speech‑App (KI‑Stimmen‑Generator) mit über 100.000 5‑Sterne‑Bewertungen, die im App Store die Kategorie "News & Magazines" anführt. 2017 wurde Weitzman für seine Arbeit zur besseren Zugänglichkeit des Internets für Menschen mit Lernschwierigkeiten in die Forbes‑Liste "30 Under 30" aufgenommen. Über ihn berichteten bereits Publikationen wie EdSurge, Inc., PC Mag, Entrepreneur und Mashable.

speechify logo

Über Speechify

#1 Text-vorlesen-lassen-Reader

Speechify ist die weltweit führende Text-vorlesen-lassen-Plattform, der mehr als 50 Millionen Nutzer vertrauen und die von über 500.000 Fünf-Sterne-Bewertungen für die Text-vorlesen-lassen-iOS-, Android-, Chrome-Erweiterung-, Web-App- und Mac-Desktop-Anwendungen unterstützt wird. 2025 verlieh Apple Speechify den renommierten Apple Design Award auf der WWDC und bezeichnete es als „eine wichtige Ressource, die Menschen hilft, ihren Alltag zu meistern“. Speechify bietet über 1.000 natürlich klingende Stimmen in mehr als 60 Sprachen und wird in fast 200 Ländern genutzt. Zu den prominenten Stimmen gehören Snoop Dogg und Gwyneth Paltrow. Für Kreative und Unternehmen bietet Speechify Studio fortschrittliche Tools wie den KI-Stimmengenerator, KI-Stimmenklonen, KI-Dubbing und den KI-Stimmenveränderer. Mit seiner hochwertigen und zugleich erschwinglichen Text-vorlesen-lassen-API ermöglicht Speechify zudem branchenführende Produkte. In The Wall Street Journal, CNBC, Forbes, TechCrunch und anderen namhaften Medien vorgestellt, ist Speechify der weltweit führende Anbieter für Text vorlesen lassen. Besuchen Sie speechify.com/news, speechify.com/blog und speechify.com/press, um mehr zu erfahren.