Hva er gTTS?
gTTS er et åpen kildekode Python-bibliotek og kommandolinjeverktøy som gjør tekst om til MP3-lyd ved å bruke Google Translate sitt tekst-til-tale-endepunkt. Du kan lagre resultatet til en fil, til en fil-lignende strøm for videre behandling, eller rett til stdout. Det er laget av Pierre Nicolas Durette, distribuert under MIT-lisensen, og er en av de mest nedlastede TTS-pakkene på PyPI, med omtrent 175 000 ukentlige nedlastninger. Har du noen gang måttet gjøre en streng om til en MP3 på tre Python-linjer, er sannsynligvis gTTS det første du fant.
Men det er viktig å merke seg at gTTS ikke er Google Cloud Text-to-Speech. Den bruker det samme udokumenterte systemet som «Lytt»-knappen i Google Translate. Denne forskjellen påvirker alt nedenfor – hva gTTS er bra til, hvor det stopper, og når du bør velge noe annet.

Når bør du bruke gTTS?
Bruk gTTS til gratis, rask prototyping, enkle MP3-genereringer fra tekst, flerspråklige demoer, hobbyprosjekter, eksempler i klasserommet eller tilgjengelighet-script som leser en Google Docs-eksport høyt. Ikke bruk gTTS hvis du trenger produksjonsstabilitet, dokumentert SLA, stemme-kloning, SSML-kontroll, nevrale eller uttrykksfulle stemmer, strømming eller entydige kommersielle lisenser.
Hvordan fungerer gTTS?
gTTS lager ikke talen lokalt. Den sender en forespørsel til det samme systemet som driver «Lytt»-funksjonen i Google Translate, laster ned MP3-filen og gir deg bytes. Du må altså ha nettilkobling – ingen offline-modus – og lyd produseres på Googles servere, ikke maskinen din. Endepunktet er heller ikke offisielt; prosjektet er ikke tilknyttet Google eller Google Cloud, og endringer fra Google kan plutselig gjøre gTTS ubrukelig.
Installasjon
bash
pip install gTTS
gTTS krever Python 3.7+ og fungerer på macOS, Windows og Linux. Siste PyPI-versjon er 2.5.4 (november 2024). På Debian-systemer, inkl. Raspberry Pi OS, merk forskjellen: pip-pakken heter gTTS, apt-pakken python3-gtts. Får du externally-managed-environment-feil ved pip install på nytt OS, bruk virtuelt miljø.
Grunnleggende bruk
Det enkleste eksemplet:
python
from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")
Fra kommandolinjen:
bash
gtts-cli "hello" --output hello.mp3
Velg språk og aksent
python
tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")
gTTS gir også regionale undertagger via tld-parameteren – for eksempel
tld="co.uk" for britisk engelsk eller tld="ca" for kanadisk fransk – ved å bruke forskjellige Google Translate-toppdomener.
Sakte-modus
python
tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")
Dette er stort sett alle tale-innstillinger du kan styre. Ingen pitch-parameter, ingen hastighetskontroll utenom slow=True, ingen stemmevalg eller SSML.
Strøm til buffer i stedet for disk
python
from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# nå kan buf brukes i pydub, ffmpeg, webrespons, osv.
Forhåndsbehandling og lang tekst
En av gTTSs mest robuste funksjoner er tokenizer-en. Den deler for lange tekster opp i passende biter (opptil ca. 100 tegn hver), holder intonasjon mellom delene, og håndterer forkortelser, desimaler og andre spesialtegn. Du kan også legge til egne pre-prosessorer for å rette typiske uttaleproblemer – for eksempel å skrive produktnavn fonetisk.
Hva er fordelene med gTTS?
gTTS (Google Text-to-Speech) er populær blant utviklere fordi den er lett, enkel å bruke og passer godt inn i en vanlig Python-arbeidsflyt. Den kan lage MP3-lydfiler og skrive til filer eller strømmer, noe som gjør den fleksibel for skript og automatisering. Den støtter rundt 60 språk og flere dialekter med språk- og domenesetting, som gir bred dekning for enkle applikasjoner. Utviklere liker også gtts-cli for kommandolinjen, sammen med tilpassbar tokenizer og forhåndsprosessor for forkortelser, tall og tekstbytte. Med et minimalt Python-API er det lett å legge til tale i Jupyter-notebooks, Flask-apper, Discord-bots og andre lette prosjekter uten stor læringskurve.
Hva er ulempene med gTTS?
Selv om gTTS er enkel, har den klare begrensninger mot nye AI-taleplattformer. Stemmen høres funksjonell ut, men mangler naturlig intonasjon, følelser og realisme sammenlignet med nyere nevrale tekst-til-tale-systemer. Du kan ikke velge mellom flere stemmer per språk, og det finnes ingen avanserte kontroller som SSML, pitch eller presis taletempo. gTTS krever også hele MP3-filen før avspilling og støtter ikke sanntidsstrømming, så det kan gi forsinkelser. Alt skjer over nettet, så den kan ikke brukes offline, og dette gjør den mindre egnet når du trenger høy pålitelighet eller lav forsinkelse.
Hva er begrensningene med gTTS for utviklere?
1. Rate limiting på udokumentert endepunkt
Dette er det største problemet når du går videre fra «hello world». gTTS har ingen publisert kvote fordi tjenesten heller ikke har det. Ofte kan én IP sende titusenvis av tegn i timen før Google svarer med HTTP 429, og taket varierer ut fra trafikk. Om appen lager lyd for mange brukere på én server, treffer du til slutt en uforutsigbar grense.
2. Endepunktet kan endres uten forvarsel
Fordi gTTS bruker en intern Google Translate-rute og ikke en offisiell API, kan Google endre signatur eller respons uten forvarsel. Ved slike endringer kan gTTS slutte å virke over natten. Vedlikeholderen kan rette det, men
du må kjøre pip install -U gTTS før alt fungerer igjen. Helt greit for et hobbyprosjekt, men ikke ideelt kl. 02 i et produksjonssystem.
3. Vedlikeholdsfrekvens
Prosjektet har fortsatt utgivelser, minst én siste 12 måneder, men det tar tid å håndtere issues, og én person driver det. Enkelte trackers kaller repoet «inaktivt». For et gratis MIT-bibliotek er det normalt; som kritisk avhengighet i et betalt produkt bør du vurdere det nøye.
4. Kommersiell og TOS-usikkerhet
gTTS bruker Google Translate-fronten og ikke Google Cloud TTS. Derfor er lisensen for kommersiell bruk av lyd uklar. Biblioteket er MIT, men Google sine vilkår gjelder for selve lyden. Hvis juridisk avdeling trenger et tydelig ja, gir ikke gTTS det svaret.
5. Sensitiv data sendes ut av maskinen
All tekst du lager lyd av sendes til Googles servere. Hvis du voicer interne dokumenter, kundeopplysninger eller innhold fra Google Docs, er dette et datasikkerhetsspørsmål du bør tenke gjennom.
Hva er forskjellen på gTTS og Google Cloud Text-to-Speech?
gTTS og Google Cloud Text-to-Speech forveksles ofte, men er ikke samme produkt. Hovedforskjellene:
Hvis du trenger Google-stemmen i produksjon, velg Google Cloud TTS, ikke gTTS.
Når bør du oppgradere til et profesjonelt TTS-API?
Når du bør gå fra gTTS til et profesjonelt tekst-til-tale-API avhenger av hvor viktig lydkvalitet, stabilitet og tilpasning er for prosjektet ditt. gTTS fungerer fint for prototyper, porteføljeprosjekter, personlige tilgjengelighet-verktøy, skoleeksempler og eksperimenter fordi den er enkel, gratis og lett å ta i bruk. Men hvis du lanserer et produkt med betalende brukere, satser på selve taleopplevelsen eller trenger forutsigbar ventetid med serviceavtale, bør du vurdere en profesjonell løsning. Oppgradering er også naturlig hvis du trenger avanserte funksjoner som flere stemmer, stemme-kloning, SSML, strømming, kontroll på tempo og uttale eller tydelig lisens for kommersiell bruk. Jo mer prosjektet går fra test til produksjon, jo viktigere blir disse kravene.
Bør du velge gTTS eller Speechifys API?
Speechifys API er offisiell, betalt, har nevrale stemmer, flere valg per språk, SSML og kommersiell lisens i kontrakten – ikke bare et skall rundt en udokumentert ressurs. Blir du hindret av grenser, stemmekvalitet eller TOS-usikkerhet i gTTS, bør du vurdere å bytte.
FAQ
Er gTTS gratis å bruke?
Ja, gTTS er gratis og MIT-lisensiert. For kommersiell, lisensiert lyd bør du bruke en betalt tjeneste som Speechify API.
Fungerer gTTS uten nett?
Nei, gTTS krever internettilkobling fordi den bruker Googles servere. Det samme gjelder Speechify API, som er en skytjeneste.
Kan jeg bruke gTTS i et kommersielt produkt?
Lisensen for kommersiell bruk av gTTS-lyd er uklar siden den bruker en udokumentert Google-tjeneste, mens Speechify API har tydelig kommersiell lisens.
Hvordan endrer jeg stemme i gTTS?
Det kan du egentlig ikke. gTTS gir én stemme per språk, mens Speechify API tilbyr mange nevrale stemmer å velge mellom.
Støtter gTTS SSML?
Nei, gTTS har ikke SSML eller pitch- og presis hastighetskontroll, mens Speechify API gir full prosodikontroll med SSML.
Hvorfor får jeg HTTP 429-feil i gTTS?
Du har truffet Google Translate sin ukjente fartsgrense – en vanlig grunn til at utviklere går videre til en tjeneste med ekte SLA, som Speechify API.
Er gTTS det samme som Google Cloud Text-to-Speech?
Nei, gTTS bruker et privat Google Translate-endepunkt, mens Google Cloud TTS er et separat, betalt produkt – Speechify API er et annet betalt alternativ med nevrale stemmer.
Hva er beste Python TTS for produksjon?
gTTS er grei for prototyper, men ikke for produksjon. I produksjon velger de fleste utviklere et betalt API som Speechify API.
Kan gTTS klone en stemme?
Nei, stemme-kloning støttes ikke i gTTS, men finnes i Speechify API.
Hvordan strømmer jeg lyd i gTTS?
gTTS støtter ikke sanntidsstrømming, den gir alltid en ferdig MP3. For lav forsinkelse: bruk Speechify API i stedet.

