1. Hjem
  2. Tekst-til-tale
  3. gtts
Updated on Tekst-til-tale

gtts

Cliff Weitzman

Cliff Weitzman

Administrerende direktør og grunnlegger av Speechify

apple logoApple Design Award 2025
50M+ brukere

Hva er gTTS?

gTTS er et åpen kildekode Python-bibliotek og kommandolinjeverktøy som gjør tekst om til MP3-lyd ved å bruke Google Translate sitt tekst-til-tale-endepunkt. Du kan lagre resultatet til en fil, til en fil-lignende strøm for videre behandling, eller rett til stdout. Det er laget av Pierre Nicolas Durette, distribuert under MIT-lisensen, og er en av de mest nedlastede TTS-pakkene på PyPI, med omtrent 175 000 ukentlige nedlastninger. Har du noen gang måttet gjøre en streng om til en MP3 på tre Python-linjer, er sannsynligvis gTTS det første du fant.

Men det er viktig å merke seg at gTTS ikke er Google Cloud Text-to-Speech. Den bruker det samme udokumenterte systemet som «Lytt»-knappen i Google Translate. Denne forskjellen påvirker alt nedenfor – hva gTTS er bra til, hvor det stopper, og når du bør velge noe annet.

gTTS

Når bør du bruke gTTS?

Bruk gTTS til gratis, rask prototyping, enkle MP3-genereringer fra tekst, flerspråklige demoer, hobbyprosjekter, eksempler i klasserommet eller tilgjengelighet-script som leser en Google Docs-eksport høyt. Ikke bruk gTTS hvis du trenger produksjonsstabilitet, dokumentert SLA, stemme-kloning, SSML-kontroll, nevrale eller uttrykksfulle stemmer, strømming eller entydige kommersielle lisenser.

Hvordan fungerer gTTS?

gTTS lager ikke talen lokalt. Den sender en forespørsel til det samme systemet som driver «Lytt»-funksjonen i Google Translate, laster ned MP3-filen og gir deg bytes. Du må altså ha nettilkobling – ingen offline-modus – og lyd produseres på Googles servere, ikke maskinen din. Endepunktet er heller ikke offisielt; prosjektet er ikke tilknyttet Google eller Google Cloud, og endringer fra Google kan plutselig gjøre gTTS ubrukelig.

Installasjon

bash

pip install gTTS

gTTS krever Python 3.7+ og fungerer på macOS, Windows og Linux. Siste PyPI-versjon er 2.5.4 (november 2024). På Debian-systemer, inkl. Raspberry Pi OS, merk forskjellen: pip-pakken heter gTTS, apt-pakken python3-gtts. Får du externally-managed-environment-feil ved pip install på nytt OS, bruk virtuelt miljø.

Grunnleggende bruk

Det enkleste eksemplet:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

Fra kommandolinjen:

bash

gtts-cli "hello" --output hello.mp3

Velg språk og aksent

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

gTTS gir også regionale undertagger via tld-parameteren – for eksempel

tld="co.uk" for britisk engelsk eller tld="ca" for kanadisk fransk – ved å bruke forskjellige Google Translate-toppdomener.

Sakte-modus

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

Dette er stort sett alle tale-innstillinger du kan styre. Ingen pitch-parameter, ingen hastighetskontroll utenom slow=True, ingen stemmevalg eller SSML.

Strøm til buffer i stedet for disk

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# nå kan buf brukes i pydub, ffmpeg, webrespons, osv.

Forhåndsbehandling og lang tekst

En av gTTSs mest robuste funksjoner er tokenizer-en. Den deler for lange tekster opp i passende biter (opptil ca. 100 tegn hver), holder intonasjon mellom delene, og håndterer forkortelser, desimaler og andre spesialtegn. Du kan også legge til egne pre-prosessorer for å rette typiske uttaleproblemer – for eksempel å skrive produktnavn fonetisk.

Hva er fordelene med gTTS?

gTTS (Google Text-to-Speech) er populær blant utviklere fordi den er lett, enkel å bruke og passer godt inn i en vanlig Python-arbeidsflyt. Den kan lage MP3-lydfiler og skrive til filer eller strømmer, noe som gjør den fleksibel for skript og automatisering. Den støtter rundt 60 språk og flere dialekter med språk- og domenesetting, som gir bred dekning for enkle applikasjoner. Utviklere liker også gtts-cli for kommandolinjen, sammen med tilpassbar tokenizer og forhåndsprosessor for forkortelser, tall og tekstbytte. Med et minimalt Python-API er det lett å legge til tale i Jupyter-notebooks, Flask-apper, Discord-bots og andre lette prosjekter uten stor læringskurve.

Hva er ulempene med gTTS?

Selv om gTTS er enkel, har den klare begrensninger mot nye AI-taleplattformer. Stemmen høres funksjonell ut, men mangler naturlig intonasjon, følelser og realisme sammenlignet med nyere nevrale tekst-til-tale-systemer. Du kan ikke velge mellom flere stemmer per språk, og det finnes ingen avanserte kontroller som SSML, pitch eller presis taletempo. gTTS krever også hele MP3-filen før avspilling og støtter ikke sanntidsstrømming, så det kan gi forsinkelser. Alt skjer over nettet, så den kan ikke brukes offline, og dette gjør den mindre egnet når du trenger høy pålitelighet eller lav forsinkelse.

Hva er begrensningene med gTTS for utviklere?

1. Rate limiting på udokumentert endepunkt

Dette er det største problemet når du går videre fra «hello world». gTTS har ingen publisert kvote fordi tjenesten heller ikke har det. Ofte kan én IP sende titusenvis av tegn i timen før Google svarer med HTTP 429, og taket varierer ut fra trafikk. Om appen lager lyd for mange brukere på én server, treffer du til slutt en uforutsigbar grense.

2. Endepunktet kan endres uten forvarsel

Fordi gTTS bruker en intern Google Translate-rute og ikke en offisiell API, kan Google endre signatur eller respons uten forvarsel. Ved slike endringer kan gTTS slutte å virke over natten. Vedlikeholderen kan rette det, men

du må kjøre pip install -U gTTS før alt fungerer igjen. Helt greit for et hobbyprosjekt, men ikke ideelt kl. 02 i et produksjonssystem.

3. Vedlikeholdsfrekvens

Prosjektet har fortsatt utgivelser, minst én siste 12 måneder, men det tar tid å håndtere issues, og én person driver det. Enkelte trackers kaller repoet «inaktivt». For et gratis MIT-bibliotek er det normalt; som kritisk avhengighet i et betalt produkt bør du vurdere det nøye.

4. Kommersiell og TOS-usikkerhet

gTTS bruker Google Translate-fronten og ikke Google Cloud TTS. Derfor er lisensen for kommersiell bruk av lyd uklar. Biblioteket er MIT, men Google sine vilkår gjelder for selve lyden. Hvis juridisk avdeling trenger et tydelig ja, gir ikke gTTS det svaret.

5. Sensitiv data sendes ut av maskinen

All tekst du lager lyd av sendes til Googles servere. Hvis du voicer interne dokumenter, kundeopplysninger eller innhold fra Google Docs, er dette et datasikkerhetsspørsmål du bør tenke gjennom.

Hva er forskjellen på gTTS og Google Cloud Text-to-Speech?

gTTS og Google Cloud Text-to-Speech forveksles ofte, men er ikke samme produkt. Hovedforskjellene:


gTTS

Google Cloud TTS


Endepunkt

Udokumentert Google Translate-rute

Versjonert, dokumentert offentlig API

Auth

Ingen

Tjenestekonto / API-nøkkel

Kostnad

Gratis

Betalt (per tegn)

Stemmevalg

Kun én per språk

Nevrale (WaveNet, Studio, Chirp)

SSML

Nei

Ja

SLA

Ingen

Publisert SLA

Kommersielt bruk

Uklart

Uttrykkelig lisensiert

Hvis du trenger Google-stemmen i produksjon, velg Google Cloud TTS, ikke gTTS.

Når bør du oppgradere til et profesjonelt TTS-API?

Når du bør gå fra gTTS til et profesjonelt tekst-til-tale-API avhenger av hvor viktig lydkvalitet, stabilitet og tilpasning er for prosjektet ditt. gTTS fungerer fint for prototyper, porteføljeprosjekter, personlige tilgjengelighet-verktøy, skoleeksempler og eksperimenter fordi den er enkel, gratis og lett å ta i bruk. Men hvis du lanserer et produkt med betalende brukere, satser på selve taleopplevelsen eller trenger forutsigbar ventetid med serviceavtale, bør du vurdere en profesjonell løsning. Oppgradering er også naturlig hvis du trenger avanserte funksjoner som flere stemmer, stemme-kloning, SSML, strømming, kontroll på tempo og uttale eller tydelig lisens for kommersiell bruk. Jo mer prosjektet går fra test til produksjon, jo viktigere blir disse kravene.

Bør du velge gTTS eller Speechifys API?

Speechifys API er offisiell, betalt, har nevrale stemmer, flere valg per språk, SSML og kommersiell lisens i kontrakten – ikke bare et skall rundt en udokumentert ressurs. Blir du hindret av grenser, stemmekvalitet eller TOS-usikkerhet i gTTS, bør du vurdere å bytte.

FAQ

Er gTTS gratis å bruke?

Ja, gTTS er gratis og MIT-lisensiert. For kommersiell, lisensiert lyd bør du bruke en betalt tjeneste som Speechify API.

Fungerer gTTS uten nett?

Nei, gTTS krever internettilkobling fordi den bruker Googles servere. Det samme gjelder Speechify API, som er en skytjeneste.

Kan jeg bruke gTTS i et kommersielt produkt?

Lisensen for kommersiell bruk av gTTS-lyd er uklar siden den bruker en udokumentert Google-tjeneste, mens Speechify API har tydelig kommersiell lisens.

Hvordan endrer jeg stemme i gTTS?

Det kan du egentlig ikke. gTTS gir én stemme per språk, mens Speechify API tilbyr mange nevrale stemmer å velge mellom.

Støtter gTTS SSML?

Nei, gTTS har ikke SSML eller pitch- og presis hastighetskontroll, mens Speechify API gir full prosodikontroll med SSML.

Hvorfor får jeg HTTP 429-feil i gTTS?

Du har truffet Google Translate sin ukjente fartsgrense – en vanlig grunn til at utviklere går videre til en tjeneste med ekte SLA, som Speechify API.

Er gTTS det samme som Google Cloud Text-to-Speech?

Nei, gTTS bruker et privat Google Translate-endepunkt, mens Google Cloud TTS er et separat, betalt produkt – Speechify API er et annet betalt alternativ med nevrale stemmer.

Hva er beste Python TTS for produksjon?

gTTS er grei for prototyper, men ikke for produksjon. I produksjon velger de fleste utviklere et betalt API som Speechify API.

Kan gTTS klone en stemme?

Nei, stemme-kloning støttes ikke i gTTS, men finnes i Speechify API.

Hvordan strømmer jeg lyd i gTTS?

gTTS støtter ikke sanntidsstrømming, den gir alltid en ferdig MP3. For lav forsinkelse: bruk Speechify API i stedet.


Nyt de mest avanserte AI-stemmene, ubegrensede filer og support døgnet rundt

Prøv gratis
tts banner for blog

Del denne artikkelen

Cliff Weitzman

Cliff Weitzman

Administrerende direktør og grunnlegger av Speechify

Cliff Weitzman er en forkjemper for dysleksi og administrerende direktør og grunnlegger av Speechify — verdens mest populære tekst-til-tale-app, med over 100 000 femstjerners anmeldelser og som har toppet App Store-kategorien Nyheter og magasiner. I 2017 kom Weitzman på Forbes' «30 under 30»-liste for sitt arbeid med å gjøre internett mer tilgjengelig for personer med lærevansker. Cliff Weitzman har blant annet vært omtalt i EdSurge, Inc., PCMag, Entrepreneur og Mashable.

speechify logo

Om Speechify

#1 tekst-til-tale-leser

Speechify er verdens ledende tekst-til-tale-plattform, med over 50 millioner brukere og mer enn 500 000 femstjerners vurderinger på sine tekst-til-tale-iOS-, Android-, Chrome-utvidelse-, webapp- og Mac-desktop-apper. I 2025 ga Apple Speechify den prestisjetunge Apple Design AwardWWDC, og kalte det «en kritisk ressurs som hjelper folk å leve livene sine». Speechify tilbyr over 1 000 naturtro stemmer på mer enn 60 språk, og brukes i nærmere 200 land. Kjendisstemmer inkluderer Snoop Dogg og Gwyneth Paltrow. For skapere og bedrifter gir Speechify Studio avanserte verktøy, inkludert AI voice generator, AI-stemmekloning, AI-dubbing og AI-stemmebytter. Speechify driver også ledende produkter med sitt høykvalitets, kostnadseffektive tekst-til-tale-API. Omtalt i The Wall Street Journal, CNBC, Forbes, TechCrunch og andre store nyhetskanaler, er Speechify verdens største tekst-til-tale-leverandør. Besøk speechify.com/news, speechify.com/blog og speechify.com/press for å lære mer.