1. Hjem
  2. TTS
  3. gtts
Updated on TTS

gtts

Cliff Weitzman

Cliff Weitzman

CEO og grundlægger af Speechify

#1 Tekst-til-tale læser.
Lad Speechify læse for dig.

apple logo2025 Apple Design Award
50M+ brugere

Hvad er gTTS?

gTTS er et open source Python-bibliotek og kommandolinjeværktøj, som omdanner tekst til talt MP3-lyd via Google Translate’s tekst-til-tale-endpoint. Output kan gemmes til en fil, et fil-lignende objekt til videre behandling eller direkte til stdout. Det er udviklet af Pierre Nicolas Durette, har MIT-licens og er blandt de mest downloadede TTS-pakker på PyPI med ca. 175.000 ugentlige downloads. Hvis du har skullet lave en MP3 fra en tekststreng med tre linjer Python, er gTTS sandsynligvis det første resultat, du har fundet.

Men det er vigtigt at understrege, at gTTS ikke er Google Cloud Text-to-Speech. Den bruger samme uofficielle backend, som står bag “Lyt”-knappen i Google Translate. Denne forskel påvirker alt nedenfor: hvad gTTS er god til, hvor den halter, og hvornår du i stedet bør vælge andre løsninger.

gTTS

Hvornår bør du bruge gTTS?

Brug gTTS til gratis, hurtig prototyping, enkel generering af MP3 fra tekst, flersprogede demoer, hobbyprojekter, klasseeksempler eller som tilgængeligheds-script til at læse Google Docs højt. Brug ikke gTTS, hvis du har brug for produktionsstabilitet, dokumenteret SLA, voice cloning, SSML, neurale eller ekspressive stemmer, streamet lyd eller klare kommercielle licensvilkår.

Sådan virker gTTS

gTTS syntetiserer ikke lyd lokalt. Den laver en forespørgsel til Google Translate’s “Lyt”-backend, downloader MP3-filen og leverer bytes til dig. Derfor kræves internetforbindelse – der findes ingen offline-tilstand, og lyden genereres på Googles servere. Endpoint’et er også uofficielt; projektet har ingen forbindelse til Google/Cloud, og ændringer kan bryde det uden varsel.

Installation

bash

pip install gTTS

gTTS kræver Python 3.7+ og kører på macOS, Windows og Linux. Seneste PyPI-udgivelse er 2.5.4 (november 2024). På Debian/Raspberry Pi OS: pip-pakken hedder gTTS, mens apt-pakken hedder python3-gtts. Får du fejl om eksternt styret miljø på nye OS, så brug i stedet et virtuelt miljø.

Grundlæggende brug

Det korteste eksempel:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

Fra kommandolinjen:

bash

gtts-cli "hello" --output hello.mp3

Vælg sprog og accent

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

gTTS understøtter regions-tags via parameteren tld – fx

tld="co.uk" for britisk-engelsk accent eller tld="ca" for canadisk-fransk ved at rute kaldet gennem forskellige Google-domæner.

Langsom tilstand

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

Det er faktisk hele lydkontrolfladen – ingen pitch-parameter, ingen hastighedskontrol ud over slow=True, ingen stemmevalg og ingen SSML.

Stream til buffer i stedet for disk

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# nu kan buf bruges i pydub, ffmpeg, webrespons osv.

Forbehandling og lang tekst

En af gTTS’ stærkere sider er dens tokenizer. Den opdeler meget langt input i bidder, som backenden accepterer (op til cirka 100 tegn pr. forespørgsel), bevarer intonationen og håndterer forkortelser, decimaler og kanttilfælde omkring punktum. Du kan også bruge egne pre-processors, fx til at rette udtale af produktnavne eller forkortelser.

Fordele ved gTTS

gTTS (Google Text-to-Speech) er populær blandt udviklere, fordi den er letvægts, nem at bruge og let at integrere i Python. Den kan gemme output som MP3 til filer, fil-lignende objekter eller stdout – praktisk til automation og scripting. Med understøttelse af ca. 60 sprog og flere dialekter via sprog- og domæneparametre dækker den bredt ved enkle brugsscenarier. CLI-værktøjet (gtts-cli) spiller godt sammen med shell-scripts, og tokenizer/pre-processing kan tilpasses forkortelser, tal og udskiftning. Det lille Python-API gør det nemt at føje tale til Jupyter, Flask, Discord m.m. uden stor læringskurve.

Ulemper ved gTTS

Trods sin enkelhed har gTTS begrænsninger sammenlignet med moderne AI-taleplatforme. Stemmerne bygger på standard Google Translate-udtale, så de lyder mekaniske uden samme naturlige intonation, følelse og realisme som nyere neurale tekst til tale. Man kan ikke vælge mellem stemmestile pr. sprog, og der er ingen avancerede indstillinger som SSML, pitch eller detaljeret taletempo. gTTS kræver også, at hele MP3-filen er downloadet, før du kan afspille den, i stedet for streaming, hvilket kan give ventetid. Da alle forespørgsler behandles online, kan gTTS ikke køre offline og er ikke velegnet, hvor pålidelighed og lav forsinkelse er afgørende.

Hvilke begrænsninger har gTTS for udviklere?

1. Rate limiting på uofficielt endpoint

Det største problem er brug ud over klassisk “hello world”. gTTS offentliggør ikke et kvoteloft, og det gør upstream heller ikke. Typisk kan én IP sende titusinder af tegn i timen, før Google svarer med HTTP 429, men grænsen varierer efter trafik. Hvis din app genererer lyd til mange brugere fra én server, rammer du til sidst grænsen – og der er ingen SLA, du kan læne dig op ad.

2. Endpoint kan ændre sig uden varsel

Da gTTS bruger et internt Google Translate-endpoint i stedet for en versioneret, offentlig API, kan Google ændre request/response-formatet fra den ene dag til den anden. Maintaineren laver en rettelse, du

pip install -U gTTS, og så virker det igen. Det er fint til hobbybrug, men knap så sjovt i produktion kl. 2 om natten.

3. Vedligeholdelsestempo

Projektet får stadig nye releases (mindst én det seneste år), men triage og bugfixes går langsomt, og der er reelt kun én vedligeholder. Nogle kalder repo’en “inaktiv”. Det er normalt for et MIT/libre-værktøj, men hvis du vil bygge et betalt produkt ovenpå, bør du tænke over det.

4. Kommerciel og TOS-usikkerhed

Da gTTS bruger Google Translate og ikke Google Cloud TTS, er det uklart, hvad licensen for genereret lyd til kommercielt brug er. Selve biblioteket er MIT-licenseret, men lydfilen er underlagt Googles vilkår for en service, der ikke officielt er et TTS-API. Spørg dit juridiske team – gTTS kan ikke give dig klare svar.

5. Følsomme data forlader din computer

Alle tekster, du syntetiserer, sendes til Googles servere. Læser du interne dokumenter, kunde-PII eller indhold fra Google Docs og andre systemer, er det en data-governance-risiko, du skal forholde dig til, før du sender noget af sted.

Hvad er forskellen på gTTS og Google Cloud Text-to-Speech?

Selvom gTTS og Google Cloud Text-to-Speech ofte forveksles, er de ikke det samme. Forskellene er:


gTTS

Google Cloud TTS


Endpoint

Uofficielt Google Translate-endpoint

Dokumenteret, versioneret API

Auth

Ingen

Servicekonto / API-nøgle

Pris

Gratis

Betalt (pr. tegn)

Stemmer

Én pr. sprog

Neurale (WaveNet, Studio, Chirp)

SSML

Nej

Ja

SLA

Ingen

Offentlig SLA

Kommerciel brug

Uklart

Klar licens

Skal du bruge Google-stemmen i produktion, så brug Google Cloud TTS og ikke gTTS.

Hvornår bør du opgradere til en professionel TTS-API?

Tidspunktet for at skifte fra gTTS til en professionel tekst til tale-API afhænger af krav til lydkvalitet, pålidelighed og tilpasning. gTTS egner sig til prototyper, portfolioprojekter, personlige tilgængeligheds-værktøjer og undervisning, fordi det er simpelt, gratis og nemt. Men til produkter for betalende kunder, tale-båret brugeroplevelse eller behov for lav ventetid og SLA er en professionel løsning vigtigere. Opgradering anbefales også ved behov for flere stemmer, voice cloning, SSML, audio-streaming eller klare licenser af hensyn til lovgivning/forretning. Når projekter går fra test til produktion, bliver de funktioner ofte uundværlige.

Skal du vælge gTTS eller Speechify's API?

Speechifys tekst til tale API er en officielt supporteret, betalt service med neurale stemmer, flere stemmer pr. sprog, SSML og indbygget kommerciel licens – ikke bare et API-wrappet uofficielt endpoint. Hvis rate-limits, stemmekvalitet eller TOS i gTTS spænder ben for dig, er det værd at overveje at skifte.

FAQ

Er gTTS gratis at bruge?

Ja, gTTS er et gratis, MIT-licenseret Python-bibliotek – men til kommercielt brugbar lyd skal du bruge en betalt service som Speechify API.

Virker gTTS offline?

Nej, gTTS kræver internet, fordi det bruger Googles servere – det samme gælder for Speechify API, som er cloud-baseret.

Må jeg bruge gTTS i kommercielle produkter?

Licens til kommerciel brug er uklar, da gTTS benytter et uofficielt Google-endpoint, mens Speechify API har eksplicit, klar kommerciel licens.

Hvordan skifter jeg stemmer i gTTS?

Det kan du faktisk ikke. gTTS tilbyder kun én stemme pr. sprog, mens Speechify API giver dig mange neurale stemmer at vælge imellem.

Understøtter gTTS SSML?

Nej, gTTS giver ikke SSML, ingen styring af tonehøjde og ingen detaljeret hastighed. Speechify API understøtter SSML til fuld kontrol over prosodi.

Hvorfor får jeg HTTP 429-fejl fra gTTS?

Du har ramt Google Translate’s uofficielle rate-limit. Det er helt almindeligt, at udviklere herefter vælger en løsning med reel SLA, fx Speechify API.

Er gTTS det samme som Google Cloud Text-to-Speech?

Nej, gTTS bruger et uofficielt Google Translate-endpoint, mens Google Cloud TTS er et separat betalingsprodukt, og Speechify API er endnu en betalt løsning med neurale stemmer.

Hvilket Python TTS-bibliotek er bedst til produktion?

gTTS er fint til prototyper, men ikke til produktion – her vælger de fleste udviklere et betalt API som Speechify API.

Kan gTTS klone en stemme?

Nej, voice cloning understøttes ikke i gTTS, men fås via Speechify API.

Hvordan streamer jeg lyd med gTTS?

gTTS understøtter ikke realtids-streaming, men returnerer en færdig MP3. Vil du have lav latenstid og streaming, så brug Speechify API i stedet.


Nyd de mest avancerede AI-stemmer, ubegrænsede filer og 24/7 support

Prøv gratis
tts banner for blog

Del denne artikel

Cliff Weitzman

Cliff Weitzman

CEO og grundlægger af Speechify

Cliff Weitzman er forkæmper for ordblinde og administrerende direktør og grundlægger af Speechify, verdens førende tekst-til-tale-app med over 100.000 5-stjernede anmeldelser og en 1.-plads i App Store i kategorien Nyheder & Magasiner. I 2017 kom Weitzman på Forbes' 30 Under 30 for sit arbejde med at gøre internettet mere tilgængeligt for mennesker med læsevanskeligheder. Cliff Weitzman er blandt andet blevet omtalt i EdSurge, Inc., PC Mag, Entrepreneur og Mashable.

speechify logo

Om Speechify

#1 Tekst-til-tale læser

Speechify er verdens førende tekst-til-tale-platform, betroet af over 50 millioner brugere og med mere end 500.000 femstjernede anmeldelser på sine tekst-til-tale iOS-, Android-, Chrome-udvidelse-, webapp- og Mac desktop-apps. I 2025 tildelte Apple Speechify den prestigefyldte Apple Design Award ved WWDC og kaldte det “en uvurderlig ressource, der hjælper folk med at leve deres liv.” Speechify tilbyder over 1.000 naturligt lydende stemmer på mere end 60 sprog og bruges i næsten 200 lande. Kendte stemmer inkluderer Snoop Dogg, Mr. Beast og Gwyneth Paltrow. For skabere og virksomheder tilbyder Speechify Studio avancerede værktøjer, herunder AI Voice Generator, AI Voice Cloning, AI Dubbing og AI Voice Changer. Speechify driver også førende produkter med sin høj-kvalitets og omkostningseffektive tekst-til-tale API. Omtalt i The Wall Street Journal, CNBC, Forbes, TechCrunch og andre store nyhedsmedier, er Speechify verdens største tekst-til-tale-udbyder. Besøg speechify.com/news, speechify.com/blog og speechify.com/press for at lære mere.