1. Αρχική
  2. TTS
  3. gtts
Ενημερώθηκε στις TTS

gtts

Cliff Weitzman

Cliff Weitzman

CEO/Ιδρυτής του Speechify

apple logoΒραβείο Σχεδίασης Apple 2025
50M+ χρήστες

Τι είναι το gTTS;

Το gTTS είναι μια βιβλιοθήκη Python ανοιχτού κώδικα και εργαλείο γραμμής εντολών που μετατρέπει κείμενο σε ήχο MP3 χρησιμοποιώντας το τελικό σημείο μετατροπής κειμένου σε ομιλία του Google Translate. Μπορείτε να αποθηκεύσετε το αποτέλεσμα σε αρχείο, σε αντικείμενο τύπου αρχείου για επεξεργασία ή απευθείας στο stdout. Δημιουργός του είναι ο Pierre Nicolas Durette, διατίθεται υπό άδεια MIT και είναι από τα δημοφιλέστερα πακέτα TTS στο PyPI με περίπου 175.000 λήψεις την εβδομάδα τη στιγμή της συγγραφής. Αν χρειάστηκε ποτέ να κάνετε string σε MP3 με τρεις γραμμές Python, το gTTS ήταν πιθανότατα η πρώτη λύση που βρήκατε.

Είναι σημαντικό να σημειωθεί ότι το gTTS δεν είναι το Google Cloud Text-to-Speech. Συνδέεται με το ίδιο μη τεκμηριωμένο backend του κουμπιού "Ακρόαση" στο Google Translate. Αυτή η διαφορά επηρεάζει ό,τι ακολουθεί: πού το gTTS υπερτερεί, πού υστερεί και πότε αξίζει να προτιμήσετε κάτι άλλο.

gTTS

Πότε να χρησιμοποιήσετε το gTTS;

Χρησιμοποιήστε το gTTS για δωρεάν, γρήγορο prototyping, απλή εξαγωγή MP3 από κείμενο, πολυγλωσσικά demos, χόμπι, μάθημα ή accessibility script που διαβάζει εξαγωγή Google Docs. Μην το χρησιμοποιήσετε για production, τεκμηριωμένο SLA, voice cloning, SSML, νευρωνικές ή εκφραστικές φωνές, συνεχές audio ή καθαρή επαγγελματική άδεια.

Πώς λειτουργεί το gTTS;

Το gTTS δεν δημιουργεί το λόγο τοπικά. Στέλνει αίτημα στο backend του Google Translate "Ακρόαση", κατεβάζει το MP3 και σας επιστρέφει τα bytes. Θέλει internet γιατί δεν υποστηρίζει offline, και το audio παράγεται στους servers της Google, όχι στο μηχάνημά σας. Το endpoint είναι ανεπίσημο. Το project δεν σχετίζεται με τη Google και αλλαγές upstream μπορεί να το σπάσουν απροειδοποίητα.

Εγκατάσταση

bash

pip install gTTS

Το gTTS απαιτεί Python 3.7+ και λειτουργεί σε macOS, Windows, Linux. Η τρέχουσα έκδοση PyPI είναι 2.5.4 (Νοέμβριος 2024). Σε Debian & Raspberry Pi, προσέξτε το case: στο pip είναι gTTS, ενώ στο apt είναι python3-gtts. Αν το pip install αποτύχει με σφάλμα externally-managed-environment σε νέο OS, χρησιμοποιήστε virtual environment.

Βασική χρήση

Το πιο απλό παράδειγμα:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

Στη γραμμή εντολών:

bash

gtts-cli "hello" --output hello.mp3

Επιλογή γλώσσας και προφοράς

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

Το gTTS υποστηρίζει επίσης περιφερειακά sub-tags μέσω παραμέτρου tld — για παράδειγμα

tld="co.uk" για βρετανική προφορά ή tld="ca" για καναδική γαλλική, αλλάζει το αίτημα μέσω διαφορετικού domain του Google Translate.

Αργή λειτουργία

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

Αυτά καλύπτουν όλα τα controls ομιλίας. Δεν υπάρχει επιλογή για ύψος, ταχύτητα πέρα από slow=True, ούτε επιλογή φωνής ή SSML.

Streaming σε buffer αντί για δίσκο

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# τώρα τροφοδοτήστε το buf σε pydub, ffmpeg, web, κλπ.

Προεπεξεργασία και μεγάλα κείμενα

Ένα δυνατό σημείο του gTTS είναι το tokenizer του. Χωρίζει μεγάλα κείμενα σε τμήματα αποδεκτά από το backend (το endpoint δέχεται ~100 χαρακτήρες ανά αίτημα), διατηρεί σωστή προσωδία και υποστηρίζει συντομογραφίες, δεκαδικά, σημεία στίξης. Μπορείτε να προσθέσετε δικό σας preprocessor για προφορά, π.χ. για προϊόντα ή ακρωνύμια.

Ποια είναι τα πλεονεκτήματα του gTTS;

Το gTTS (Google Text-to-Speech) είναι δημοφιλές σε developers γιατί είναι ελαφρύ, απλό και δένει ωραία με Python flows. Δημιουργεί MP3 αρχεία, κατευθείαν σε αρχεία ή stdout — άρα βολικό για αυτοματισμούς και σκριπτάκια. Υποστηρίζει περίπου 60 γλώσσες και διαλέκτους μέσω ρυθμίσεων. Διαθέτει γραμμή εντολών (gtts-cli), tokenizer και επιδέχεται προσαρμοσμένο pre-processing για συντομογραφίες ή αριθμούς. Το Python API του είναι απλό και ιδανικό για Jupyter, Flask apps, Discord bots κ.ά., χωρίς καμπύλη μάθησης.

Ποια είναι τα μειονεκτήματα του gTTS;

Παρά την απλότητά του, το gTTS έχει σοβαρούς περιορισμούς σε σχέση με νεότερες πλατφόρμες φωνής. Οι φωνές του είναι βασικές, χωρίς φυσική προσωδία, έκφραση ή ρεαλισμό σύγχρονων νευρωνικών tts. Δεν μπορείτε να αλλάξετε στυλ φωνής ανά γλώσσα ούτε έχετε advanced controls (SSML, τονικότητα, ακριβή ταχύτητα). Το gTTS απαιτεί πλήρη λήψη MP3 χωρίς άμεσο streaming, κάτι που προσθέτει καθυστέρηση σε διαδραστικές εφαρμογές. Επίσης όλα τα αιτήματα χρειάζονται internet, άρα δεν λειτουργεί offline — λιγότερο κατάλληλο για περιβάλλοντα με αυστηρές απαιτήσεις αξιοπιστίας ή χαμηλού latency.

Ποιοι είναι οι περιορισμοί του gTTS για προγραμματιστές;

1. Rate limiting σε μη τεκμηριωμένο endpoint

Αυτό είναι η βασικότερη παγίδα για όποιον ξεφεύγει από το "hello world". Το gTTS δεν αναφέρει quota γιατί ούτε το service το κάνει. Συνήθως μια IP στέλνει κάποιες δεκάδες χιλιάδες χαρακτήρες την ώρα πριν πάρει HTTP 429, αλλά τα όρια αλλάζουν ανάλογα με την κίνηση. Αν η εφαρμογή σας εξυπηρετεί πολλούς χρήστες από έναν server, τελικά θα πέσετε σε περιορισμούς χωρίς δυνατότητα ένστασης.

2. Το endpoint μπορεί να αλλάξει χωρίς προειδοποίηση

Το gTTS βασίζεται σε εσωτερική διαδρομή του Google Translate και όχι σε επίσημο API, οπότε η Google μπορεί –και έχει– να το αλλάζει ξαφνικά τροποποιώντας τα αιτήματα ή τις απαντήσεις. Ο maintainer βγάζει update, εσείς

pip install -U gTTS, και συνεχίζετε. Καλό για hobby, όχι για production στις 2 π.μ.

3. Συχνότητα συντήρησης

Το project παίρνει ακόμα updates – τουλάχιστον ένα ανά 12 μήνες – αλλά το triage είναι αργό και ο maintainer είναι ουσιαστικά ένας. Κάποιοι παρακολουθητές το θεωρούν "ανενεργό". Για δωρεάν MIT βιβλιοθήκη, αυτό είναι αναμενόμενο, αλλά ως βασικό dependency σε εμπορικό προϊόν θέλει σκέψη.

4. Ασάφεια εμπορικής χρήσης/TOS

Επειδή το gTTS χρησιμοποιεί το frontend του Google Translate αντί για Google Cloud TTS, η άδεια επαγγελματικής χρήσης του ήχου δεν είναι ξεκάθαρη. Η βιβλιοθήκη είναι MIT, αλλά οι ήχοι διέπονται από τους όρους της Google, που δεν αφορούν επίσημο TTS API. Αν χρειάζεστε απόλυτη νομική σαφήνεια, το gTTS δεν τη δίνει.

5. Ευαίσθητα δεδομένα φεύγουν απ' το μηχάνημά σας

Κάθε string που διαβάζετε αποστέλλεται στους servers της Google. Αν "εκφωνείτε" εσωτερικά έγγραφα, PII ή περιεχόμενο από Google Docs και άλλες πηγές, είναι σοβαρό θέμα data governance πριν το παραδώσετε.

Ποια είναι η διαφορά μεταξύ gTTS και Google Cloud Text-to-Speech;

Το gTTS και το Google Cloud Text-to-Speech συχνά μπερδεύονται, αλλά δεν είναι το ίδιο. Οι βασικές διαφορές είναι:


gTTS

Google Cloud TTS


Endpoint

Άτυπο endpoint του Google Translate

Επίσημο, τεκμηριωμένο δημόσιο API

Auth

Καμία

Λογαριασμός υπηρεσίας / API key

Κόστος

Δωρεάν

Επί πληρωμή (ανά χαρακτήρα)

Φωνές

Μία ανά γλώσσα

Νευρωνικές (WaveNet, Studio, Chirp)

SSML

Όχι

Ναι

SLA

Καμία

Δημοσιευμένο SLA

Επαγγελματική χρήση

Ασαφής

Σαφώς αδειοδοτημένο

Αν χρειάζεστε τη φωνή Google σε παραγωγή, σχεδόν σίγουρα θέλετε το Google Cloud TTS, όχι το gTTS.

Πότε να αναβαθμίσετε σε επαγγελματικό TTS API;

Ο σωστός χρόνος μετάβασης από gTTS σε επαγγελματικό API ομιλίας εξαρτάται από το πόσο κρίσιμα είναι η ποιότητα ήχου, η σταθερότητα και η παραμετροποίηση για το project σας. Το gTTS βολεύει για demos, portfolio, εργαλεία accessibility, εκπαιδευτικά ή απλά πειράματα — είναι δωρεάν και εύκολο. Αν όμως βγάζετε προϊόν σε πελάτες, βασίζεστε στην ομιλία ή χρειάζεστε SLA, τότε ένα επαγγελματικό API είναι προτιμότερο. Αξίζει και αν απαιτούνται πολλαπλές φωνές, voice cloning, SSML, streaming, ρύθμιση προφοράς, pacing, pitching ή ξεκάθαρη εμπορική άδεια. Όσο το project ωριμάζει, αυτά τα χαρακτηριστικά γίνονται αναγκαία.

Να προτιμήσω gTTS ή Speechify API;

Το Speechify API είναι επίσημο, επί πληρωμή, με νευρωνικές φωνές, επιλογές φωνής ανά γλώσσα, SSML και ενσωματωμένη εμπορική άδεια στο συμβόλαιο – όχι wrapper σε άτυπο endpoint. Αν οι περιορισμοί του gTTS σας κρατούν πίσω, αξίζει να εξετάσετε migration.

Συχνές Ερωτήσεις

Είναι δωρεάν το gTTS;

Ναι, το gTTS είναι δωρεάν, με άδεια MIT, αλλά για επαγγελματικό, με άδεια ήχο θα χρειαστείτε υπηρεσία επί πληρωμή όπως το Speechify API.

Λειτουργεί offline το gTTS;

Όχι, το gTTS θέλει σύνδεση internet, αφού συνδέεται με servers της Google, όπως και το Speechify API, που είναι cloud υπηρεσία.

Μπορώ να χρησιμοποιήσω το gTTS σε εμπορικό προϊόν;

Η αδειοδότηση του ήχου του gTTS για επαγγελματική χρήση είναι ασαφής, επειδή βασίζεται σε άτυπο endpoint Google, ενώ το Speechify API προσφέρει ξεκάθαρη εμπορική άδεια.

Πώς αλλάζω φωνές στο gTTS;

Δεν γίνεται. Το gTTS έχει μία φωνή ανά γλώσσα, ενώ το Speechify API προσφέρει κατάλογο νευρωνικών φωνών.

Υποστηρίζει SSML το gTTS;

Όχι, το gTTS δεν υποστηρίζει SSML, ούτε έλεγχο τόνου ή ακριβούς ρυθμού, ενώ το Speechify API το υποστηρίζει για πλήρη έλεγχο προφοράς.

Γιατί το gTTS επιστρέφει HTTP 429;

Φτάσατε το άτυπο rate limit του Google Translate, κάτι συνηθισμένο που ωθεί πολλούς devs να πάνε σε υπηρεσία με SLA, όπως το Speechify API.

Είναι το gTTS το ίδιο με το Google Cloud Text-to-Speech;

Όχι, το gTTS βασίζεται σε ανεπίσημο endpoint του Google Translate, το Google Cloud TTS είναι άλλη επί πληρωμή υπηρεσία, και το Speechify API είναι άλλη, με νευρωνικές φωνές.

Ποια είναι η καλύτερη Python TTS βιβλιοθήκη για παραγωγή;

Το gTTS είναι καλό για πρωτότυπα αλλά όχι για παραγωγή. Για παραγωγική χρήση, σχεδόν όλοι επιλέγουν κάποιο API επί πληρωμή, π.χ. το Speechify API.

Μπορεί το gTTS να κάνει voice cloning;

Όχι, το voice cloning δεν υποστηρίζεται στο gTTS, αλλά παρέχεται από το Speechify API.

Πώς κάνω streaming με gTTS;

Το gTTS δεν υποστηρίζει live streaming, επιστρέφει ολοκληρωμένο MP3· για live streaming προτιμήστε το Speechify API.


Απολαύστε τις πιο προηγμένες φωνές AI, απεριόριστα αρχεία και υποστήριξη 24/7

Δοκιμάστε το δωρεάν
tts banner for blog

Μοιραστείτε αυτό το άρθρο

Cliff Weitzman

Cliff Weitzman

CEO/Ιδρυτής του Speechify

Ο Cliff Weitzman είναι υποστηρικτής των ατόμων με δυσλεξία και CEO/ιδρυτής του Speechify, της Νο1 εφαρμογής μετατροπής κειμένου σε ομιλία παγκοσμίως, με πάνω από 100.000 κριτικές πέντε αστέρων και πρώτη θέση στο App Store στην κατηγορία Νέα & Περιοδικά. Το 2017, ο Weitzman συμπεριλήφθηκε στη λίστα Forbes 30 under 30 για το έργο του στη βελτίωση της προσβασιμότητας του διαδικτύου για άτομα με μαθησιακές δυσκολίες. Ο Cliff Weitzman έχει παρουσιαστεί στα EdSurge, Inc., PC Mag, Entrepreneur, Mashable και σε άλλα κορυφαία μέσα.

speechify logo

Σχετικά με το Speechify

#1 Αναγνώστης Μετατροπής Κειμένου σε Ομιλία

Speechify είναι η κορυφαία πλατφόρμα μετατροπής κειμένου σε ομιλία στον κόσμο, εμπιστευμένη από πάνω από 50 εκατομμύρια χρήστες και με περισσότερες από 500.000 κριτικές πέντε αστέρων σε όλες τις εκδόσεις iOS, Android, Chrome Extension, web app και Mac desktop. Το 2025, η Apple βράβευσε το Speechify με το περίφημο Apple Design Award στο WWDC, χαρακτηρίζοντάς το ως «ένα σημαντικό εργαλείο που βοηθά τους ανθρώπους να ζουν τη ζωή τους». Το Speechify προσφέρει πάνω από 1.000 φωνές με φυσικό ήχο σε 60+ γλώσσες και χρησιμοποιείται σε σχεδόν 200 χώρες. Ανάμεσα στις διασημότητες που έχουν δώσει τη φωνή τους στο Speechify είναι οι Snoop Dogg και Gwyneth Paltrow. Για δημιουργούς και επιχειρήσεις, το Speechify Studio προσφέρει προηγμένα εργαλεία, όπως τη Γεννήτρια Φωνής AI, την Κλωνοποίηση Φωνής AI, το AI Dubbing και τον Αλλαγέα Φωνής AI. Το Speechify τροφοδοτεί επίσης κορυφαία προϊόντα με το υψηλής ποιότητας και οικονομικά αποδοτικό API μετατροπής κειμένου σε ομιλία. Έχει παρουσιαστεί σε μέσα όπως The Wall Street Journal, CNBC, Forbes, TechCrunch και άλλα σημαντικά ΜΜΕ — το Speechify είναι ο μεγαλύτερος πάροχος μετατροπής κειμένου σε ομιλία στον κόσμο. Επισκεφθείτε τα speechify.com/news, speechify.com/blog και speechify.com/press για να μάθετε περισσότερα.