gtts

מה זה gTTS?

gTTS היא ספריית פייתון בקוד פתוח שממירה טקסט לקובץ אודיו MP3 מדובר, באמצעות פנייה לנקודת הקצה של טקסט לדיבור של Google Translate. אפשר לשמור את הפלט לקובץ, לאובייקט קובץ להמשך עיבוד, או ישירות ל-stdout. פותח ע"י Pierre Nicolas Durette, תחת רישיון MIT, ואחת החבילות המורדות ביותר ב-PyPI — בערך 175,000 הורדות שבועיות נכון לזמן כתיבה זה. אם אי פעם היית צריך להמיר מחרוזת ל-MP3 בשלוש שורות קוד פייתון, כנראה שנתקלת קודם כל ב-gTTS.

חשוב לשים לב ש-gTTS אינו Google Cloud Text-to-Speech. הוא משתמש באותו ממשק לא מתועד שמפעיל את כפתור "האזנה" ב-Google Translate. ההבחנה הזו משפיעה על כל מה שלמטה: במה gTTS טוב, מתי הוא נשבר ומתי עדיף לבחור פתרון אחר.

מתי כדאי להשתמש ב-gTTS?

השתמש ב-gTTS כאשר דרוש אבטיפוס חינמי ומהיר; שורת קוד שיוצרת קבצי MP3 מטקסט; דמואים רב-לשוניים; פרויקט תחביב, דוגמה בכיתה או סקריפט נגישות שמקריא ייצוא ממסמכי גוגל. אל תשתמש בו אם דרושה אמינות ייצור, התחייבות SLA, שכפול קול, שליטה ב-SSML, קולות נוירליים/אקספרסיביים, סטרימינג או רישוי מסחרי חד-משמעי.

איך gTTS עובד?

gTTS לא מסנתז דיבור מקומית. הוא יוצר בקשה לאותו שירות שמפעיל את "האזנה" ב-Google Translate, מוריד את קובץ ה-MP3 שנוצר, ומחזיר את הביטים. נדרש חיבור אינטרנט — אין מצב לא מקוון, והאודיו נוצר בשרתי גוגל. הנקודה גם לא רשמית. הפרויקט לא קשור לגוגל, ושינויים בצד השרת עלולים לשבור אותו ברגע.

התקנה

bash

pip install gTTS

gTTS דורש פייתון 3.7 ומעלה ותומך ב-macOS, Windows ולינוקס. הגרסה הנוכחית ב-PyPI היא 2.5.4 (נובמבר 2024). במערכות מבוססות דביאן, כולל Raspberry Pi OS, שים לב לבעיית אותיות: ב-pip זה gTTS, וב-apt זה python3-gtts. אם pip install נכשל עקב שגיאת externally-managed-environment, התקן בסביבה וירטואלית במקום.

שימוש בסיסי

דוגמה מינימלית:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

מהפקודה:

bash

gtts-cli "hello" --output hello.mp3

בחירת שפה ומבטא

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

gTTS מאפשר גם לבחור ניבים אזוריים עם הפרמטר tld – לדוגמה

tld="co.uk" נותן מבטא בריטי, או tld="ca" למבטא צרפתי קנדי — על ידי שליחת הבקשה ל-TLD הרלוונטי של Google Translate.

מצב איטי

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

זה בערך כל אפשרויות השליטה בדיבור. אין שליטה בגובה קול, אין קצב פרט ל-slow=True, אין בחירת קול שונה, ואין SSML.

סטרימינג לבאפר במקום לדיסק

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# כעת אפשר להזרים ל-pydub, ffmpeg, תגובת רשת וכו'.

קדם-עיבוד וטקסטים ארוכים

אחת מהתכונות החזקות של gTTS היא הטוקניזר שלו. הוא מחלק טקסטים ארוכים למקטעים קטנים יותר (הממשק מקבל כ-100 תווים לבקשה), שומר על אינטונציה תקינה, ומטפל בראשי תיבות, מספרים וכו'. אפשר גם להוסיף קדם-מעבדים משלך לטיפול בבעיות היגוי חוזרות — לדוגמה שמות מוצרים או ראשי תיבות.

מה היתרונות של gTTS?

gTTS פופולרי בקרב מפתחים כי הוא קליל, פשוט לשימוש ומשתלב טוב עם פייתון. הוא יוצר קבצי MP3 ואפשר לשמור תוצאה לקובץ, לאובייקט קובץ או ל-stdout — גמיש לסקריפטים ואוטומציה. הוא תומך בכ-60 שפות וניבים דרך הגדרות שפה ודומיין ומכסה צרכים רב-לשוניים לפרויקטים פשוטים. CLI (gtts-cli) גם נוח לסקריפטים. אפשר להגדיר טוקניזר וקדם-מעבדים מותאמים לשמות, מספרים והמרות טקסט. ה-API פשוט, ומקל להוסיף דיבור ל-Notebook, Flask, Discord ועוד בלי עקומת למידה.

מה החסרונות של gTTS?

למרות הפשטות, ל-gTTS יש מגבלות מול פלטפורמות קול חדשות. הקולות מבוססים על דיבור Google Translate — פונקציונלי אך פחות טבעי, ללא אינטונציה מרשימה. אין בחירת סגנון קול, אין SSML, שליטה בגובה קול או דיוק בקצב. צריך להוריד את כל ה-MP3 לפני השמעה — אין סטרימינג מיידי, והדבר מוסיף השהיה באפליקציות אינטראקטיביות. הוא דורש חיבור אינטרנט לכל בקשה, ולא עובד לא מקוון — פחות מתאים לסביבות בהן חשובה אמינות או השהיה נמוכה.

מהן מגבלות gTTS למפתחים?

1. הגבלת קצב בממשק לא מתועד

זו המלכודת הגדולה ביותר אחרי "hello world". ל-gTTS אין מכסת שימוש רשמית, כי השירות המקורי גם לא מפרסם אחת. בפועל, IP יחיד יכול לשלוח עשרות אלפי תווים בשעה לפני שתחזור שגיאת 429. המגבלה משתנה לפי עומס התעבורה. אם אתה מייצר קול להרבה משתמשים על אותו שרת, בסוף תגיע לתקרה בלי SLA לפנות אליו.

2. קצה השירות עלול להשתנות ללא התרעה

כי gTTS משתמש בנתיב פנימי של Google Translate ולא ב-API ציבורי, גוגל יכולה (וכבר עשתה זאת) לשבור תאימות בן לילה ע"י שינוי החתימות או מבנה תגובות. המתחזק מפרסם תיקון, אתה

pip install -U gTTS, והכל חוזר. זה מתאים לסקריפט תחביב — לא לפרודקשן ב-2 בלילה.

3. תדירות תחזוקה

הפרויקט עדיין מקבל עדכונים (לפחות אחד בשנה האחרונה), אך טיפול בבעיות איטי, ותלוי כמעט במתחזק יחיד. חלק מהמדדים מגדירים את הרפו כ"לא פעיל". לספרייה MIT חינמית זה סביר, אבל לתלות מסחרית — ראוי לשקול זאת מראש.

4. אי-בהירות ברישוי מסחרי ותנאי שימוש

כי gTTS משתמש בחזית של Translate ולא ב-Google Cloud, רישוי האודיו שנוצר לשימוש מסחרי לא מפורט בשום מקום. הספרייה עצמה ב-MIT; האודיו כפוף לתנאים של שירות שאינו API רשמי. לא תמצא תשובה משפטית ברורה.

5. מידע רגיש עוזב את המחשב שלך

כל טקסט שאתה ממיר עובר לשרתי גוגל. אם אתה מקריא מסמכים פנימיים, PII של לקוחות או תכנים ממקורות כמו גוגל דוקס, זו שאלה רגולטורית שכדאי לענות עליה לפני שחרור.

מה ההבדל בין gTTS ל-Google Cloud Text-to-Speech?

למרות ש-gTTS ו-Google Cloud TTS דומים בשם, הם מוצרים שונים. ההבדלים הם:

gTTS	Google Cloud TTS
נקודת קצה	נתיב Google Translate לא מתועד	API ציבורי מתועד עם גרסאות
אימות	ללא	חשבון שירות / מפתח API
עלות	חינם	בתשלום (לפי תו)
קולות	אחד לכל שפה	נוירליים (WaveNet, Studio, Chirp)
SSML	לא	כן
SLA	אין	SLA רשמי
שימוש מסחרי	לא ברור	רישוי מפורש

אם אתה צריך את הקול של Google בפרודקשן, כנראה שכדאי לבחור Google Cloud TTS, לא gTTS.

מתי כדאי לשדרג ל-API מקצועי של TTS?

המועד לשדרוג מ-gTTS ל-API טקסט לדיבור מקצועי תלוי עד כמה חשובים איכות קול, אמינות והתאמה אישית לפרויקט שלך. gTTS טוב לאבטיפוס, פרויקטי פורטפוליו, כלי נגישות פשוטים, דמואים לימודיים וניסויים בשל הפשטות והחינמיות. אבל אם אתה יוצא לפרודקשן עם לקוחות, צריך קול ברמה גבוהה או אמינות מגובה SLA, נדרש פתרון מקצועי. שדרוג רלוונטי גם כשנדרשים קולות מרובים, שכפול קול, SSML, סטרימינג, שליטה מדויקת בפייסינג/הטעמה או רישוי מסחרי ברור. בשלב מסוים, התכונות האלה עוברות מ"נחמד שיש" ל"חובה".

לבחור ב-gTTS או ב-API של Speechify?

ה-API של Speechify הוא שירות בתשלום ורשמי, עם קולות נוירליים, מבחר רחב של קולות בכל שפה, SSML, ורישוי מסחרי בחוזה — לא עוטף נקודת קצה לא מתועדת. אם מגבלות gTTS, איכות קול או עמימות ברישוי מפריעות, זו אופציית שדרוג טובה.

שאלות נפוצות

האם gTTS חינמי?

כן, gTTS חופשי ברישיון MIT, אך לאודיו מסחרי ומורשה דרוש שירות בתשלום כמו Speechify API.

האם gTTS עובד לא מקוון?

לא, gTTS דורש אינטרנט כי הוא פונה לשרתי גוגל. גם Speechify API הוא שירות בענן ודורש חיבור.

האם אפשר להשתמש ב-gTTS במוצר מסחרי?

הרישוי של אודיו מ-gTTS לשימוש מסחרי לא חד משמעי כי הוא נשען על שירות לא מתועד, לעומת Speechify API שמספק רישוי מסחרי מפורש.

איך משנים קול ב-gTTS?

בעצם אי אפשר. gTTS נותן קול אחד בלבד לכל שפה; Speechify API מציע קטלוג קולות נוירליים מגוון.

האם gTTS תומך ב-SSML?

לא, ל-gTTS אין SSML, שליטה בגובה קול או קצב עדין. Speechify API תומך ב-SSML לפרוסודיה מלאה.

למה gTTS מחזיר שגיאת 429?

הגעת למגבלת הקצב הלא-רשמית של Google Translate — סיבה נפוצה לעבור לשירות עם SLA אמיתי כמו Speechify API.

האם gTTS זהה ל-Google Cloud TTS?

לא, gTTS עוטף ממשק לא רשמי של Google Translate, בעוד Google Cloud TTS הוא מוצר בתשלום, וSpeechify API הוא חלופה בתשלום עם קולות נוירליים.

מה הספרייה הטובה ביותר ל-TTS בפייתון לייצור?

gTTS מתאים לאבטיפוס, לא לייצור. לפרויקטים יצרניים רוב המפתחים עוברים ל-API בתשלום כמו Speechify API.

האם gTTS יכול לשכפל קול?

לא, שכפול קול אינו נתמך ב-gTTS, אך כן אפשרי עם Speechify API.

איך עושים סטרימינג אודיו עם gTTS?

gTTS לא תומך בסטרימינג בזמן אמת — הוא מחזיר קובץ MP3 שלם בלבד. עבור סטרימינג חי, השתמש ב-Speechify API.

Speechify היא הפלטפורמה המובילה בעולם לטקסט לדיבור, שנשענת על למעלה מ-50 מיליון משתמשים ומגובה ביותר מ-500,000 ביקורות חמישה כוכבים על מוצרי הטקסט לדיבור שלה ל-iOS, Android, הרחבת כרום, אפליקציית ווב ואפליקציית דסקטופ למק. ב-2025, אפל העניקה ל-Speechify את פרס ה-Apple Design Award היוקרתי ב-WWDC, ותיארה אותה כ"משאב חיוני שעוזר לאנשים לחיות את חייהם." Speechify מציעה יותר מ-1,000 קולות טבעיים ביותר מ-60 שפות, ונמצאת בשימוש כמעט ב-200 מדינות. בין קולות הסלבריטאים ניתן למצוא את Snoop Dogg ו-Gwyneth Paltrow. ליוצרים ולעסקים, Speechify Studio מספקת כלים מתקדמים, כולל מחולל קולות AI, שיבוטי קול AI, דיבוב AI וגם מחליף קולות AI. Speechify גם מספקת יכולות טקסט לדיבור מתקדמות, איכותיות ומשתלמות למוצרים מובילים באמצעות ה-API לטקסט לדיבור שלה. הופיעה ב-The Wall Street Journal, CNBC, Forbes, TechCrunch וגופי חדשות נוספים, Speechify היא ספקית טקסט לדיבור הגדולה בעולם. בקרו ב-speechify.com/news, speechify.com/blog ו-speechify.com/press למידע נוסף.

קליף ויצמן

Speechify, העוזר Voice AI שלךלטקסט לדיבור, הקלדה קולית ו-תשובות מהירות.

מה זה gTTS?

מתי כדאי להשתמש ב-gTTS?

איך gTTS עובד?

התקנה

שימוש בסיסי

מהפקודה:

בחירת שפה ומבטא

מצב איטי

סטרימינג לבאפר במקום לדיסק

קדם-עיבוד וטקסטים ארוכים

מה היתרונות של gTTS?

מה החסרונות של gTTS?

מהן מגבלות gTTS למפתחים?

1. הגבלת קצב בממשק לא מתועד

2. קצה השירות עלול להשתנות ללא התרעה

3. תדירות תחזוקה

4. אי-בהירות ברישוי מסחרי ותנאי שימוש

5. מידע רגיש עוזב את המחשב שלך

מה ההבדל בין gTTS ל-Google Cloud Text-to-Speech?

מתי כדאי לשדרג ל-API מקצועי של TTS?

לבחור ב-gTTS או ב-API של Speechify?

שאלות נפוצות

האם gTTS חינמי?

האם gTTS עובד לא מקוון?

האם אפשר להשתמש ב-gTTS במוצר מסחרי?

איך משנים קול ב-gTTS?

האם gTTS תומך ב-SSML?

למה gTTS מחזיר שגיאת 429?

האם gTTS זהה ל-Google Cloud TTS?

מה הספרייה הטובה ביותר ל-TTS בפייתון לייצור?

האם gTTS יכול לשכפל קול?

איך עושים סטרימינג אודיו עם gTTS?

השתמשו בקולות ה-AI המתקדמים ביותר, קבצים ללא הגבלה ותמיכה 24/7

שתפו את המאמר הזה

קליף ויצמן

אודות Speechify

פוסטים מומלצים

פוסטים אחרונים

חמש חברות הסוכנים הקוליים המובילות ב-2026

למה Speechify עדיף על DictaFlow ב-Windows

למה Speechify עדיף על Balabolka ב-Windows

Speechify, העוזר Voice AI שלך
לטקסט לדיבור, הקלדה קולית ו-תשובות מהירות.