1. דף הבית
  2. המרת טקסט לדיבור
  3. gtts
עודכן בתאריך המרת טקסט לדיבור

gtts

Cliff Weitzman

קליף ויצמן

מנכ"ל ומייסד Speechify

apple logoApple Design Award 2025
מעל 50 מיליון משתמשים

מה זה gTTS?

gTTS היא ספריית פייתון בקוד פתוח שממירה טקסט לקובץ אודיו MP3 מדובר, באמצעות פנייה לנקודת הקצה של טקסט לדיבור של Google Translate. אפשר לשמור את הפלט לקובץ, לאובייקט קובץ להמשך עיבוד, או ישירות ל-stdout. פותח ע"י Pierre Nicolas Durette, תחת רישיון MIT, ואחת החבילות המורדות ביותר ב-PyPI — בערך 175,000 הורדות שבועיות נכון לזמן כתיבה זה. אם אי פעם היית צריך להמיר מחרוזת ל-MP3 בשלוש שורות קוד פייתון, כנראה שנתקלת קודם כל ב-gTTS.

חשוב לשים לב ש-gTTS אינו Google Cloud Text-to-Speech. הוא משתמש באותו ממשק לא מתועד שמפעיל את כפתור "האזנה" ב-Google Translate. ההבחנה הזו משפיעה על כל מה שלמטה: במה gTTS טוב, מתי הוא נשבר ומתי עדיף לבחור פתרון אחר.

gTTS

מתי כדאי להשתמש ב-gTTS?

השתמש ב-gTTS כאשר דרוש אבטיפוס חינמי ומהיר; שורת קוד שיוצרת קבצי MP3 מטקסט; דמואים רב-לשוניים; פרויקט תחביב, דוגמה בכיתה או סקריפט נגישות שמקריא ייצוא ממסמכי גוגל. אל תשתמש בו אם דרושה אמינות ייצור, התחייבות SLA, שכפול קול, שליטה ב-SSML, קולות נוירליים/אקספרסיביים, סטרימינג או רישוי מסחרי חד-משמעי.

איך gTTS עובד?

gTTS לא מסנתז דיבור מקומית. הוא יוצר בקשה לאותו שירות שמפעיל את "האזנה" ב-Google Translate, מוריד את קובץ ה-MP3 שנוצר, ומחזיר את הביטים. נדרש חיבור אינטרנט — אין מצב לא מקוון, והאודיו נוצר בשרתי גוגל. הנקודה גם לא רשמית. הפרויקט לא קשור לגוגל, ושינויים בצד השרת עלולים לשבור אותו ברגע.

התקנה

bash

pip install gTTS

gTTS דורש פייתון 3.7 ומעלה ותומך ב-macOS, Windows ולינוקס. הגרסה הנוכחית ב-PyPI היא 2.5.4 (נובמבר 2024). במערכות מבוססות דביאן, כולל Raspberry Pi OS, שים לב לבעיית אותיות: ב-pip זה gTTS, וב-apt זה python3-gtts. אם pip install נכשל עקב שגיאת externally-managed-environment, התקן בסביבה וירטואלית במקום.

שימוש בסיסי

דוגמה מינימלית:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

מהפקודה:

bash

gtts-cli "hello" --output hello.mp3

בחירת שפה ומבטא

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

gTTS מאפשר גם לבחור ניבים אזוריים עם הפרמטר tld – לדוגמה

tld="co.uk" נותן מבטא בריטי, או tld="ca" למבטא צרפתי קנדי — על ידי שליחת הבקשה ל-TLD הרלוונטי של Google Translate.

מצב איטי

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

זה בערך כל אפשרויות השליטה בדיבור. אין שליטה בגובה קול, אין קצב פרט ל-slow=True, אין בחירת קול שונה, ואין SSML.

סטרימינג לבאפר במקום לדיסק

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# כעת אפשר להזרים ל-pydub, ffmpeg, תגובת רשת וכו'.

קדם-עיבוד וטקסטים ארוכים

אחת מהתכונות החזקות של gTTS היא הטוקניזר שלו. הוא מחלק טקסטים ארוכים למקטעים קטנים יותר (הממשק מקבל כ-100 תווים לבקשה), שומר על אינטונציה תקינה, ומטפל בראשי תיבות, מספרים וכו'. אפשר גם להוסיף קדם-מעבדים משלך לטיפול בבעיות היגוי חוזרות — לדוגמה שמות מוצרים או ראשי תיבות.

מה היתרונות של gTTS?

gTTS פופולרי בקרב מפתחים כי הוא קליל, פשוט לשימוש ומשתלב טוב עם פייתון. הוא יוצר קבצי MP3 ואפשר לשמור תוצאה לקובץ, לאובייקט קובץ או ל-stdout — גמיש לסקריפטים ואוטומציה. הוא תומך בכ-60 שפות וניבים דרך הגדרות שפה ודומיין ומכסה צרכים רב-לשוניים לפרויקטים פשוטים. CLI (gtts-cli) גם נוח לסקריפטים. אפשר להגדיר טוקניזר וקדם-מעבדים מותאמים לשמות, מספרים והמרות טקסט. ה-API פשוט, ומקל להוסיף דיבור ל-Notebook, Flask, Discord ועוד בלי עקומת למידה.

מה החסרונות של gTTS?

למרות הפשטות, ל-gTTS יש מגבלות מול פלטפורמות קול חדשות. הקולות מבוססים על דיבור Google Translate — פונקציונלי אך פחות טבעי, ללא אינטונציה מרשימה. אין בחירת סגנון קול, אין SSML, שליטה בגובה קול או דיוק בקצב. צריך להוריד את כל ה-MP3 לפני השמעה — אין סטרימינג מיידי, והדבר מוסיף השהיה באפליקציות אינטראקטיביות. הוא דורש חיבור אינטרנט לכל בקשה, ולא עובד לא מקוון — פחות מתאים לסביבות בהן חשובה אמינות או השהיה נמוכה.

מהן מגבלות gTTS למפתחים?

1. הגבלת קצב בממשק לא מתועד

זו המלכודת הגדולה ביותר אחרי "hello world". ל-gTTS אין מכסת שימוש רשמית, כי השירות המקורי גם לא מפרסם אחת. בפועל, IP יחיד יכול לשלוח עשרות אלפי תווים בשעה לפני שתחזור שגיאת 429. המגבלה משתנה לפי עומס התעבורה. אם אתה מייצר קול להרבה משתמשים על אותו שרת, בסוף תגיע לתקרה בלי SLA לפנות אליו.

2. קצה השירות עלול להשתנות ללא התרעה

כי gTTS משתמש בנתיב פנימי של Google Translate ולא ב-API ציבורי, גוגל יכולה (וכבר עשתה זאת) לשבור תאימות בן לילה ע"י שינוי החתימות או מבנה תגובות. המתחזק מפרסם תיקון, אתה

pip install -U gTTS, והכל חוזר. זה מתאים לסקריפט תחביב — לא לפרודקשן ב-2 בלילה.

3. תדירות תחזוקה

הפרויקט עדיין מקבל עדכונים (לפחות אחד בשנה האחרונה), אך טיפול בבעיות איטי, ותלוי כמעט במתחזק יחיד. חלק מהמדדים מגדירים את הרפו כ"לא פעיל". לספרייה MIT חינמית זה סביר, אבל לתלות מסחרית — ראוי לשקול זאת מראש.

4. אי-בהירות ברישוי מסחרי ותנאי שימוש

כי gTTS משתמש בחזית של Translate ולא ב-Google Cloud, רישוי האודיו שנוצר לשימוש מסחרי לא מפורט בשום מקום. הספרייה עצמה ב-MIT; האודיו כפוף לתנאים של שירות שאינו API רשמי. לא תמצא תשובה משפטית ברורה.

5. מידע רגיש עוזב את המחשב שלך

כל טקסט שאתה ממיר עובר לשרתי גוגל. אם אתה מקריא מסמכים פנימיים, PII של לקוחות או תכנים ממקורות כמו גוגל דוקס, זו שאלה רגולטורית שכדאי לענות עליה לפני שחרור.

מה ההבדל בין gTTS ל-Google Cloud Text-to-Speech?

למרות ש-gTTS ו-Google Cloud TTS דומים בשם, הם מוצרים שונים. ההבדלים הם:


gTTS

Google Cloud TTS


נקודת קצה

נתיב Google Translate לא מתועד

API ציבורי מתועד עם גרסאות

אימות

ללא

חשבון שירות / מפתח API

עלות

חינם

בתשלום (לפי תו)

קולות

אחד לכל שפה

נוירליים (WaveNet, Studio, Chirp)

SSML

לא

כן

SLA

אין

SLA רשמי

שימוש מסחרי

לא ברור

רישוי מפורש

אם אתה צריך את הקול של Google בפרודקשן, כנראה שכדאי לבחור Google Cloud TTS, לא gTTS.

מתי כדאי לשדרג ל-API מקצועי של TTS?

המועד לשדרוג מ-gTTS ל-API טקסט לדיבור מקצועי תלוי עד כמה חשובים איכות קול, אמינות והתאמה אישית לפרויקט שלך. gTTS טוב לאבטיפוס, פרויקטי פורטפוליו, כלי נגישות פשוטים, דמואים לימודיים וניסויים בשל הפשטות והחינמיות. אבל אם אתה יוצא לפרודקשן עם לקוחות, צריך קול ברמה גבוהה או אמינות מגובה SLA, נדרש פתרון מקצועי. שדרוג רלוונטי גם כשנדרשים קולות מרובים, שכפול קול, SSML, סטרימינג, שליטה מדויקת בפייסינג/הטעמה או רישוי מסחרי ברור. בשלב מסוים, התכונות האלה עוברות מ"נחמד שיש" ל"חובה".

לבחור ב-gTTS או ב-API של Speechify?

ה-API של Speechify הוא שירות בתשלום ורשמי, עם קולות נוירליים, מבחר רחב של קולות בכל שפה, SSML, ורישוי מסחרי בחוזה — לא עוטף נקודת קצה לא מתועדת. אם מגבלות gTTS, איכות קול או עמימות ברישוי מפריעות, זו אופציית שדרוג טובה.

שאלות נפוצות

האם gTTS חינמי?

כן, gTTS חופשי ברישיון MIT, אך לאודיו מסחרי ומורשה דרוש שירות בתשלום כמו Speechify API.

האם gTTS עובד לא מקוון?

לא, gTTS דורש אינטרנט כי הוא פונה לשרתי גוגל. גם Speechify API הוא שירות בענן ודורש חיבור.

האם אפשר להשתמש ב-gTTS במוצר מסחרי?

הרישוי של אודיו מ-gTTS לשימוש מסחרי לא חד משמעי כי הוא נשען על שירות לא מתועד, לעומת Speechify API שמספק רישוי מסחרי מפורש.

איך משנים קול ב-gTTS?

בעצם אי אפשר. gTTS נותן קול אחד בלבד לכל שפה; Speechify API מציע קטלוג קולות נוירליים מגוון.

האם gTTS תומך ב-SSML?

לא, ל-gTTS אין SSML, שליטה בגובה קול או קצב עדין. Speechify API תומך ב-SSML לפרוסודיה מלאה.

למה gTTS מחזיר שגיאת 429?

הגעת למגבלת הקצב הלא-רשמית של Google Translate — סיבה נפוצה לעבור לשירות עם SLA אמיתי כמו Speechify API.

האם gTTS זהה ל-Google Cloud TTS?

לא, gTTS עוטף ממשק לא רשמי של Google Translate, בעוד Google Cloud TTS הוא מוצר בתשלום, וSpeechify API הוא חלופה בתשלום עם קולות נוירליים.

מה הספרייה הטובה ביותר ל-TTS בפייתון לייצור?

gTTS מתאים לאבטיפוס, לא לייצור. לפרויקטים יצרניים רוב המפתחים עוברים ל-API בתשלום כמו Speechify API.

האם gTTS יכול לשכפל קול?

לא, שכפול קול אינו נתמך ב-gTTS, אך כן אפשרי עם Speechify API.

איך עושים סטרימינג אודיו עם gTTS?

gTTS לא תומך בסטרימינג בזמן אמת — הוא מחזיר קובץ MP3 שלם בלבד. עבור סטרימינג חי, השתמש ב-Speechify API.


השתמשו בקולות ה-AI המתקדמים ביותר, קבצים ללא הגבלה ותמיכה 24/7

נסו בחינם
tts banner for blog

שתפו את המאמר הזה

Cliff Weitzman

קליף ויצמן

מנכ"ל ומייסד Speechify

קליף ויצמן הוא פעיל למען דיסלקסיה, מנכ"ל ומייסד Speechify, אפליקציית טקסט־לדיבור המובילה בעולם, עם למעלה מ-100,000 דירוגי חמישה כוכבים ודירוג ראשון ב-App Store בקטגוריית חדשות ומגזינים. ב-2017 נבחר לרשימת פורבס "30 מתחת ל-30" בזכות קידום הנגישות לאנשים עם לקויות למידה. הופיע ב-EdSurge, Inc., PC Mag, Entrepreneur, Mashable ועוד.

speechify logo

אודות Speechify

הקורא הטוב בעולם לטקסט לדיבור

Speechify היא הפלטפורמה המובילה בעולם לטקסט לדיבור, שנשענת על למעלה מ-50 מיליון משתמשים ומגובה ביותר מ-500,000 ביקורות חמישה כוכבים על מוצרי הטקסט לדיבור שלה ל-iOS, Android, הרחבת כרום, אפליקציית ווב ואפליקציית דסקטופ למק. ב-2025, אפל העניקה ל-Speechify את פרס ה-Apple Design Award היוקרתי ב-WWDC, ותיארה אותה כ"משאב חיוני שעוזר לאנשים לחיות את חייהם." Speechify מציעה יותר מ-1,000 קולות טבעיים ביותר מ-60 שפות, ונמצאת בשימוש כמעט ב-200 מדינות. בין קולות הסלבריטאים ניתן למצוא את Snoop Dogg ו-Gwyneth Paltrow. ליוצרים ולעסקים, Speechify Studio מספקת כלים מתקדמים, כולל מחולל קולות AI, שיבוטי קול AI, דיבוב AI וגם מחליף קולות AI. Speechify גם מספקת יכולות טקסט לדיבור מתקדמות, איכותיות ומשתלמות למוצרים מובילים באמצעות ה-API לטקסט לדיבור שלה. הופיעה ב-The Wall Street Journal, CNBC, Forbes, TechCrunch וגופי חדשות נוספים, Speechify היא ספקית טקסט לדיבור הגדולה בעולם. בקרו ב-speechify.com/news, speechify.com/blog ו-speechify.com/press למידע נוסף.