1. דף הבית
  2. API
  3. הכל על Google Cloud Text to Speech API
עודכן בתאריך API

הכל על Google Cloud Text to Speech API

Cliff Weitzman

קליף ויצמן

מנכ"ל ומייסד Speechify

Speechify API מספק השהיה של 300ms, קולות באיכות אנושית ויותר מ-50 שפות

apple logoApple Design Award 2025
מעל 50 מיליון משתמשים

בינה גנרטיבית ובינה מלאכותית התקדמו רבות. המרת טקסט לדיבור היא תחום ותיק יחסית, שנמצא איתנו הרבה זמן. יש כאן לא מעט נושאים לפרק ולסדר, ואני אסביר ואבחן אותם מזוויות שונות. בין אם אתם מתחילים או מתקדמים, זה יעשה לכם סדר בכל מה שקשור ל-Google Text to Speech API.

לפני שמתחילים, חשוב לקבוע עקרונות בסיס. נגדיר כמה מונחים ונבנה יסודות, כדי שיהיה קל לעקוב בהמשך.

נפריד כאן בין שתי טכנולוגיות: טקסט לדיבור ו-APIs, ונבין מה התפקיד של Google Cloud בכל זה.

הערת עורך: מחפשים את ה-API המוביל של טקסט לדיבור? בדקו את ה-API של Speechify – נוח לשימוש ועשיר בתיעוד.

טקסט לדיבור

כתבתי רבות על הנושא. תוכלו לקרוא את הבלוג שלי על מהו טקסט לדיבור וגם על סינתזת דיבור כדי להבין לעומק. אפשר לדלג בינתיים, אסכם כאן בכמה משפטים.

טקסט לדיבור מבוסס על טכנולוגיה שנקראת סינתזת דיבור, שממירה מילים לדיבור שנשמע אנושי. הסיבות לשימוש רבות: מסיוע לבעלי קשיי קריאה כמו דיסלקסיה וראייה לקויה ועד לייעול אישי.

API

API זה ראשי תיבות של ממשק תכנות יישומים – גשר בין שתי אפליקציות. אם אתם מפתחים אפליקציה עם תוכן קולי וצריכים טקסט לדיבור, תוכלו לפתח זאת לבד או להתחבר ל-API קיים של טקסט לדיבור.

כך תוכלו להתמקד בפיתוח האפליקציה ולהישען על API חיצוני שמטפל עבורכם בהמרת הטקסט לדיבור.

Google Cloud API

כאן נכנס Google Cloud לתמונה. גוגל פיתחה API חזק להמרת טקסט לדיבור ומציעה אותו למפתחים במגוון מסלולי תשלום. כל מפתח שצריך פיצ’ר כזה, יכול להשתמש בו דרך גוגל. TTS זה פשוט ראשי תיבות של טקסט לדיבור.

מצאו מדריך התחלה מהירה ב-Google Cloud Console בכתובת https://cloud.google.com/. תמצאו שם מדריכים, ניהול חשבון שירות, גישה לקולות ועוד.

Google Cloud היא פלטפורמת ענן שמציעה מגוון שירותים מודולריים. אפשר לבחור להשתמש בחלקם או בכולם. צריך ליצור מפתחות גישה לאימות לכל API – הגשר שלכם. רוב השירותים עולים כסף, אך ייתכן שקיים סף חינמי מסוים.

גוגל רכשה את DeepMind ב-2014 בזכות טכנולוגיית הטקסט לדיבור שלה והעבודה עם רשתות עצביות. כיום DeepMind היא חלק מגוגל – Google DeepMind.

עכשיו, כשהבנו את הבסיס, נעמיק ב-Google Cloud Text to Speech API.

פיצ’רים עיקריים של Google Text to Speech API

גוגל מובילה עולמית בתחום, ללא ספק. ב-TTS API תמצאו פיצ’רים מתקדמים שמתעדכנים כל הזמן.

איכות קול גבוהה

הקולות של טקסט לדיבור של גוגל מהמובילים בענף – טבעיים ואנושיים מאוד. TTS עדיין בתחילת דרכו, ומי שישכפל הכי טוב קול אנושי יוביל.

מבחר קולות

לגוגל מגוון רחב של קולות, כך שהפרויקט שלכם לא חייב להישמע כמו כל האחרים – או כמו המתחרים.

צרו קול משלכם

הפיצ’ר הזה קרוב ל-שכפול קול. אפשר ליצור קול מותאם אישית על ידי הקלטה שלכם (או של אדם אחר ברשותו), ולהשתמש בו לקריאת הטקסט שלכם.

קולות נוירליים

קולות נוירליים מספקים את איכות הצליל הגבוהה ביותר ממגוון הקולות, ואפשר להתאים אותם לשפות שונות.

קולות סטודיו

קולות סטודיו נשמעים ברמה מקצועית ומקנים תחושה של הקלטת אולפן אמיתית.

כיוונון קול

בחרו קול והתאימו מהירות, גובה ועוד – כך שתוכלו לבחור טון שמתאים בדיוק לפרויקט.

כמה עולה Google Text to Speech API?

המחיר תלוי באיכות הקול ובאורך הטקסט. ככל שתרצו קול טבעי יותר, המחיר עולה, אך עדיין נשאר נגיש ביחס לאיכות. אפילו קולות איכותיים נחשבים זולים.

סוג קולחינם בחודשלאחר ניצול החינם
קולות Neural20 עד מיליון בתים16$ לכל מיליון בתים
קולות Polyglot0 עד מיליון בתים16$ לכל מיליון בתים
קולות סטודיו0 עד 100,000 בתים160$ לכל מיליון בתים
קולות רגילים0 עד 4 מיליון תווים4$ לכל מיליון תווים
קולות Wavenet0 עד מיליון תווים16$ לכל מיליון תווים

מה ההבדל בין תווים לבתים?

המחירים משתנים מאוד לפי איכות הקול. תהליך קידוד ועיבוד האודיו משתנה בין הקטגוריות. למשל, 'קולות רגילים' מחושבים לפי תווים – ולכן המחיר נמוך יותר.

אם לפרויקט שלכם יש 4 מיליון תווים, זה יעלה 16$ להמרה עם הקולות הרגילים.

קולות סטודיו דורשים יותר עיבוד ומחושבים לפי בתים. בשפות כגון יפנית, תו אחד יכול לשקול כמה בתים.

לקבלת מחיר מדויק כדאי להכיר את השפה ואת היחס הממוצע בין תווים לבתים ולחשב בהתאם.

איך להגדיר פרויקט Google Cloud Platform Text to Speech API?

  1. צרו חשבון Google Cloud או התחברו כאן
  2. צרו פרויקט חדש ותנו לו שם מתאים.
  3. הוסיפו אמצעי תשלום – משלמים רק על מה שמשתמשים.
  4. בחרו את הפרויקט שלכם וחברו אותו לחשבון החיוב.
  5. הפעילו את Text-to-Speech API. חפשו בשורת החיפוש "speech".
  6. בחרו את Cloud Text-to-Speech API.
  7. הגדירו אימות לסביבת הפיתוח. לקביעת אימות מדויק ל-Text-to-Speech ראו הוראות באתר.

אפשר גם לנסות את Text-to-Speech בלי לקשר לפרויקט:

  1. בחרו באפשרות TRY THIS API.
  2. להפעלת Text-to-Speech, לחצו ENABLE.

בדקו את תיעוד Google Cloud למידע נוסף.

איך לבטל את Text to Speech API?

כדי לבטל את Text-to-Speech API היכנסו ללוח הבקרה ב-Google Cloud Platform, לחצו על 'מעבר לסקירת APIs', מצאו את Text-to-Speech API, לחצו עליו ובחרו "DISABLE API" למעלה.

התחילו לעבוד עם Google Text to Speech API

לאחר שהגדרתם פרויקט, אפשר להתחיל בעזרת שורת הפקודה.

gcloud init

הגדירו אימות מקומי

gcloud auth application-default login

עכשיו התקינו ספריית לקוח. בדוגמה — Node.js

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API תומך בשפות הבאות:

  1. Go
  2. Java
  3. Node.js
  4. C++
  5. C#
  6. PHP
  7. Python
  8. Ruby
  9. TypeScript
  10. Terraform
  11. YAML

איך Google Cloud API עובד?

הכל מתחיל בקריאה פשוטה ל-API. שולחים טקסט ומקבלים בחזרה קובץ שמע. בבקשה אפשר לבחור קול, שפה ועוד. ה-טקסט לדיבור API יחזיר אודיו בהתאם.

לימדו כיצד להתקין ולהשתמש בספריות לקוח של טקסט לדיבור כאן. דוגמאות הקוד הן ל-Node.js, אך אפשר לבחור כל שפה נתמכת.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

וזהו! הגדרתם Google Cloud Text to Speech API ושלחתם בקשה ראשונה להמרת טקסט לדיבור. תוכלו לקבל קבצים בפורמטים שונים — OGG או MP3.

שימושים נפוצים ב-Google Text to Speech API

Google Text to Speech (TTS) API נותן פתרון גמיש למגוון תחומים. דוגמאות נפוצות:

  1. טקסט לדיבור לעיוורים: שימוש ב-TTS להמרת טקסט לדיבור, להנגשת מידע דיגיטלי עבור משתמשים עם מגבלות ראיה.
  2. מערכות מענה טלפוני אוטומטיות: שימוש ב-TTS ליצירת הודעות והוראות קוליות בשירות לקוחות.
  3. קריינות למדיה: הפקת קריינות טבעית לסרטונים, פודקאסטים ועוד.
  4. טקסט לדיבור לתוכן מתורגם: המרת טקסט מתורגם לדיבור לצורך למידת שפה או צריכת תוכן בשפות שונות.
  5. סיוע קריאה לדיסלקטים: שימוש ב-TTS לסיוע בקריאה עבור דיסלקטים או מי שמתקשה בקריאה.
  6. ניווט קולי באפליקציות: שילוב TTS באפליקציות ניווט, לקבלת עדכונים קוליים.
  7. טקסט לדיבור בתוכן לימודי: שיפור חוויית הלמידה בהמרת טקסט קריאה לדיבור מעורר עניין.
  8. סינתזת דיבור באפליקציות פרודקטיביות: שילוב TTS באפליקציות ניהול משימות, לקבלת תגובות קוליות.
  9. קול טבעי לעוזרים וירטואליים: העצמת עוזרים קוליים עם TTS טבעי עבור חוויית משתמש טובה יותר.
  10. התראות קוליות: שימוש ב-TTS להתראות ועדכונים קוליים במכשירי IoT.

אלטרנטיבות ל-Google Cloud TTS API

נכון לינואר 2022 היו כמה אלטרנטיבות ל-Google Text to Speech API. ייתכן שחלק מהמידע השתנה מאז. הנה שמות בולטים:

  1. Speechify Text to Speech API: Speechify Text to Speech API מציע מעל 1,000 קולות טבעיים ו-רגשיים AI voices ביותר מ-60 שפות ודיאלקטים. הירשמו עוד היום.
  2. Amazon Polly: AWS מציעים את Polly לסינתזת דיבור טבעית במגוון שפות וקולות, עם שילוב נוח בשירותי אמזון נוספים.
  3. Microsoft Azure Speech Service: תומך בטקסט לדיבור ובמגוון אפליקציות: עוזרים קוליים, ניווט ועוד.
  4. IBM Watson Text to Speech: מאפשר להמיר טקסט לדיבור טבעי במגוון קולות.
  5. Nuance Communications: מציעים פתרונות דיבור והמרת טקסט לדיבור לתחומי בריאות, רכב ושירות.
  6. CereProc: חברת טקסט לדיבור עם קולות באיכות גבוהה לנגישות, בידור ותקשורת.
  7. iSpeech: שירות מבוסס ענן עם תמיכה בשפות רבות. מתאים לאפליקציות ואתרים.
  8. ResponsiveVoice: API פשוט וזול שתומך בהרבה שפות, ומתאים בעיקר לווב.
  9. Neospeech: פתרונות טקסט לדיבור טבעיים במיוחד. נפוץ בלמידה ובידור.
  10. ReadSpeaker: שירותי טקסט לדיבור אונליין ואופליין לאתרים, לימוד ונגישות.
  11. Acapelabox: Acapela Group מציעים API בענן — Acapelabox — שתומך בשפות וקולות רבים.

שאלות נפוצות

לגוגל מדרגות קולות שונות, וכמעט לכולן יש סף חינמי, לדוג' עד מיליון בתים בקולות סטנדרטיים. לאחר מכן — 16$ לכל מיליון בתים. אז כן, יש שימוש חינם עד מגבלות מסוימות.

פשוט פתחו חשבון בכתובת https://cloud.google.com/text-to-speech/ ופעלו לפי השלבים. הפירוט המלא נמצא בפוסט זה למעלה.

התחברו לחשבון Google Cloud, צרו פרויקט, ואז תוכלו ליצור מפתח API.

אין תקופת ניסיון חינמית אחת. לכל שירות ב-Google Cloud יש תנאים ומדרגות חינם שונות.

לא. נדרש חיבור לאינטרנט לשימוש ב-Google Cloud text to speech API.

אימות ל-Google Cloud כולל מפתחות API, OAuth 2.0 או חשבונות שירות. סוג האימות תלוי באפליקציה ובשימוש.

דורג 5 כוכבים. קל לשימוש, חיפוש מצוין, מחירים סבירים. מוצר מעולה.

Google Text to Speech API מציע ספריות לקוח לשפות שונות, כולל Python, ותומך גם בבקשות REST באמצעות כל שפה שמבצעת בקשות HTTP.

משלבים את Google Text to Speech API באנדרואיד דרך מחלקת TextToSpeech וביצוע קריאות API, לפי התיעוד הרשמי למפתחים.

מימוש ב-JavaScript אפשרי על ידי שליחת בקשות HTTP ל-API, בניית הבקשה וטיפול בתשובה בקוד. עיינו בתיעוד הרשמי לפרטים.

גשו לקולות האהובים של Speechify דרך API מהיר, גמיש וידידותי למפתחים

קבלו גישה ל-API
api access banner

שתפו את המאמר הזה

Cliff Weitzman

קליף ויצמן

מנכ"ל ומייסד Speechify

קליף ויצמן הוא פעיל למען דיסלקסיה, מנכ"ל ומייסד Speechify, אפליקציית טקסט־לדיבור המובילה בעולם, עם למעלה מ-100,000 דירוגי חמישה כוכבים ודירוג ראשון ב-App Store בקטגוריית חדשות ומגזינים. ב-2017 נבחר לרשימת פורבס "30 מתחת ל-30" בזכות קידום הנגישות לאנשים עם לקויות למידה. הופיע ב-EdSurge, Inc., PC Mag, Entrepreneur, Mashable ועוד.

speechify logo

אודות Speechify

הקורא הטוב בעולם לטקסט לדיבור

Speechify היא הפלטפורמה המובילה בעולם לטקסט לדיבור, שנשענת על למעלה מ-50 מיליון משתמשים ומגובה ביותר מ-500,000 ביקורות חמישה כוכבים על מוצרי הטקסט לדיבור שלה ל-iOS, Android, הרחבת כרום, אפליקציית ווב ואפליקציית דסקטופ למק. ב-2025, אפל העניקה ל-Speechify את פרס ה-Apple Design Award היוקרתי ב-WWDC, ותיארה אותה כ"משאב חיוני שעוזר לאנשים לחיות את חייהם." Speechify מציעה יותר מ-1,000 קולות טבעיים ביותר מ-60 שפות, ונמצאת בשימוש כמעט ב-200 מדינות. בין קולות הסלבריטאים ניתן למצוא את Snoop Dogg ו-Gwyneth Paltrow. ליוצרים ולעסקים, Speechify Studio מספקת כלים מתקדמים, כולל מחולל קולות AI, שיבוטי קול AI, דיבוב AI וגם מחליף קולות AI. Speechify גם מספקת יכולות טקסט לדיבור מתקדמות, איכותיות ומשתלמות למוצרים מובילים באמצעות ה-API לטקסט לדיבור שלה. הופיעה ב-The Wall Street Journal, CNBC, Forbes, TechCrunch וגופי חדשות נוספים, Speechify היא ספקית טקסט לדיבור הגדולה בעולם. בקרו ב-speechify.com/news, speechify.com/blog ו-speechify.com/press למידע נוסף.