אנשים רבים משתמשים בשירותי דיבור־מטקסט ביום־יום, יחד עם עוזרים חכמים. אבל לא רבים יודעים שלשניהם יש לא מעט מאפיינים דומים באופן הפעולה. ככל שהטכנולוגיה משתפרת, גם איכות האפליקציות היומיומיות שלנו מזנקת.
זה נכון גם לגבי אפליקציות דיבור־מטקסט ועוזרים וירטואליים. יש כמה חברות שמציגות תוצאות יוצאות דופן בתחום, ואחת הבולטות היא גוגל עם טכנולוגיית WaveNet.
מה זה Google WaveNet?
WaveNet היא רשת נוירונים מלאכותית שמייצרת אודיו גולמי. מאחוריה עומדת DeepMind מלונדון, המתמקדת בבינה מלאכותית. שילוב הטכנולוגיה חולל מהפכה בפלטפורמת Google Cloud והקפיץ את הכל לשלב הבא.
אחד היתרונות המרכזיים ש-DeepMind של גוגל הציגה לעומת מערכות דיבור־מטקסט קודמות הוא איכות הצליל הגבוהה בהרבה. ב-2016, מערכות דיבור־מטקסט כמעט שלא הצליחו להישמע טבעיות.
WaveNet לדיבור־מטקסט עקפה את כולן בכל פרמטר. הרעיון מאחורי הטכנולוגיה פשוט — התוכנה משתמשת בקבצי אודיו גולמיים כמו WAV כקלט, ונהנית מחיבור ל-API של גוגל ולמפתחי API.
היום יש אינספור דרכים להשתמש בטכנולוגיה הזו בזכות היכולת שלנו להריץ אלגוריתמים מתקדמים. חברות רבות מתחרות ביניהן על מוצר טוב יותר — וזה רק משחק לטובת הצרכן. יש יותר אפשרויות למצוא תוכנה שתתאים בול לצרכים שלך.
איך WaveNet עובד
WaveNet היא גרסה של רשת נוירונים קדמית (FNN), המכונה גם רשת קונבולוציה עמוקה (CNN). הרשת לוקחת אות גולמי כקלט ומסנתזת פלט — דגימה אחת בכל פעם.
הבסיס להכל הוא למידת מכונה, עיבוד שפה טבעית, למידה עמוקה ובינה חישובית. בעבר יצרו מאגר פונמות, והאפליקציה בחרה כל פעם את הקרובה ביותר.
הרכבת פאזל כזה אינה פשוטה. התוכנה חייבת להבין את חוקי השפה, כולל הדינמיקה והקצב, אחרת הצליל נשמע מלאכותי ולא טבעי.
כמו רוב תוכנות הדיבור־מטקסט, גם WaveNet משתמשת בגלי קול אמיתיים — פרמטריים או קונקטטיביים למשל. כך התוכנה מנתחת איך השפה והצלילים משתנים לאורך זמן.
זה מאפשר ליצור דפוסים שנשמעים כדיבור אנושי על בסיס דוגמאות הדיבור. הייחוד הוא שהתוכנה מפיקה פלט בהתאם למידע שמוזן אליה.
בפועל: אם אתה דובר איטלקית, לדוגמה, התוכנה תוכל לסייע ביצירת דיבור באיטלקית. זה היה צעד ענק בזמן ההשקה ופתח את הדלת ל-API-ים נוספים בתחום.
דוגמאות ל-WaveNet בפעולה
כשנוצרה התוכנה נדרשה עוצמת עיבוד גבוהה מדי לשימוש יומיומי. אבל בהמשך הכל השתנה. ה-API הזה מניע את קולות Google Assistant ששולבו במגוון פלטפורמות.
WaveNet היא גם כלי מצוין למי שמחפש תוכנת דיבור־מטקסט. הצליל ריאליסטי יותר וכל החוויה נעימה וזורמת. אפשר להאזין לחדשות, תמלילי פודקאסטים ועוד.
וזה רק קצה הקרחון. כל הגישה הזו עשויה לסייע גם לאנשים עם הפרעות דיבור למצוא מחדש את קולם. סינתזת קול — חיקוי קול — פותחת אפשרויות מדהימות: למשל, אנשים שמאבדים את יכולת הדיבור יכולים להשתמש בדגימת קולם ולשלב אותה עם כלי דיבור־מטקסט. כך הם יכולים לזכות מחדש בקול האישי שלהם.
עוד מוקדם לדעת לאן יתפתחו מערכות דיבור־מטקסט, אבל כנראה שהעתיד נראה מבטיח. אחת הסיבות היא ריבוי החברות שמפתחות מוצרים בתחום.
כשכולם שואפים לאותה מטרה — נקבל תוצאות יוצאות דופן.
Speechify - סינתזת דיבור
אחת האפליקציות שחובה להכיר היא Speechify. זו אפליקציית דיבור־מטקסט שעובדת כמעט על כל מכשיר. היא זמינה ל-iOS, אנדרואיד, מק ואפילו כתוסף ל-גוגל כרום.
Speechify מקריאה כמעט כל סוג תוכן - קובצי PDF, מסמכים, אימיילים ועוד. היתרון שלה הוא גמישות גבוהה והתאמה אישית.
אפשר לכוון את מהירות ההקראה, לבחור קולות שונים, לשנות את גובה הטון ועוד. בנוסף, Speechify כוללת OCR (זיהוי טקסט מתמונה) — צלם עמוד והאפליקציה תקרא אותו עבורך.
האפליקציה פותחה במיוחד לאנשים עם דיסלקציה, הפרעות קשב, לומדי שפה חדשה או כל מי שרוצה להיות פרודוקטיבי יותר בקריאה. אפליקציה אחת שיכולה להפוך לגמרי את חוויית הקריאה.
Speechify פשוטה לשימוש, ולא צריך שום מדריך מסובך כדי להתחיל.
שאלות נפוצות
למה משמש WaveNet?
זו רשת נוירונים עמוקה שמייצרת אודיו גולמי. היא מאפשרת סינתזת דיבור־מטקסט עם קולות WaveNet טבעיים, שניתן לאמן בהקלטות אמיתיות — והצליחה לעקוף את Google Cloud TTS.
כיום משמשת הטכנולוגיה לקולות של Google Assistant.
מהו מודל WaveNet?
המודל מבוסס על מבנה PixelCNN. כדי להתמודד עם תלות ארוכת טווח ולייצר פלט, הארכיטקטורה עושה שימוש בקונבולוציות דילטיביות.
הרחבת CNN דילטיבית מאפשרת אימון קל ומהיר, אפשר “ללכת” אחורה אלף שכבות בזמן — והמערכת עובדת פי 20 מהר יותר משידור חי.
מה ההבדל בין WaveNet ו-CNN?
WaveNet מבוססת על CNN — יישום נוסף של אותה טכנולוגיה. חברות כמו מיקרוסופט ואמזון (עם SSML) משתמשות בגישות דומות ומגיעות לתוצאות איכותיות.
כדי לבחור אפליקציית דיבור־מטקסט, שווה לנסות קודם את Speechify. יש גם פלטפורמות אחרות עם יתרונות משלהן, אבל Speechify פשוטה, בלי סיבוכים, ואינטואיטיבית לכל מי שרוצה להפוך טקסט לדיבור.

