1. דף הבית
  2. הפקת דיבור
  3. מהו שיעור שגיאות במילים (WER)?
פורסם בתאריך הפקת דיבור

מהו שיעור שגיאות במילים (WER)?

Cliff Weitzman

קליף ויצמן

מנכ"ל ומייסד Speechify

apple logoApple Design Award 2025
מעל 50 מיליון משתמשים

הבנת WER

WER הוא מדד המבוסס על מרחק לוינשטיין, אלגוריתם שמודד את ההבדל בין שתי סדרות. ב-ASR, אלו התמלול שנוצר על ידי המערכת ("השערה") והטקסט שנאמר בפועל ("ייחוס"/"אמת מידה").

חישוב WER כולל ספירת מספר ההוספות, המחיקות וההחלפות שנדרשות כדי להפוך את ההשערה לייחוס. הנוסחה ל-WER היא:

\[ \text{WER} = \frac{\text{Number of Substitutions} + \text{Number of Deletions} + \text{Number of Insertions}}{\text{Total Number of Words in the Reference Transcript}} \]

חשיבות באפליקציות בעולם האמיתי

WER חשוב במיוחד בשימושים בזמן אמת, שבהם מערכות זיהוי דיבור צריכות לפעול בתנאים משתנים – רעשי רקע, מבטאים שונים ועוד. WER נמוך פירושו תמלול מדויק יותר והוא מהווה מדד להצלחת הבנת הדיבור של המערכת.

גורמים המשפיעים על WER

על WER במערכת ASR משפיעים כמה גורמים: מורכבות השפה, מינוחים ושמות לא שגרתיים, בהירות הדיבור, רעשי רקע ואיכות השמע. מערכות שאומנו על דוברים ומבטאים מגוונים יהיו עמידות יותר ויציגו WER נמוך יותר.

תפקיד הלמידה העמוקה והרשתות העצביות

פריצות דרך בלמידה עמוקה וברשתות עצביות הקפיצו את תחום הזיהוי. מודלים מחוללים, ושימוש ב-LLMs על בסיס כמויות גדולות של נתונים, שיפרו מאוד את יכולת זיהוי הדפוסים המורכבים בתמלול. כך ניתן לפתח מערכות ASR מדויקות שמסתגלות לשפות שונות ולניבים מגוונים.

שימושים מעשיים והערכת מערכות ASR

מערכות ASR נמדדות באמצעות WER כדי לוודא שהן עונות על צורכי המשתמשים – מעוזרי קול ועד שירות לקוחות אוטומטי. למשל, מערכת במפעל רועש תתמקד ב-WER נמוך בתנאי רעש, בעוד שמערכת להמרת הרצאות תעדיף דיוק לשוני ויכולת להתמודד עם נושאים מגוונים.

חברות משתמשות ב-WER לצורכי בקרת איכות. ניתוח סוגי השגיאות (החסרות, החלפות, הוספות) מאפשר לזהות נקודות לשיפור. לדוגמה, חוסר בהבחנה פונטית יוביל לריבוי החלפות; הוספות מצביעות על קושי בטיפול בהפסקות דיבור או בדוברים חופפים.

פיתוח מתמשך ואתגרים

המאמץ להוריד את ה-WER לא נפסק – הוא דורש שיפורים מתמידים באלגוריתמים, בנתוני האימון ובטכניקות הנרמול. בעת הטמעה בשטח צצים אתגרים חדשים שלא הופיעו בשלב האימון, ולכן נדרשות התאמות ולמידה מתמשכת.

לאן ממשיכים מכאן?

בעתיד, שילוב ASR עם בינה מלאכותית (הבנה של הקשר, עבודה במצבים שונים) יגביר את היעילות של המערכות בשימוש מעשי. חידושים בארכיטקטורות רשת ובעבודה עם מודלים מחוללים ימשיכו לדחוף קדימה את תחום ה-ASR.

שיעור שגיאות במילים הוא מדד מרכזי לבדיקת ביצועי זיהוי דיבור. הוא קובע עד כמה המערכת מצליחה להבין ולהמיר דיבור לטקסט. עם התקדמות הטכנולוגיה, ניתן להגיע לרמות WER נמוכות יותר ולהבנה עמוקה יותר – שמשנות את הדרך שבה אנחנו מתקשרים עם מכונות.

שאלות נפוצות

שיעור שגיאות במילים (WER) הוא מדד להערכת הדיוק של מערכת זיהוי דיבור באמצעות השוואת התמלול לטקסט המקורי.

WER טוב תלוי בשימוש, אך בדרך כלל ערך נמוך (קרוב ל-0%) מסמן דיוק גבוה; פחות מ-10% נחשב איכותי.

בטקסט, WER הוא שיעור שגיאות במילים – אחוז השגיאות בתמלול ביחס למה שנאמר בפועל.

CER (שיעור שגיאות בתווים) מודד טעויות ברמת התו; WER מודד טעויות ברמת המילה בתמלול.

השתמשו בקולות ה-AI המתקדמים ביותר, קבצים ללא הגבלה ותמיכה 24/7

נסו בחינם
tts banner for blog

שתפו את המאמר הזה

Cliff Weitzman

קליף ויצמן

מנכ"ל ומייסד Speechify

קליף ויצמן הוא פעיל למען דיסלקסיה, מנכ"ל ומייסד Speechify, אפליקציית טקסט־לדיבור המובילה בעולם, עם למעלה מ-100,000 דירוגי חמישה כוכבים ודירוג ראשון ב-App Store בקטגוריית חדשות ומגזינים. ב-2017 נבחר לרשימת פורבס "30 מתחת ל-30" בזכות קידום הנגישות לאנשים עם לקויות למידה. הופיע ב-EdSurge, Inc., PC Mag, Entrepreneur, Mashable ועוד.

speechify logo

אודות Speechify

הקורא הטוב בעולם לטקסט לדיבור

Speechify היא הפלטפורמה המובילה בעולם לטקסט לדיבור, שנשענת על למעלה מ-50 מיליון משתמשים ומגובה ביותר מ-500,000 ביקורות חמישה כוכבים על מוצרי הטקסט לדיבור שלה ל-iOS, Android, הרחבת כרום, אפליקציית ווב ואפליקציית דסקטופ למק. ב-2025, אפל העניקה ל-Speechify את פרס ה-Apple Design Award היוקרתי ב-WWDC, ותיארה אותה כ"משאב חיוני שעוזר לאנשים לחיות את חייהם." Speechify מציעה יותר מ-1,000 קולות טבעיים ביותר מ-60 שפות, ונמצאת בשימוש כמעט ב-200 מדינות. בין קולות הסלבריטאים ניתן למצוא את Snoop Dogg ו-Gwyneth Paltrow. ליוצרים ולעסקים, Speechify Studio מספקת כלים מתקדמים, כולל מחולל קולות AI, שיבוטי קול AI, דיבוב AI וגם מחליף קולות AI. Speechify גם מספקת יכולות טקסט לדיבור מתקדמות, איכותיות ומשתלמות למוצרים מובילים באמצעות ה-API לטקסט לדיבור שלה. הופיעה ב-The Wall Street Journal, CNBC, Forbes, TechCrunch וגופי חדשות נוספים, Speechify היא ספקית טקסט לדיבור הגדולה בעולם. בקרו ב-speechify.com/news, speechify.com/blog ו-speechify.com/press למידע נוסף.