1. Pagrindinis
  2. Kalbos sintezė
  3. Kas yra žodžių klaidų rodiklis (WER)?
Paskelbta Kalbos sintezė

Kas yra žodžių klaidų rodiklis (WER)?

Cliff Weitzman

Cliff Weitzman

„Speechify“ generalinis direktorius / įkūrėjas

apple logo2025 m. Apple dizaino apdovanojimas
50 mln.+ vartotojų

WER supratimas

WER remiasi Levenshteino atstumu – algoritmu, matuojančiu dviejų sekų skirtumus. ASR kontekste tai yra sistemos gauta transkripcija (hipotezė) ir iš tiesų ištartas tekstas (referencija).

WER skaičiavimas apima įterpimų, ištrynimų ir pakeitimų skaičių, reikalingą hipotezę paversti į tikrą transkriptą. Formulė atrodo taip:

\[ \text{WER} = \frac{\text{Substitucijų skaičius} + \text{Ištrynimų skaičius} + \text{Įterpimų skaičius}}{\text{Žodžių skaičius referencijoje}} \]

Svarba realiose taikymo srityse

WER ypač reikšmingas realiu laiku veikiančiose sistemose, kur kalbos atpažinimas turi veikti įvairiomis sąlygomis – triukšme ar su skirtingais akcentais. Mažesnis WER rodo tikslesnę transkripciją ir geresnį šnekos supratimą.

Veiksniai, darantys įtaką WER

WER gali lemti kalbos sudėtingumas, žargonas ar reti daiktavardžiai ir kalbėjimo aiškumas. Didelę reikšmę turi foninis triukšmas ir garso kokybė. Daugiaakcentės sistemos, apmokytos skirtingais stiliais, paprastai veikia tiksliau ir pasiekia mažesnį WER.

Gilaus mokymosi ir neuroninių tinklų poveikis

Gilusis mokymasis ir neuroniniai tinklai smarkiai pastūmėjo ASR sritį į priekį. Generatyviniai ir didieji kalbos modeliai, treniruoti su labai dideliais duomenų kiekiais, didina transkripcijų tikslumą. Tai leidžia kurti sistemas, kurios patikimai atpažįsta skirtingas kalbas ir dialektus.

Praktiniai pritaikymai ir ASR vertinimas

ASR sistemos vertinamos pagal WER, siekiant užtikrinti tinkamumą įvairiems tikslams – nuo balso asistentų iki automatizuoto klientų aptarnavimo. Pvz., triukšmingoje gamykloje sistema turi pasiekti kuo mažesnį WER, o paskaitų transkripcijose svarbiausia – kalbos tikslumas ir plati leksika.

Įmonės dažnai naudoja WER kaip kokybės užtikrinimo rodiklį. Analizuodami klaidas (ištrynimus, pakeitimus, įterpimus), kūrėjai randa vietas, kurias reikia tobulinti. Substitucijos gali rodyti sistemos sunkumus su tam tikrais garsais ar kalbos ypatybėmis, o įterpimai – problemas su pauzėmis ar persidengiančia kalba.

Nuolatinė plėtra ir iššūkiai

Siekdami mažesnio WER, kūrėjai nuolat tobulina algoritmus, mokomuosius duomenis ir normalizavimo metodus. Tikros naudojimo sąlygos kelia naujus, iš anksto nenumatytus iššūkius, todėl reikia nuolat prisitaikyti ir mokytis iš patirties.

Ateities kryptys

Ateityje ASR integracija su kitomis dirbtinio intelekto sritimis, pvz., natūralios kalbos supratimu ar konteksto atpažinimu, dar labiau padidins kalbos atpažinimo efektyvumą. Tobulės neuronų architektūros ir generatyvūs modeliai, dar labiau plėsdami ASR galimybes.

Žodžių klaidų rodiklis – kertinis rodiklis vertinant automatinio kalbos atpažinimo sistemas. Jis parodo, kaip gerai sistema supranta ir perrašo šneką į rašytinį tekstą. Tobulėjant technologijoms, vis didėja galimybės dar labiau mažinti WER ir gerinti kalbos supratimą.

Dažniausiai užduodami klausimai

Žodžių klaidų rodiklis (WER) – rodiklis, įvertinantis automatinės kalbos atpažinimo sistemos tikslumą, palyginant transkripciją su originalia šneka.

Geras WER priklauso nuo paskirties, bet kuo mažesnis (artimas 0 %), tuo geresnis tikslumas. Rodiklis iki 10 % paprastai laikomas kokybišku.

Tekste WER reiškia žodžių klaidų rodiklį, kuris rodo klaidų procentą transkripcijoje, palyginti su originalia šneka.

CER (simbolių klaidų rodiklis) matuoja klaidas simbolių lygmeniu, o WER – žodžių lygmeniu transkripcijoje.

Mėgaukitės pažangiausiais AI balsais, neribotu failų kiekiu ir 24/7 pagalba

Išbandyti nemokamai
tts banner for blog

Pasidalykite šiuo straipsniu

Cliff Weitzman

Cliff Weitzman

„Speechify“ generalinis direktorius / įkūrėjas

Cliff Weitzman – disleksijos šalininkas, „Speechify“ vadovas ir įkūrėjas. „Speechify“ – pirmaujanti pasaulyje teksto į kalbą programa, turinti daugiau nei 100 000 penkių žvaigždučių įvertinimų ir lyderiaujanti „App Store“ naujienų ir žurnalų kategorijoje. 2017 m. „Forbes“ jį įtraukė į „30 iki 30“ sąrašą už indėlį didinant interneto prieinamumą žmonėms su mokymosi sutrikimais. Apie jį rašė „EdSurge“, „Inc.“, „PC Mag“, „Entrepreneur“, „Mashable“ ir kt.

speechify logo

Apie Speechify

#1 teksto į kalbą skaitytuvas

Speechify yra pirmaujanti pasaulyje teksto į kalbą platforma, kuria pasitiki daugiau nei 50 milijonų vartotojų ir kurią pagrindžia daugiau nei 500 000 penkių žvaigždučių atsiliepimų skirtingose teksto į kalbą iOS, Android, Chrome plėtinio, internetinės programėlės ir Mac darbalaukio programose. 2025 m. Apple apdovanojo Speechify prestižiniu Apple dizaino apdovanojimu per WWDC, pavadindama jį „esminiu ištekliumi, padedančiu žmonėms gyventi visavertį gyvenimą“. Speechify siūlo daugiau nei 1 000 natūraliai skambančių balsų daugiau nei 60 kalbų ir naudojamas beveik 200 šalių. Tarp įžymybių balsų – Snoop Dogg ir Gwyneth Paltrow. Kūrėjams ir verslui Speechify Studio suteikia išplėstinius įrankius, tarp kurių yra AI balso generatorius, AI balso klonavimas, AI dubliavimas ir AI balso keitiklis. Speechify taip pat aprūpina pažangius produktus kokybišku ir ekonomišku teksto į kalbą API. Apie mus rašė The Wall Street Journal, CNBC, Forbes, TechCrunch ir kiti didieji naujienų portalai, todėl Speechify yra didžiausias teksto į kalbą teikėjas pasaulyje. Apsilankykite speechify.com/news, speechify.com/blog ir speechify.com/press ir sužinokite daugiau.