1. Avaleht
  2. Kõnesüntees
  3. Mis on sõnaveamäär (WER)?
Avaldatud Kõnesüntees

Mis on sõnaveamäär (WER)?

Cliff Weitzman

Cliff Weitzman

Speechify tegevjuht/asutaja

apple logo2025. aasta Apple'i disainiauhind
50M+ kasutajat

WER-ist arusaamine

WER põhineb Levenshteini kaugusel, algoritmil, mis mõõdab kahe järjestuse erinevust. ASR-kontekstis on need järjestused kõnetuvastussüsteemi loodud transkriptsioon ("hüpotees") ja räägitud tekst ("referents" või "tõde").

WER arvutamisel loetakse sisestuste, kustutamiste ja asendamiste arv, mis on vaja hüpoteesist referentstekstini jõudmiseks. WER-i valem on järgmine:

\[ \text{WER} = \frac{\text{Asenduste arv} + \text{Kustutuste arv} + \text{Lisamiste arv}}{\text{Referentsteksti sõnade koguarv}} \]

Olulisus pärisrakendustes

WER on väga tähtis reaalsetes kasutusolukordades, kus süsteemid peavad töötama eri tingimustes, näiteks taustamüra ja erinevate aktsentidega. Mida madalam on WER, seda täpsem on transkriptsioon ja seda paremini saab süsteem kõnest aru.

WER-i mõjutavad tegurid

Mitmed tegurid mõjutavad ASR-süsteemi WER-i: keele keerukus, tehnilise kõne või harva esinevate nimede kasutus ja kõne selgus. Suurt rolli mängivad ka taustamüra ja heli kvaliteet. Näiteks süsteemid, mis on treenitud mitmekesiste aktsentide ja kõneviisidega andmetel, on üldiselt täpsemad ja nende WER väiksem.

Sügavõppe roll

Sügavõpe ja tehisnärvivõrgud on ASR-valdkonda oluliselt edasi viinud. Generatiivsed mudelid ja suured keelemudelid (LLM), mis kasutavad väga suuri treeningandmeid, parandavad keerukate keelemustrite mõistmist ja täpsustavad kõne transkribeerimist. Need edasiminekud on hädavajalikud, et ASR-süsteemid oleks täpsed ja suudaksid kohaneda eri keelte ja murretega.

Praktilised kasutused ja hindamine

ASR-süsteeme hinnatakse WER-i järgi, et need vastaksid erinevatele kasutusvajadustele, näiteks häälassistendid või automaatne klienditeenindus. Näiteks mürarikkas tehases keskendutakse madalale WER-ile koos tugeva mürasummutusega. Loengute transkribeerimisel on tähtsad keeleline täpsus ja oskus toime tulla väga suure sõnavaraga.

Ettevõtted kasutavad WER-i sageli kvaliteedikontrolliks. Analüüsides vigade tüüpe – kustutused, asendused, lisamised – saab arendaja leida kohti, mida paremaks teha. Näiteks rohke asenduste arv võib viidata raskustele teatud häälikute või keelenditega, paljud lisamised aga pauside või üksteise sõna peale rääkiva kõne töötlemise probleemidele.

Pidev arendus ja väljakutsed

WER-i vähendamine on pidev protsess: täiustatakse masinõpet, treeningandmeid ja normaliseerimist. Päriselu kasutuses tuleb aga sageli ette ootamatuid raskusi, mis nõuavad süsteemilt järjepidevat kohanemist ja õppimist.

Tuleviku suunad

Tulevikus lubab ASR-i ühendamine tehisintellekti teiste osadega, nagu loomuliku keele mõistmine ja kontekstitundlik töötlus, parandada kõnetuvastussüsteemide praktilisust. Närvivõrkude arendus ning generatiivsete ja diskrimineerivate mudelite laiem kasutus laiendavad ASR-tehnoloogia võimalusi veelgi.

Sõnaveamäär on keskne näitaja automaatsete kõnetuvastussüsteemide hindamisel. See on võrdluspunkt, mis näitab, kui hästi süsteem suudab kõne kirjutatud tekstiks teha. Tehnoloogia arenedes ja uute tööriistade lisandudes kasvab võimalus jõuda veel madalama WER-i ja parema keelemõistmiseni, muutes seda, kuidas masinatega suhtleme.

Korduma kippuvad küsimused

Sõnaveamäär (WER) on mõõdik, mille abil hinnatakse automaatse kõnetuvastussüsteemi täpsust võrreldes transkribeeritud teksti algse kõnega.

Hea WER oleneb kasutuskohast, kuid mida madalam (0% lähedal), seda täpsem; alla 10% peetakse tavaliselt väga heaks.

Tekstis tähendab WER sõnaveamäära – protsenti vigadest, mis esinevad süsteemi transkriptsioonis võrreldes algse kõnega.

CER (tähemärgiveamäär) loendab vigu tähemärkide tasandil, WER (sõnaveamäär) aga sõnatasandil.

Naudi tipptasemel AI-hääli, piiramatult faile ja ööpäevaringset kliendituge

Proovi tasuta
tts banner for blog

Jaga seda artiklit

Cliff Weitzman

Cliff Weitzman

Speechify tegevjuht/asutaja

Cliff Weitzman on düsleksia eestkõneleja ning Speechify tegevjuht ja asutaja. Speechify on maailma populaarseim kõnesünteesi rakendus, millel on üle 100 000 viietärnilise arvustuse ja mis on App Store'is Uudiste & Ajakirjade kategoorias esikohal. 2017. aastal kanti Weitzman Forbesi „30 alla 30” nimekirja tema töö eest interneti ligipääsetavuse parandamisel õpiraskustega inimestele. Cliff Weitzmanist on kirjutanud ka EdSurge, Inc, PC Mag, Entrepreneur, Mashable ja paljud teised juhtivad väljaanded.

speechify logo

Speechify'st

#1 tekst kõneks rakendus

Speechify on maailma juhtiv tekst kõneks platvorm, mida usaldab üle 50 miljoni kasutaja ja millele on antud enam kui 500 000 viietärnilist arvustust selle tekstist kõneks tehnoloogia eest iOS-, Android-, Chrome Extension-, veebirakendus- ja Mac desktop-rakendustes. 2025. aastal pälvis Speechify Apple’ilt prestiižse Apple’i disainiauhinna WWDC-l, nimetades seda „oluliseks ressursiks, mis aitab inimestel paremini elada.” Speechify pakub üle 1 000 loodusliku kõlaga hääle rohkem kui 60 keeles ning seda kasutatakse ligi 200 riigis. Kuulsuste häältest on saadaval näiteks Snoop Dogg ja Gwyneth Paltrow. Loojatele ja ettevõtetele pakub Speechify Studio täiustatud tööriistu, sh AI-häälegeneraatorit, AI-häälekloonimist, AI-dubleerimist ja AI-häälevahetust. Speechify panustab ka juhtivatesse toodetesse tänu kvaliteetsele ja kuluefektiivsele tekst kõneks API-le. Esindatud näiteks The Wall Street Journal, CNBC, Forbes, TechCrunch ja muudes juhtivates meediakanalites, on Speechify maailma suurim kõnesünteesi teenusepakkuja. Vaata lisaks: speechify.com/news, speechify.com/blog ja speechify.com/press.