Kuigi tekst kõneks ehk arvutiprogramm, mis loeb ekraanil olevad sõnad valjult kasutajale ette, pole uus idee, on see tehnoloogia viimastel aastatel läbi teinud tõelise revolutsiooni.
Ühe hiljutise uuringu kohaselt hinnati tekst kõneks turu väärtuseks 2020. aastal muljetavaldavad 2 miljardit dollarit – osalt COVID-19 pandeemia mõjude tõttu. Hinnanguliselt kasvab see 2026. aastaks 5 miljardi dollarini, aastane kasv on 14,6%.
Suur osa sellest tuleneb sellest, et tekst kõneks lahendused aitavad mitmesuguste nägemishäiretega inimesi. CDC andmetel on USAs üle 40-aastastest 12 miljonil inimesel visuaalse teabe töötlemisega raskusi. Neist 1 miljon on pimedad ja kaheksal miljonil on nägemisprobleemid korrigeerimata murdevigade tõttu. 2012. aastal oli neid 4,2 miljonit.
See kõik näitab, et tekst kõneks tehnoloogia on end igati õigustanud. Paljud lahendused, nagu Speechify, pakuvad mitut kvaliteetset kõnehäält, mille vahel valida. Aga kuidas need süsteemid toimivad ja miks neid hääli nii palju on? Vastuste leidmiseks tuleb mõista mõningaid olulisi põhimõtteid.
Tekst kõneks sisemine tööpõhimõte
Enne kui jõuame tekst kõneks häälte endani, on oluline mõista, kuidas need süsteemid töötavad.
Tekst kõneks kasutab tehisintellekti, masinõpet ja muid tehnoloogiaid, et muuta kirjutatud sõnad helisisuks, mida saab valjusti kuulata. See hõlmab nii veebisisu kui ka dokumente, nagu Wordi failid jm.
Helisisu luuakse täielikult seadmes. Tekst kõneks töötab nii lauaarvutis, sülearvutis kui ka enamikus nutitelefonides ja tahvelarvutites.
Enamik lahendustes toimub tekst kõneks töötlemine seadmes kohapeal. See teeb selle kasulikuks ka ilma internetiühenduseta.
Lisaks aitab tekst kõneks inimestel, kellel on nägemisprobleemid, sisu kuulata, aga võimaldab ka hääle tooni ja kiirust kontrollida. Võid vajadusel tempot aeglustada või kiirendada.
Tekst kõneks hääled: kuidas need tekivad
Tekst kõneks häälte puhul on keskne mõiste kõnesüntesaator.
Mis on kõnesüntesaator?
Kõnesüntees tähendab, et arvuti või seade loeb teksti ette valitud häälega ehk teeb selle kuuldavaks. See pole eriti erinev ise teksti lugemisest või printimisest – kõne kaudu annab arvuti infot tekstist teisel kujul, mida saad kuulata kõlarite või kõrvaklappidega.
Üldiselt töötab kõnesüntees samm-sammult: esimeseks sammuks on tekstis olevate sümbolite muutmine sõnadeks.
Samm 1: Eeltöötlus
Selle protsessi käigus analüüsitakse tekst kõneks süsteemiga loetava teksti sõnu ning muudetakse kirjamärgid sõnadeks. See on oluline, sest kirjutatud keel võib olla mitmetimõistetav. Näiteks sõnad „nende“, „seal“ ja „nemad on“ kõlavad ühtmoodi, kuid muudavad lause tähendust oluliselt.
Siin tulevadki mängu tehisintellekt ja masinõpe – nende abil aitab tekst kõneks süsteem võimalikult palju ebaselgust eemaldada. Seda nimetatakse "eeltöötluseks", sest see toimub „taustal“ enne sisu ettelugemist.
Samas etapis tuvastab süsteem ka sõnu, mis kirjutatakse ühtemoodi, aga häälduvad või tähendavad eri olukordades midagi muud. Näiteks inglise keeles „read“ – midagi, mis vajab sujuva ettelugemise jaoks konteksti mõistmist. Tehisintellekt suudab tänu sellele konteksti paremini tabada.
Selles faasis on keerulised veel arvud, lühendid, akronüümid ning erisümbolid nagu dollarimärk – neid on sageli raskem "tõlkida" kui tavalist teksti. Seetõttu on eeltöötlus nii oluline: see tagab, et lõpptulemus oleks mõistetav ja loogiline.
Samm 2: Häälduse mõistmine
Kui tekst on analüüsitud ja süsteem „teab“, mida peab kõnes esitama, muudetakse sõnad foneemideks – süsteem õpib, kuidas sõnu õigesti hääldada.
See osa on aastatega oluliselt arenenud. Kui oled kunagi kasutanud 1990ndate tekst kõneks lahendusi või näinud neid vanades filmides, olid need hääled ebaloogilised ja masinlikud ning paljud sõnad öeldi valesti.
Samm 3: Kõne genereerimine
Kui foneemid on teada, liigub tekst kõneks süsteem lõpufaasi: need andmed muudetakse heliks, mida saab kuulata seadme kõlaritest või kõrvaklappidest.
Kuidas seda tehakse, oleneb lahendusest. Mõnel juhul loeb inimene mikrofoni kõik vajalikud foneemid, süsteem võtab need salvestised, otsib tekstis vastavad kujundid ja esitab need loomuliku helina. Nii saab teksti kuulata palju loomulikumalt kui varasemate süsteemidega.
Mõned lahendused lasevad arvutil hääle ise luua. Siis pole aluseks salvestatud helid, vaid hääle tekitab süsteem ise, genereerides õigeid helisagedusi kindlas järjekorras.
See pole kuigi erinev muusikasüntesaatorist – muusik võib kasutada klaviatuuri, mis jäljendab erinevaid instrumente. Kõik nupuvajutused tõlgendatakse vastavaks heliks, nagu tekst kõneks süsteemis hääle taasesitamisel.
Häälte valik ja palju muud
Erinevaid hääli toodetakse häälegeneraatorites rohkem, kui arvata võiks, sest vajalikud AI häälegeneraatori foneemid esinevad tegelikult sageli kõnes. Näitleja loeb vajalikud foneemid mikrofoni ja need andmed antakse süsteemile.
AI kõnetehnoloogia tuvastab iga foneemi ja jagab salvestise osadeks, kasutades neid vastavalt vajadusele, et genereerida tekst kõneks hääli erineva sisu jaoks.
Loomuliku häälega häälegeneraatorist võib kasu olla paljudele – mitte ainult nägemispuudega inimestele. Viimastel aastatel on AI kõne muutunud populaarseks tänu platvormidele nagu TikTok.
TikTok on üks suurimaid brände, kes kasutab AI hääletuge – sisu saab tekst kõneks valjusti ette lugeda. See muudab postitused lõbusamaks ja menukamaks.
Tekst kõneks tulevik on käes
Tekst kõneks hääled on hindamatu abivahend, sest annavad võimaluse nägemisprobleemidega inimestele kasutada sama sisu, mis teisedki. Blogid, artiklid, dokumendid jm muutuvad audioelamuseks nii kodus kui ka liikvel olles.
See muudab elu produktiivsemaks ja aitab lahendada olulisi probleeme, mida eespool mainisime. Seetõttu on kõnesüntees ja tehisintellekti hääl viimastel aastatel nii populaarseks muutunud.
Kui soovid rohkem teada tekst kõneks häälte kohta või kuidas need võiksid sind aidata, ära oota – proovi Speechify't tasuta juba täna.
Speechify on #1 hinnatud rakendus App Store'is – kõige loomulikuma kõlaga häälte ja suurepärase kasutajakogemusega, palju kohandatavaid hääli.
Speechify on saadaval mitmel kujul: üksikkasutajale, gruppidele või API lahendusena ettevõtetele mis tahes suuruses.

