Teksto į kalbą (TTS) ir balso sintezė gali atrodyti naujos technologijos, tačiau jų istorija siekia šimtmečius.
Nuo pirmųjų bandymų mechaniniais įrenginiais mėgdžioti žmogaus kalbą iki dabartinių dirbtinio intelekto ir giluminio mokymosi modelių – TTS raida buvo išties įdomi kelionė.
Šiame straipsnyje plačiau apžvelgsime teksto į kalbą ir balso sintezės istoriją bei būsimas šių technologijų galimybes.
Teksto į kalbą ir balso sintezė: nuo ištakų iki šiandien
XVIII ir XIX amžiai
Teksto į kalbą ir balso sintezės istorija prasideda XVIII–XIX amžiuje. Tuo metu vyko pirmieji kalbos sintezės bandymai, visi – su mechaniniais prietaisais. 1770-aisiais vengrų išradėjas Wolfgangas von Kempelenas sukūrė akustinį mechaninį balso įrenginį, imituojantį žmogaus balso traktą. Šis analoginis prietaisas naudojo dumples, liežuvėlius ir vamzdelius balsiams bei priebalsiams kurti.
XVIII a. pabaigoje anglų fizikas Charlesas Wheatstone'as sukūrė mechaninę Kempeleno balso įrenginio versiją, kurią pavadino „kalbančiu aparatu“. Prietaisas galėjo atkurti įvairių muzikos instrumentų garsus. Nors Wheatstone'o įtaisas nebuvo skirtas vien kalbos sintezei, jis paskatino mechaninių prietaisų naudojimą garsui generuoti.
XIX amžiuje pasirodė ir kiti įrenginiai, pvz., Faberio „dirbtinė kalba“. Jie naudojo mechanines ir pneumatines sistemas kalbos garsams generuoti.
XX a. pradžia ir pirmoji elektrinė kalbos sintezė
XX a. pradžioje kalbos sintezė tapo sudėtingesnė, kai Homer Dudley Bell laboratorijose (Naujasis Džersis) išrado pirmą visiškai elektrinę kalbos sintezės sistemą – vokoderį.
Dudley vokoderis naudojo rezonatorius ir filtrus sintetiniam balsui kurti. Vokoderis, pavadintas Voder, buvo demonstruotas 1939–1940 m. Pasaulinėje parodoje Niujorke. Ekspertai aparatą valdė klaviatūra ir pedalais, taip generuodami kalbą.
1950–1970 m.: sintezatorių era
1951 m. Dudley darbai paskatino dr. Frankliną S. Cooperį iš Haskins laboratorijų sukurti pattern playback sistemą. Ji analizavo įrašytus garsus (žodį ar frazę), suskaidydama juos į garso bangas („spektrogramas“), kurios buvo saugomos magnetinėje juostoje ir atkuriamos kaip sintetinis garsas.
1976 m. Kurzweil Reading Machine pristatė pirmą komerciškai sėkmingą teksto į kalbą sistemą, naudojančią jungiamąją sintezę – sujungiant iš anksto įrašytus fonemus ir žodžius. Ji buvo skirta žmonėms su negalia, bet greitai išpopuliarėjo kaip skaitymo priemonė.
Nuo 1978 m. Texas Instruments kūrė kalbos sintezės lustą kompiuteriniams žaidimams ir kitoms programoms. Luste naudota jungiamoji sintezė, sujungianti įrašytus kalbos garsus (difonus), kad būtų išgautas žmogaus balsas. Šis sprendimas vėliau naudotas DECtalk, kurio sintetinė kalba suteikė galimybę kalbėti žmonėms su negalia.
Šiuolaikinės teksto į kalbą sistemos
Pastaraisiais metais viena didžiausių naujovių tapo neuroninių tinklų panaudojimas sintetiniam balsui kurti. Tokios įmonės kaip Google ir Microsoft kuria TTS sistemas, kurios analizuoja milžiniškus žmonių balso įrašų kiekius ir generuoja natūraliai skambantį balsą naudodamos giluminio mokymosi algoritmus.
Dar viena svarbi TTS plėtros kryptis – jungiamų kalbos vienetų (pvz., difonų ar žodžių) sintezė. Taip sukuriamas natūralesnis garsas, sujungiant mažus iš anksto įrašytus kalbos vienetus į naujus sakinius. Tai taikoma populiariose TTS programose, tokiose kaip Speechify, Apple Siri, Amazon Alexa, ir senesniuose įrankiuose, pavyzdžiui, IBM ViaVoice.
Kalbos atpažinimo technologija pastaraisiais metais taip pat stipriai pažengė. Tai leido sukurti pažangesnes TTS sistemas – kalbos atpažinimo algoritmai perrašo žmogaus kalbą į tekstą, todėl išvestis tampa gerokai natūralesnė.
Pastaruoju metu į TTS integruota ir prozodija bei intonacija, leidžiančios sukurti natūralesnį kalbos skambesį su tinkamomis pauzėmis, kirčiais ir intonacija. Prozodija ypač svarbi tokioms kalboms kaip anglų, kur kirčiai ir intonacija gali keisti sakinio reikšmę.
Gilusis mokymasis ir toliau: technologijų ateitis
TTS technologijų ateitis žada daug. Sparčiai vystantis DI ir giluminiam mokymuisi, ateityje girdėsime dar natūralesnį balsą, galintį atkartoti subtiliausius žmogaus kalbos niuansus.
Tai bus ypač naudinga kuriant virtualius asistentus ir pokalbių robotus – jie dar labiau primins žmogų, o bendravimas vartotojams bus kur kas natūralesnis.
Taip pat bus tobulinamas fonetinis perrašymas ir teksto vertimas į fonemas. Gerėjant kalbos atpažinimui, balso į tekstą sistemų tikslumas ir sparta dar labiau didės.
Galiausiai teksto į kalbą technologija taps dar prieinamesnė ir labiau kasdienė. Pasaulyje daugėjant prie daiktų interneto prijungtų įrenginių, vis dažniau juos valdysime balsu – tai suteiks daugiau patogumo ir efektyvumo kasdienybėje.
Prisijunkite prie teksto į kalbą revoliucijos su Speechify
Ieškote efektyvios teksto į kalbą paslaugos, kuri siūlytų natūraliai skambantį, aukštos kokybės balsą? Rinkitės Speechify.
Speechify, naudodama pažangią formantų sintezę, sukuria realistišką, natūralų balsą – nebe robotinį, kaip anksčiau. Net tokia išskirtinė asmenybė kaip Stephenas Hawkingas – kuris pats naudojosi teksto į kalbą technologija – nustebtų Speechify galimybėmis.
Naudotis Speechify paprasta: apsilankykite svetainėje ar atsisiųskite programėlę ir įveskite tekstą. Tuomet pasirinkite balsą, sureguliuokite greitį ir aukštį – ir viskas! Speechify sukurs puikią naraciją e. mokymams, paaiškinamiesiems vaizdo įrašams, podkastams ir prezentacijoms. Netgi galite susikurti savo balsus naudojimui YouTube ar kituose socialiniuose tinkluose.
Nesitenkinkite prastesniais TTS sprendimais – išbandykite Speechify jau šiandien ir patirkite, kokia gali būti teksto į kalbą technologijos ateitis.
DUK
Kas sukūrė pirmąjį pasaulyje kalbos sintezatorių?
Homeris Dudley 1930-ųjų pradžioje Niujorko Bell laboratorijose sukūrė pirmą pasaulyje kalbos sintezatorių.
Koks yra kalbos sintezės tikslas?
Kalbos sintezės tikslas – iš teksto sukurti dirbtinį balsą, pasitelkiant kalbos apdorojimą ir dažnių analizę.
Kokie yra keturi TTS panaudojimo būdai?
TTS naudojamas prieinamumui didinti, pramogoms, kalbų mokymuisi ir balsinių paslaugų automatizavimui.
Kokie yra teksto į kalbą privalumai?
Teksto į kalbą didina prieinamumą, padeda mokytis, skatina produktyvumą, nes leidžia rašytą turinį klausyti balsu.
Kuris momentas teksto į kalbą sintezės raidoje buvo netikėčiausias?
Vienas netikėčiausių momentų – kai Charlesas Wheatstone'as išrado mechaninį kalbos sintezatorių.

