Kalbos sintezė, arba dirbtinis žmogaus balso kūrimas, per pastaruosius 70 metų labai patobulėjo. Nesvarbu, ar naudojatės teksto į kalbą paslaugomis, kad klausytumėtės knygų, mokytumėtės ar tikrintumėte savo tekstus, akivaizdu, kad tokie sprendimai gerokai palengvino kasdienybę daugeliui žmonių.
Čia aptarsime, kaip veikia teksto į kalbą apdorojimas ir kaip ši pagalbinė technologija kito bėgant laikui.
Įžanga
1700-aisiais rusų profesorius Christian Kratzenstein sukūrė akustinius rezonatorius, imituojančius žmogaus balso garsus. Po dviejų dešimtmečių VODER (Voice Operating Demonstrator) sužavėjo Niujorko pasaulinės parodos lankytojus, kai kūrėjas Homer Dudley pademonstravo, kaip kalbą galima sukurti dirbtinai. Prietaisą valdyti buvo sudėtinga – pagrindinį dažnį reikėjo kontroliuoti pedalais.
XIX a. pradžioje Charles Wheatstone sukūrė pirmąjį mechaninį kalbos sintezatorių. Tai paskatino spartų artikuliacinės sintezės įrankių ir technologijų vystymąsi.
Sunku tiksliai nusakyti, kas daro gerą teksto į kalbą programą, bet, kaip ir daug kur gyvenime, skirtumą tiesiog išgirsti. Kokybiška programa siūlo natūraliai skambančius balsus su tikromis intonacijomis ir tembru.
Teksto į kalbą technologija padeda regos ar kitų negalių turintiems žmonėms gauti reikalingą informaciją darbui ir bendravimui. Taip pat studentai ir visi, kuriems tenka daug skaityti, gali klausytis turinio keliaudami. Sintetinis balsas leidžia nuveikti daugiau per trumpesnį laiką ir praverčia įvairiose srityse: nuo žaidimų kūrimo iki pagalbos žmonėms, turintiems kalbos suvokimo ypatumų.
1950–60-ieji
Vėlyvaisiais 1950-aisiais buvo sukurtos pirmosios kompiuterinės kalbos sintezės sistemos. 1961 m. John Larry Kelly Jr. iš Bell Labs, naudodamas IBM kompiuterį, sintezavo kalbą. Jo vokoderis (balso įrašų sintezatorius) atkūrė dainą Daisy Bell.
Tuo metu, kai Kelly tobulino vokoderį, Arthur C. Clarke, romano „2001: Kosminė odisėja“ autorius, pasinaudojo Kelly demonstracija scenarijuje. Jame kompiuteris HAL 9000 dainuoja Daisy Bell.
1966 m. buvo pristatytas linijinio prognozavimo kodavimas. Šią kalbos kodavimo formą sukūrė Fumitada Itakura ir Shuzo Saito, prie jos kūrimo prisidėjo ir Bishnu S. Atal bei Manfred R. Schroeder.
1970-ieji
1975 m. Itakura sukūrė spektro linijų porų metodą. Šis aukšto suspaudimo kalbos kodavimas padėjo jam išanalizuoti kalbos sintezę, rasti silpnąsias vietas ir jas tobulinti.
Tais pačiais metais pasirodė ir MUSA. Ši savarankiška sintezės sistema naudojo algoritmą, leidžiantį garsiai skaityti tekstą itališkai. Po trejų metų nauja MUSA versija jau galėjo dainuoti itališkai.
70-aisiais sukurta pirmoji artikuliacinė sintezė, paremta žmogaus vokalo traktu. Pirmąjį žinomą sintetintuvą Haskins laboratorijoje sukūrė Tom Baer, Paul Mermelstein ir Philip Rubin, remdamiesi Bell Labs modeliais.
1976 m. pristatyti Kurzweil skaitymo aparatai neregiams. Nors jie buvo labai brangūs, bibliotekos juos dažnai siūlė regos negalią turintiems žmonėms klausytis knygų.
Linijinis prognozavimas tapo sintetintuvų mikroschemų pagrindu. Texas Instruments LPC mikroschemos ir Speak & Spell žaislai iš 1970-ųjų rėmėsi šia technologija. Juose buvo tikslus intonavimas, todėl balsas skyrėsi nuo tuo metu įprastų robotizuotų sintetintų balsų. Daug kišeninių prietaisų su kalbos sintezės funkcija išpopuliarėjo, pvz., Telesensory Systems Speech+ kalkuliatorius neregiams. 1979 m. išleistas Fidelity Voice Chess Challenger – šachmatų kompiuteris su sintezuotu balsu.
1980-ieji
1980-aisiais kalbos sintezė persikėlė į žaidimus. 1980 m. Sun Electronics išleido Stratovox – šaudyklę su kalbos sinteze. Manbiki Shoujo (angl. Shoplifting Girl) – pirmasis PC žaidimas, galėjęs sintezuoti balsą. Elektroninis žaidimas Milton 1980 m. tapo pirmąja kompanijos Milton Bradley elektronine pramoga su balsu.
1983 m. pasirodė autonominė akustinio-mechaninio balso sistema DECtalk. Ji „suprasdavo“ žodžių fonetinį rašymą ir leido susikurti neįprastų žodžių tarimą. DECtalk galėjo ir dainuoti pagal fonetinę informaciją ir toną.
80-ųjų pabaigoje Steve Jobs sukūrė NeXT, kurią toliau vystė Trillium Sound Research. Nors NeXT plačiau neprigijo, vėliau Jobs 90-aisiais jos technologijas integravo į Apple.
1990-ieji
Ankstesnės kalbos sintezės sistemos skambėjo robotizuotai, tačiau tai pradėjo keistis 9-ajame dešimtmetyje ir 10-ajame. Švelnesnės priebalsės leido geriau atpažinti žmogaus balsui būdingą skambesį. 1990 m. Ann Syrdal iš AT&T Bell Labs sukūrė moterišką balso sintezę. Inžinieriai visą dešimtmetį dirbo, kad balsai skambėtų kuo natūraliau.
1999 m. „Microsoft“ išleido Narrator – ekrano skaitytuvą, dabar įtrauktą į kiekvieną Windows leidimą.
2000-ieji
2000-aisiais balso sintezės plėtrą kiek pristabdė sudėtingumas sukurti vieningus standartus. Kalba labai individuali, todėl sunku sutarti dėl fonemų, dvifonių, intonacijų ir kitų niuansų.
90-aisiais tapo akivaizdu, kad laboratorijose naudojamų sistemų kokybė lenkė vartotojų įrangą. Daugelis, išgirdę teksto į kalbą, prisimena Stephen Hawking'o balsą – jis atrodė labiau robotizuotas ir menkai priminė tikrą žmogaus balsą.
2005 m. tyrėjai pagaliau susitarė ir pradėjo naudoti bendrą kalbos duomenų rinkinį – tai leido kurti geresnes sintezės sistemas.
2007 m. tyrimas parodė, kad klausytojai gali atpažinti, ar kalbantysis šypsosi. Mokslininkai iki šiol siekia pritaikyti šias žinias natūralaus kalbos atpažinimo ir sintezės programoms.
2010-ieji
Šiandien kalbos sintezės produktų pilna visur – nuo Siri iki Alexa. Elektroniniai balso sintezatoriai ne tik palengvina gyvenimą, bet ir suteikia jam daugiau smagumo. Naudojant TTS sistemą galima klausytis romanų kelionėje ar lengviau mokytis užsienio kalbų – teksto į kalbą technologijos kasdien stimuliuoja jūsų smegenų tinklus.
Ateitis
Artimiausiais metais balso sintezės technologija greičiausiai sieks sukurti smegenų modelį, kad geriau suprastume, kaip įsimename kalbos duomenis. Taip pat bus tiriama emocijų įtaka kalbai ir toliau tobulinami dirbtinio intelekto balsai – jie taps beveik neatskiriami nuo žmogaus balso.
Naujausios balso sintezės technologijos: Speechify
Stebint kalbos technologijų raidą, sunku patikėti, kiek jau pasiekta. Šiandien tokios programėlės kaip Speechify leidžia bet kokį tekstą paversti garsu. Vienu mygtuko paspaudimu Speechify gali konvertuoti svetaines, dokumentus ir nuotraukas į natūralų balsą. Biblioteka sinchronizuojama tarp jūsų įrenginių – mokytis ir dirbti galima bet kur. Išbandykite Speechify tiek Apple App Store, tiek Android Google Play.
DUK
Kas išrado teksto į kalbą technologiją?
Teksto į kalbą sistemą anglų kalbai sukūrė Noriko Umeda. Ji sukurta Elektrotechnikos laboratorijoje Japonijoje 1968 m.
Kokia teksto į kalbą paskirtis?
Teksto į kalbą technologija naudinga daug kam. Tiems, kurie mieliau girdi informaciją, TTS technologija leidžia lengvai gauti reikiamus duomenis be ilgų valandų prie knygų. Užimtiems profesionalams TTS padeda neatsilikti nuo darbų, net kai nėra galimybės būti prie ekrano. Daugelis TTS sprendimų sukurti regėjimo sutrikimų turintiems žmonėms ir tebėra puikus būdas gauti informaciją silpnaregiams.
Kaip sintezuojama kalba?
Kalbos įrašai saugomi duomenų bazėje skirtingais vienetais. Programinė įranga paruošia garso failus atrinkdama reikiamus vienetus. Taip sukuriamas balsas. Dažnai kuo platesnis galimų variantų spektras, tuo sunkiau užtikrinti aiškų, švarų skambesį.

