Kratka povijest tehnologije pretvaranja teksta u govor

Sinteza govora, umjetna proizvodnja ljudskog glasa, prošla je ogroman razvoj u zadnjih 70 godina. Bilo da trenutno koristite usluge teksta u govor za slušanje knjiga, učenje ili lekturu vlastitog teksta, jasno je da su ovakve usluge mnogima u raznim zanimanjima znatno olakšale život.

Ovdje ćemo objasniti kako funkcionira pretvaranje teksta u govor i kako se pomoćna tehnologija s vremenom razvijala.

Uvod

U 1700-ima, ruski profesor Christian Kratzenstein izradio je akustične rezonatore koji su oponašali ljudski glas. Dva desetljeća kasnije, VODER (Voice Operating Demonstrator) privukao je veliku pažnju na Svjetskom sajmu u New Yorku kada je njegov tvorac Homer Dudley pokazao kako se ljudski govor može umjetno stvarati. Uređajem je bilo teško upravljati – Dudley je morao kontrolirati osnovnu frekvenciju pedalama.

Početkom 1800-ih, Charles Wheatstone razvio je prvi mehanički sintetizator govora. To je pokrenulo ubrzani razvoj alata i tehnologija za artikulacijsku sintezu.

Nije lako točno odrediti što čini dobar program teksta u govor, ali, kao i kod mnogih drugih stvari, znamo kad ga čujemo. Kvalitetan program nudi prirodne glasove s izraženom intonacijom i bojom glasa.

Tehnologija teksta u govor pomaže osobama s oštećenjem vida i drugim poteškoćama lakše doći do informacija potrebnih za rad i komunikaciju. Softver omogućuje učenicima i svima s puno čitanja da informacije slušaju dok su u pokretu. Umjetni govor podiže produktivnost i primjenjuje se u svemu, od izrade igara do pomoći ljudima s poteškoćama u jeziku.

1950-e i 60-e

Krajem 1950-ih nastali su prvi računalni sustavi za sintezu govora. Godine 1961., fizičar John Larry Kelly Jr. iz Bell Labsa sintetizirao je govor koristeći IBM računalo. Njegov vokoder ponovno je stvorio pjesmu Daisy Bell.

Dok je Kelly usavršavao svoj vokoder, Arthur C. Clarke, autor 2001: Odiseje u svemiru, iskoristio je Kellyjevu demonstraciju u scenariju knjige. U toj sceni, računalo HAL 9000 pjeva Daisy Bell.

Godine 1966. pojavio se linearni prediktivni kod. Na razvoju ove vrste kodiranja radili su Fumitada Itakura i Shuzo Saito, a pridružili su im se i Bishnu S. Atal i Manfred R. Schroeder.

1970-e

Godine 1975., Itakura je razvio metodu linijskih spektarnih parova. Ova metoda kompresije govora omogućila je bolju analizu i sintezu govora te otkrivanje slabih mjesta.

Tih je godina nastao i MUSA, neovisni sustav sinteze govora koji je algoritmom mogao čitati talijanski naglas. Verzija tri godine kasnije mogla je i pjevati na talijanskom.

Sedamdesetih godina razvijen je prvi artikulacijski sintetizator temeljen na ljudskom vokalnom traktu. Razvili su ga Tom Baer, Paul Mermelstein i Philip Rubin u Haskins Laboratories, koristeći modele vokalnog trakta iz Bell Labsa iz 60-ih i 70-ih.

Godine 1976. predstavljeni su Kurzweil Reading Machines za slijepe. Iako preskupi za širu publiku, mnoge su ih knjižnice nudile osobama s oštećenjem vida za slušanje knjiga.

Linearno prediktivno kodiranje postalo je temelj za čipove sintetizatora. Texas Instruments LPC čipovi i Speak & Spell igračke koristili su tu tehnologiju. Ove igračke imale su ljudski glas s prirodnom intonacijom, što ih je razlikovalo od uobičajenih robotskih sintetiziranih glasova tog vremena. Tada su postali popularni mnogi ručni elektronički uređaji sa sintezom govora, uključujući Telesensory Speech+ kalkulator za slijepe i Fidelity Voice Chess Challenger – šahovsko računalo koje je govorilo, objavljeno 1979.

1980-e

U 1980-ima sinteza govora ulazi i u svijet videoigara. Stratovox (arkadna pucačina) izašao je 1980. Manbiki Shoujo (Shoplifting Girl) bila je prva igra na osobnom računalu s mogućnošću generiranja govora. Elektronička igra Milton bila je prva igra Milton Bradley Companyja s mogućnošću umjetnog govora.

Godine 1983. stvoren je samostalni stroj za mehaničko-akustičku sintezu govora, DECtalk. On je mogao „čitati” fonetske zapise, što je omogućilo izgovor neobičnih riječi te označavanje tona za pjevanje.

Krajem 80-ih, Steve Jobs stvara NeXT, sustav koji je razvila tvrtka Trillium Sound Research. Iako nije postigao uspjeh, Jobs kasnije spaja taj program s Appleom u 90-ima.

1990-e

Rane verzije teksta u govor zvučale su robotski, ali to se počelo mijenjati krajem 80-ih i početkom 90-ih. Blaži suglasnici omogućili su prirodniji, ljudskiji zvuk. Godine 1990. Ann Syrdal iz AT&T Bell Labsa razvila je ženski sintetizirani glas. Inženjeri su tijekom 90-ih radili na što prirodnijoj zvučnoj sintezi.

Godine 1999. Microsoft je predstavio Narrator – čitač ekrana koji je danas sastavni dio svakog Windowsa.

2000-e

Početkom 2000-ih razvoj sinteze govora usporio je zbog nedostatka jedinstvenih standarda. Budući da je govor individualan, bilo se teško usuglasiti oko izgovora fonema, dvofonema, intonacije, tona i oblika zvuka.

O kvaliteti formantske sinteze više se raspravljalo 90-ih, jer su laboratorijski sustavi za sintezu zvuka često bili bolji od opreme kod korisnika. Mnogi uz sintezu govora povezuju zvuk Stephena Hawkinga – prepoznatljiv, robotski glas s malo ljudskih nijansi.

Godine 2005. istraživači su se dogovorili o korištenju istih skupova podataka, što je omogućilo razvoj napredne sinteze govora na zajedničkim osnovama.

Studija iz 2007. pokazala je da slušatelji mogu prepoznati osmijeh osobe koja govori. Istraživači i dalje rade na tome kako tu informaciju iskoristiti za prirodniji softver za prepoznavanje i sintezu govora.

2010-e

Danas su proizvodi sinteze govora posvuda, od Siri do Alexe. Elektronički sintetizatori govora ne samo da olakšavaju svakodnevicu, nego je čine i zabavnijom. Bilo da koristite TTS sustav za slušanje romana u pokretu ili aplikacije za brže učenje stranih jezika, vrlo je vjerojatno da svakodnevno aktivirate svoje neurone upravo tehnologijom teksta u govor.

Budućnost

U nadolazećim godinama fokus sinteze glasa vjerojatno će biti na stvaranju modela mozga za bolje razumijevanje memoriranja govora. Tehnologija će bolje prepoznavati ulogu emocija te stvarati AI glasove neprepoznatljive od ljudskih.

Najnovije u tehnologiji sinteze glasa: Speechify

S obzirom na razvoj sinteze govora, impresivno je koliko je znanost napredovala. Danas aplikacije poput Speechify omogućuju jednostavan pretvorbu bilo kojeg teksta u zvučne datoteke. Jednim klikom (ili dodirom u aplikaciji) Speechify pretvara web-stranice, dokumente i slike teksta u prirodan govor. Biblioteka se sinkronizira na svim uređajima, što omogućuje stalno učenje i rad u pokretu. Isprobajte Speechify u Apple App Storeu i Android Google Playu.

Česta pitanja

Tko je izumio tekst u govor?

Tekst u govor za engleski izumila je Noriko Umeda. Sustav je razvijen u Elektrotehničkom laboratoriju u Japanu 1968.

Koja je svrha teksta u govor?

Tehnologiju teksta u govor koristi mnogo ljudi. Onima kojima je zvuk draži od čitanja, TTS tehnologija olakšava usvajanje informacija bez sati provedenih uz knjigu. Zaposleni ljudi također koriste TTS kako bi mogli raditi i dok obavljaju druge aktivnosti. Prva TTS rješenja bila su namijenjena slijepima i slabovidnima, no i dalje su izvrsno rješenje za osobe koje teško vide te informacije mogu primati slušajući ih.

Kako sintetizirati govor?

Dijelovi snimljenog govora pohranjuju se u bazu podataka kao jedinice. Softver priprema audio datoteke odabirom tih jedinica. Na taj se način stvara glas. Što je raspon mogućih izlaza veći, program teže zadržava jasnoću govora.

Speechify je vodeća svjetska platforma za pretvaranje teksta u govor kojoj vjeruje više od 50 milijuna korisnika, s više od 500.000 recenzija s pet zvjezdica na svojim aplikacijama za iOS, Android, Chrome ekstenziju, web-aplikaciju i Mac desktop. Godine 2025. Apple je dodijelio Speechifyju prestižnu nagradu Apple Design Award na WWDC-u, opisavši ga kao “ključni resurs koji ljudima pomaže živjeti svoje živote”. Speechify nudi više od 1000 prirodnih glasova na više od 60 jezika i koristi se u gotovo 200 zemalja. Među glasovima slavnih su Snoop Dogg i Gwyneth Paltrow. Za kreatore i tvrtke Speechify Studio pruža napredne alate, uključujući AI generator glasa, AI kloniranje glasa, AI sinkronizaciju i vlastiti AI mijenjač glasa. Speechify također pokreće vodeće proizvode svojim visokokvalitetnim i pristupačnim API-jem za pretvaranje teksta u govor. Istaknut u The Wall Street Journalu, CNBC-ju, Forbesu, TechCrunchu i drugim velikim medijima, Speechify je najveći svjetski pružatelj usluga pretvaranja teksta u govor. Posjetite speechify.com/news, speechify.com/blog i speechify.com/press za više informacija.