Technológie prevodu textu na reč (TTS) a hlasová syntéza možno nepôsobia ako novinka, no v skutočnosti majú bohatú históriu siahajúcu stáročia späť.
Od prvých pokusov imitovať ľudskú reč pomocou mechanických zariadení až po dnešnú špičkovú umelú inteligenciu a modely hlbokého učenia – vývoj TTS je fascinujúcim príbehom.
V tomto článku sa detailne pozrieme na históriu prevodu textu na reč a hlasovej syntézy a nahliadneme aj do budúcnosti týchto technológií.
Text na reč a hlasová syntéza: od začiatkov až po súčasnosť
18. a 19. storočie
Históriu prevodu textu na reč a hlasovej syntézy možno sledovať až do 18. a 19. storočia. Vtedy vznikli prvé pokusy o syntézu reči, všetky pomocou mechanických zariadení. V 70. rokoch 18. storočia vyrobil maďarský vynálezca Wolfgang von Kempelen mechanický prístroj nazývaný akusticko-mechanický rečový stroj, ktorý mal simulovať ľudský hlasový trakt. Tento analógový prístroj využíval mech, jazýčky a trúbky na tvorbu samohlások a spoluhlások.
Na konci 18. storočia anglický fyzik Charles Wheatstone zostrojil mechanickú verziu Kempelenovho rečového stroja, tzv. „hovoriaci stroj“. Zariadenie dokázalo reprodukovať zvuky rozličných hudobných nástrojov. Aj keď Wheatstoneov prístroj nebol navrhnutý priamo na syntézu reči, podporil myšlienku vytvárania zvuku mechanickým spôsobom.
V 19. storočí vznikli ďalšie zariadenia, napríklad Faberov stroj na „umelú reč“. Tieto zariadenia kombinovali mechanické a pneumatické systémy na tvorbu hlások.
Začiatok 20. storočia a prvé elektrické syntézy reči
Na začiatku 20. storočia sa technológia syntézy reči posunula vpred vynálezom plne elektrického systému – vocodera od Homera Dudleyho. Tento systém bol vyvinutý v laboratóriách Bell Labs v New Jersey.
Dudleyho vocoder využíval sústavu rezonátorov a filtrov na tvorbu syntetickej reči. Vocoder, nazvaný Voder, bol predvedený na svetovej výstave 1939 – 40 v New Yorku. Ovládal sa pomocou klávesnice a pedálov, ktoré generovali reč.
1950 – koniec 1970 – nástup syntetizátorov
V roku 1951 bola Dudleyho práca inšpiráciou pre vznik pattern playbacku od Dr. Franklina S. Coopera v Haskins Laboratories. Systém analyzoval nahraný zvuk (slovo alebo frázu), rozložil ho na zvukové vlny či „spektrografické vzory“ a tie uložil na magnetickú pásku, odkiaľ sa prehrávali ako syntetický zvuk originálu.
V roku 1976 bol predstavený prvý komerčne úspešný systém prevodu textu na reč – Kurzweil Reading Machine. Používal techniku konkatenačnej syntézy, ktorá spájala nahraté fonémy a slová do syntetickej reči. Pôvodne bol určený na pomoc osobám so znevýhodnením, no rýchlo sa ujal ako obľúbená pomôcka na čítanie.
Od roku 1978 firma Texas Instruments vyvíjala čip na syntézu reči pre videohry a iné aplikácie. Používal konkatenačnú syntézu – spájal nahrané zvuky reči (diphony), aby vytvoril výstup podobný ľudskej reči. Táto technológia bola neskôr použitá v DECtalk, systéme TTS, ktorý poskytoval kvalitnú syntetickú reč pre ľudí so znevýhodnením.
Moderné systémy prevodu textu na reč
Jednou z kľúčových inovácií posledných rokov je využitie neurónových sietí na generovanie syntetickej reči. Firmy ako Google a Microsoft vytvorili špičkové TTS systémy, ktoré vďaka hlbokému učeniu analyzujú obrovské množstvo nahrávok a produkujú prirodzene znejúci hlas.
Ďalšou dôležitou novinkou TTS je použitie techník výberu jednotiek a konkatenačnej syntézy – kombinujú malé časti nahrávok (diphony, celé slová) do realistického výstupu. Tieto technológie využívajú appky Speechify, Siri od Apple, Amazon Alexa či staršie nástroje ako IBM ViaVoice.
Technológia rozpoznávania reči sa v posledných rokoch výrazne posunula, čo umožnilo vyvíjať pokročilé TTS systémy. Vďaka algoritmom na prepis reči do textu dokážu TTS systémy vytvárať plynulejšiu a prirodzenejšiu syntetickú reč.
V poslednom období tiež sledujeme lepšiu integráciu prozódie a intonácie. Hlas znie prirodzenejšie, so správnymi pauzami, dôrazmi a tónom. Prozódia je dôležitá najmä pre jazyky, kde dôraz a intonácia menia význam vety.
Hlboké učenie a budúcnosť technológií
Budúcnosť TTS je vzrušujúca a plná možností. Vďaka umelej inteligencii a hlbokému učeniu môžeme očakávať ešte prirodzenejšiu reč, ktorá bude verne napodobňovať jemnosti ľudskej komunikácie.
To bude užitočné hlavne pri vývoji virtuálnych asistentov a chatbotov. Systémy budú pôsobiť konverzačnejšie a používatelia s nimi budú môcť komunikovať prirodzenejšie.
Čaká nás aj rozvoj fonetického prepisu – prevodu textu na fonémy. Ako sa stroje zlepšujú v rozpoznávaní a chápaní reči, presnosť a efektivita systémov prevodu reči na text bude ďalej rásť.
TTS sa ešte viac rozšíri a stane sa prirodzenou súčasťou každodenného života. Ako bude pribúdať zariadení pripojených k internetu vecí, budeme ich môcť ovládať hlasom v reálnom čase, čo nám zjednoduší a zrýchli množstvo úloh.
Pridajte sa k TTS revolúcii so Speechify
Ak hľadáte výkonnú službu prevodu textu na reč s prirodzeným prejavom, vyskúšajte Speechify.
Speechify využíva pokročilú formantovú syntézu a vytvára realistické, prirodzene znejúce hlasy, úplne iné ako robotické hlasy minulosti. Aj spisovateľ Stephen Hawking – ktorý testoval TTS – by možnosti Speechify ocenil.
Používať Speechify je jednoduché – stačí navštíviť stránku alebo si stiahnuť appku, zadať text, vybrať hlas, upraviť rýchlosť a tón – hotovo! Speechify vygeneruje skvelý komentár vhodný pre e‑learning, vysvetľovacie videá, podcasty aj prezentácie. Môžete si vytvoriť aj vlastné hlasy pre YouTube a iné siete.
Nevyberajte si slabšie TTS služby – vyskúšajte Speechify ešte dnes a zažite na vlastné uši budúcnosť technológií prevodu textu na reč.
FAQ
Kto vyvinul prvý hlasový syntetizátor na svete?
Homer Dudley navrhol prvý hlasový syntetizátor na svete v 30. rokoch 20. storočia v Bell Labs v New Yorku.
Aký je účel hlasovej syntézy?
Cieľom hlasovej syntézy je generovať umelú reč z textu pomocou jazykového spracovania a analýzy základnej frekvencie.
Aké sú štyri využitia TTS?
TTS slúži na zlepšenie prístupnosti, zábavu, učenie jazykov a automatizáciu hlasových služieb.
Aké sú výhody prevodu textu na reč?
TTS zvyšuje prístupnosť, zlepšuje učenie aj produktivitu – používatelia môžu prijímať text ako zvuk.
Aký moment najviac prekvapil vývoj TTS?
K najočakávanejším míľnikom patrí vynález mechanického syntetizátora reči od Charlesa Wheatstona.

