Stručná história prevodu textu na reč

Syntéza reči, teda umelá produkcia ľudského hlasu, zaznamenala za posledných 70 rokov obrovský pokrok. Či už používate prevod textu na reč na počúvanie kníh, štúdium alebo kontrolu vlastných textov, určite sa zhodneme, že tieto služby výrazne zjednodušili život ľuďom v rôznych profesiách.

Pozrime sa, ako funguje technológia prevodu textu na reč a ako sa v priebehu času vyvíjala.

Úvod

V 18. storočí ruský profesor Christian Kratzenstein vytvoril akustické rezonátory imitujúce ľudský hlas. O dve desaťročia neskôr VODER (Voice Operating Demonstrator) vzbudil pozornosť na svetovej výstave v New Yorku, kde jeho tvorca Homer Dudley ukázal, ako možno ľudskú reč vytvoriť umelo. Prístroj sa ovládal veľmi ťažko – Dudley musel základnú frekvenciu riadiť pedálmi.

Na začiatku 19. storočia Charles Wheatstone vyvinul prvý mechanický syntetizátor reči, čím odštartoval rýchly vývoj nástrojov a technológií na artikulačnú syntézu.

Je ťažké jednoznačne určiť, čo robí program na prevod textu na reč kvalitným, ale často to spoznáte podľa sluchu. Kvalitný program ponúka prirodzene znejúce hlasy s realistickou intonáciou.

Technológia prevodu textu na reč pomáha ľuďom so zrakovým postihnutím a inými handicapmi získať potrebné informácie. Softvér umožňuje študentom a ľuďom so zvýšenou potrebou čítať prijímať informácie v podobe reči aj na cestách. Syntetická reč umožňuje vybaviť viac za kratší čas a je užitočná v rôznych oblastiach – od vývoja hier až po pomoc osobám s problémami so spracovaním jazyka.

50. a 60. roky

Koncom 50. rokov vznikli prvé systémy syntézy reči založené na počítačoch. V roku 1961 fyzik John Larry Kelly Jr. z Bell Labs použil počítač IBM na syntetizovanie reči. Jeho vokodér prehral pesničku Daisy Bell.

Keď Kelly vylepšoval vokodér, spisovateľ Arthur C. Clarke použil jeho ukážku v scenári ku knihe 2001: Vesmírna odysea. Počas jednej zo scén počítač HAL 9000 spieva Daisy Bell.

V roku 1966 sa objavilo lineárne prediktívne kódovanie. Tento spôsob kódovania reči vyvíjali Fumitada Itakura a Shuzo Saito. Bishnu S. Atal a Manfred R. Schroeder významne prispeli k rozvoju tejto technológie.

70. roky

V roku 1975 Itakura vyvinul metódu líniových spektrálnych párov. Táto metóda vysokého kompresného kódovania reči umožnila hlbšie pochopenie analýzy a syntézy reči a vylepšila jej slabé miesta.

V tom roku vyšiel aj MUSA. Tento samostatný systém syntézy reči používal algoritmus na hlasité čítanie taliančiny. O tri roky neskôr už dokázal spievať v taliančine.

V 70. rokoch bol vyvinutý prvý artikulačný syntetizátor založený na ľudskom hlasovom trakte. Vytvorili ho Tom Baer, Paul Mermelstein a Philip Rubin v Haskins Laboratories, pričom vychádzali z modelov Bell Labs zo 60. a 70. rokov.

V roku 1976 boli predstavené Kurzweil Reading Machines pre nevidiacich. Hoci boli pre bežných ľudí príliš drahé, knižnice ich ponúkali na počúvanie kníh pre zrakovo znevýhodnených.

Lineárne prediktívne kódovanie sa stalo základom pre syntetizátorové čipy, napr. LPC od Texas Instruments či hračky Speak & Spell z konca 70. rokov. Tieto hračky dokázali syntetizovať ľudský hlas s presnými intonáciami, a tak sa odlišovali od bežne roboticky znejúcich hlasov vtedajšej doby. Medzi obľúbené elektronické zariadenia patrila aj Telesensory Systems Speech+ kalkulačka pre nevidiacich. Fidelity Voice Chess Challenger, šachový počítač so syntetizátorom reči, bol uvedený v roku 1979.

80. roky

V 80. rokoch začal prevod textu na reč prenikať aj do sveta videohier. V roku 1980 vyšla hra Stratovox od Sun Electronics. Manbiki Shoujo bola prvá hra na osobný počítač so syntézou reči. Elektronická hra Milton bola prvým produktom od Milton Bradley Company, ktorý syntetizoval ľudský hlas.

V roku 1983 vznikol samostatný akusticko-mechanický stroj DECtalk. Dokázal rozpoznávať fonetické zápisy slov a umožňoval nastaviť individuálnu výslovnosť nezvyčajných slov. Vedel tiež spievať tóny s rôznou intonáciou.

Koncom 80. rokov Steve Jobs vytvoril NeXT, systém vyvinutý spoločnosťou Trillium Sound Research. Hoci NeXT neprerazil, Jobs program neskôr spojil s Apple v 90. rokoch.

90. roky

Staršie systémy prevodu textu na reč zneli roboticky, no s koncom 80. a začiatkom 90. rokov sa to zmenilo. Mäkké spoluhlásky umožnili strojom znieť prirodzenejšie. V roku 1990 Ann Syrdal z AT&T Bell Labs vyvinula ženský hlas syntetizátora. Technici v 90. rokoch pracovali na tom, aby hlasy zneli čo najprirodzenejšie.

V roku 1999 Microsoft vydal Narrator, čítač obrazovky, ktorý je dnes súčasťou každých Windows.

2000s

V 2000-ych rokoch narážal vývoj na problém so štandardizáciou syntetizovanej reči. Keďže je reč u každého jedinečná, bolo náročné zjednotiť výslovnosť a intonáciu naprieč svetom.

Kvalita zvuku syntézy formantov sa stala problémom, keď si vývojári uvedomili, že testovacie laboratóriá majú lepšiu techniku než bežní používatelia. Mnohým sa pri pojme syntéza reči vybaví hlasový syntetizátor Stephena Hawkinga s robotickým prejavom bez ľudskej intonácie.

V roku 2005 sa výskumníci na finále dohodli na spoločnej zvukovej databáze, čo im umožnilo rozvíjať systémy na syntézu reči s rovnakým základom.

V roku 2007 štúdia ukázala, že poslucháč vie rozoznať úsmev v hovorenom slove. Výskum pokračuje a skúma, ako tieto poznatky využiť na prirodzenejšie rozpoznávanie a syntézu reči.

2010s

Dnes sú produkty na syntézu reči všade – od Siri po Alexu. Elektronické syntetizátory nerobia život len jednoduchším, ale aj zábavnejším. Či už používate TTS systém na počúvanie kníh alebo aplikácie na učenie jazykov, pravdepodobne využívate technológiu prevodu textu na reč každý deň.

Budúcnosť

V najbližších rokoch sa vývoj syntetizácie hlasu pravdepodobne zameria na modelovanie mozgu, aby sa lepšie pochopilo, ako spracúvame reč. Tiež sa bude zlepšovať rozpoznávanie emócií v reči a ich využitie na tvorbu AI hlasov nerozoznateľných od ľudských.

Najnovšie v syntéze reči: Speechify

Pri pohľade späť je fascinujúce vidieť pokrok v oblasti syntézy reči. Dnes aplikácie ako Speechify ľahko prevedú text na zvukový súbor. Na jedno kliknutie konvertuje weby, dokumenty či obrázky s textom na prirodzený hlas. Knižnica appky sa synchronizuje medzi zariadeniami, takže sa môžete učiť a pracovať kdekoľvek. Vyskúšajte aplikáciu Speechify v Apple App Store aj na Androide v Google Play.

Často kladené otázky

Kto vynašiel prevod textu na reč?

Pre angličtinu vynašla prevod textu na reč Noriko Umeda. Systém vyvinuli v Elektrotechnickom laboratóriu v Japonsku v roku 1968.

Na čo slúži prevod textu na reč?

Technológiu prevodu textu na reč využíva mnoho ľudí. Tým, ktorí uprednostňujú informácie v audio formáte, TTS technológia uľahčuje získavanie dôležitých informácií bez nutnosti tráviť hodiny čítaním. Zaneprázdnení profesionáli tiež využívajú TTS na to, aby mali prehľad o práci aj vtedy, keď nemôžu sedieť pri počítači. Mnohé TTS technológie boli pôvodne vyvinuté pre nevidiacich a dodnes sú veľkou oporou pre tých, ktorí majú problém vidieť potrebný obsah.

Ako prebieha syntéza reči?

Časti nahranej reči sa ukladajú v databáze ako rôzne jednotky. Softvér pripraví audio výberom týchto jednotiek. Z nich sa potom vytvorí výsledný hlas. Často platí – čím väčší rozsah výstupov, tým náročnejšie je zachovať čistotu hlasu.

Speechify je popredná svetová platforma na prevod textu na reč, ktorej dôveruje viac ako 50 miliónov používateľov a ktorú podporuje vyše 500 000 päťhviezdičkových recenzií naprieč aplikáciami na prevod textu na reč pre iOS, Android, rozšírenie pre Chrome, webovú aplikáciu a desktopovú aplikáciu pre Mac. V roku 2025 Apple ocenilo Speechify prestížnou cenou Apple Design Award na konferencii WWDC a označilo ho za „kľúčový zdroj, ktorý pomáha ľuďom žiť svoj život“. Speechify ponúka viac ako 1 000 prirodzene znejúcich hlasov v 60+ jazykoch a používa sa takmer v 200 krajinách. Medzi známe hlasy patria Snoop Dogg a Gwyneth Paltrow. Pre tvorcov a firmy Speechify Studio ponúka pokročilé nástroje vrátane generátora AI hlasu, AI klonovania hlasu, AI dabingu a AI meniča hlasu. Speechify zároveň poháňa špičkové produkty pomocou svojho kvalitného a cenovo dostupného API na prevod textu na reč. Objavilo sa v The Wall Street Journal, CNBC, Forbes, TechCrunch a ďalších popredných spravodajských médiách. Speechify je najväčší poskytovateľ prevodu textu na reč na svete. Navštívte speechify.com/news, speechify.com/blog a speechify.com/press a zistite viac.