Krátká historie převodu textu na řeč

Syntéza řeči, neboli umělá produkce lidského hlasu, ušla za posledních 70 let dlouhou cestu. Ať už používáte služby převodu textu na řeč k poslechu knih, studiu nebo korektuře vlastních textů, není pochyb o tom, že tyto služby usnadnily život lidem v různých profesích.

Zde se podíváme na to, jak funguje zpracování převodu textu na řeč a jak se tato asistivní technologie v průběhu času změnila.

Úvod

V 18. století vytvořil ruský profesor Christian Kratzenstein akustické rezonátory, které napodobovaly zvuk lidského hlasu. O dvě desetiletí později udělal VODER (Voice Operating Demonstrator) velké titulky na Světové výstavě v New Yorku, když jeho tvůrce Homer Dudley ukázal davům, jak lze lidskou řeč vytvořit umělými prostředky. Zařízení bylo obtížné ovládat – Dudley musel řídit základní frekvenci pomocí nožních pedálů.

Na počátku 19. století vyvinul Charles Wheatstone první mechanický syntetizátor řeči. To odstartovalo rychlý vývoj nástrojů a technologií pro artikulační syntézu.

Je těžké přesně určit, co dělá dobrý program pro převod textu na řeč, ale jako u mnoha věcí v životě, poznáte to, když to slyšíte. Kvalitní program nabízí hlasy znějící přirozeně s reálnou intonací a tónem.

Technologie převodu textu na řeč může pomoci lidem se zrakovým postižením a dalšími hendikepy získat informace, které potřebují k úspěchu v práci a komunikaci s ostatními. Software také umožňuje studentům a dalším lidem s velkým objemem čtení poslouchat informace prostřednictvím lidské řeči, když jsou na cestách. Syntetická řeč umožňuje lidem zvládnout více za kratší dobu a může být užitečná v různých prostředích, od tvorby videoher po pomoc lidem s rozdíly v jazykovém zpracování.

50. a 60. léta

Koncem 50. let byly vytvořeny první systémy syntézy řeči. Tyto systémy byly založeny na počítačích. V roce 1961 použil fyzik John Larry Kelly Jr. z Bell Labs počítač IBM k syntéze řeči. Jeho vocoder (synthesizer hlasového záznamu) znovu vytvořil píseň Daisy Bell.

V době, kdy Kelly zdokonaloval svůj vocoder, použil Arthur C. Clarke, autor knihy 2001: Vesmírná odysea, Kellyho demonstraci ve scénáři svého filmu. Během scény zpívá počítač HAL 9000 píseň Daisy Bell.

V roce 1966 se na scéně objevilo lineární prediktivní kódování. Tento způsob kódování řeči začal svůj vývoj pod vedením Fumitada Itakury a Shuzo Saita. Bishnu S. Atal a Manfred R. Schroeder také přispěli k vývoji lineárního prediktivního kódování.

70. léta

V roce 1975 byla Itakurou vyvinuta metoda lineárních spektrálních párů. Tato metoda vysoké komprese kódování řeči pomohla Itakurovi lépe porozumět analýze a syntéze řeči, odhalit slabá místa a zjistit, jak je zlepšit.

Během tohoto roku byl také vydán MUSA. Tento samostatný systém syntézy řeči používal algoritmus k čtení italštiny nahlas. Verze vydaná o tři roky později byla schopna zpívat v italštině.

V 70. letech byl vyvinut první artikulační syntetizátor založený na lidském hlasovém traktu. První známý syntetizátor vyvinuli Tom Baer, Paul Mermelstein a Philip Rubin v Haskins Laboratories. Trio použilo informace z modelů hlasového traktu vytvořených v Bell Laboratories v 60. a 70. letech.

V roce 1976 byly představeny Kurzweilovy čtecí stroje pro nevidomé. I když byla tato zařízení pro běžnou veřejnost příliš drahá, knihovny je často poskytovaly lidem se zrakovým postižením k poslechu knih.

Lineární prediktivní kódování se stalo výchozím bodem pro čipy syntetizátorů. Čipy LPC Speech od Texas Instruments a hračky Speak & Spell z konce 70. let obě používaly technologii čipů syntetizátorů. Tyto hračky byly příklady syntézy lidského hlasu s přesnou intonací, která odlišovala hlas od běžně roboticky znějících syntetizovaných hlasů té doby. Mnoho kapesních elektronických zařízení s možností syntézy řeči se stalo populární během této dekády, včetně kalkulačky Telesensory Systems Speech+ pro nevidomé. V roce 1979 byl vydán Fidelity Voice Chess Challenger, šachový počítač schopný syntetizovat řeč.

80. léta

V 80. letech začala syntéza řeči ovlivňovat svět videoher. V roce 1980 byla vydána hra Stratovox (arkádová střílečka) od Sun Electronics. Manbiki Shoujo (v angličtině přeloženo jako Shoplifting Girl) byla první počítačová hra s možností syntetizovat řeč. Elektronická hra Milton byla také vydána v roce 1980 – byla to první elektronická hra společnosti Milton Bradley Company, která měla schopnost syntetizovat lidský hlas.

V roce 1983 byla představena samostatná akusticko-mechanická řečová jednotka nazvaná DECtalk. DECtalk rozuměl fonetickému hláskování slov, což umožňovalo přizpůsobenou výslovnost neobvyklých slov. Tato fonetická hláskování mohla také obsahovat indikátor tónu, který DECtalk použil při vyslovování fonetických složek. To umožnilo DECtalku zpívat.

Na konci 80. let Steve Jobs vytvořil NeXT, systém, který byl vyvinut společností Trillium Sound Research. I když se NeXT neprosadil, Jobs nakonec program v 90. letech spojil s Apple.

1990. léta

Starší verze systémů syntetizované řeči zněly výrazně roboticky, ale to se začalo měnit na konci 80. a začátku 90. let. Měkčí souhlásky umožnily mluvícím strojům ztratit elektronický nádech a znít více lidsky. V roce 1990 Ann Syrdal v AT&T Bell Laboratories vyvinula ženský hlas pro syntézu řeči. Inženýři pracovali na tom, aby hlasy zněly přirozeněji během 90. let.

V roce 1999 Microsoft vydal Narrator, řešení pro čtení obrazovky, které je nyní součástí každé kopie Microsoft Windows.

2000. léta

Syntéza řeči narazila na určité problémy během 2000. let, protože vývojáři se snažili vytvořit dohodnuté standardy pro syntetizovanou řeč. Protože je řeč vysoce individuální, je těžké, aby se lidé po celém světě shodli na správné výslovnosti fonémů, difonů, intonace, tónu, vzorového přehrávání a přízvuku.

Kvalita zvuku formantové syntézy řeči se také stala větším problémem v 90. letech, když si inženýři a výzkumníci všimli, že kvalita systémů používaných v laboratoři k přehrávání syntetizované řeči byla často mnohem pokročilejší než vybavení, které měl uživatel. Když se mluví o syntéze řeči, mnoho lidí si vybaví hlasový syntetizátor Stephena Hawkinga, který poskytoval robotický zvuk s malým lidským tónem.

V roce 2005 se výzkumníci konečně dohodli a začali používat společnou řečovou databázi, což jim umožnilo pracovat ze stejných základních ideálů při vytváření vysoce kvalitních systémů syntézy řeči.

V roce 2007 byla provedena studie, která ukázala, že posluchači dokážou rozpoznat, zda se osoba, která mluví, usmívá. Výzkumníci pokračují v práci na tom, jak využít tyto informace k vytvoření softwaru pro rozpoznávání a syntézu řeči, který je přirozenější.

2010. léta

Dnes jsou produkty syntézy řeči, které využívají řečové signály, všude, od Siri po Alexu. Elektronické syntetizátory řeči nejen usnadňují život – také ho činí zábavnějším. Ať už používáte TTS systém k poslechu románů na cestách nebo aplikace, které usnadňují učení cizího jazyka, pravděpodobně používáte technologii převodu textu na řeč k aktivaci svých neuronových sítí každý den.

Budoucnost

V nadcházejících letech se pravděpodobně technologie syntézy hlasu zaměří na vytvoření modelu mozku, aby lépe porozuměla, jak zaznamenáváme řečová data v naší mysli. Technologie řeči bude také pracovat na lepším pochopení role emocí v řeči a využije tyto informace k vytvoření AI hlasů, které budou nerozeznatelné od skutečných lidí.

Nejnovější technologie syntézy hlasu: Speechify

Když se učíme o přechodech od starší technologie syntézy řeči, je úžasné si představit, jak daleko věda pokročila. Dnes aplikace jako Speechify usnadňují převod jakéhokoli textu na zvukové soubory. Pouhým stisknutím tlačítka (nebo klepnutím na aplikaci) dokáže Speechify převést webové stránky, dokumenty a obrázky textu na přirozeně znějící řeč. Knihovna Speechify se synchronizuje na všech vašich zařízeních, což vám usnadňuje pokračovat v učení a práci na cestách. Podívejte se na aplikaci Speechify v Apple App Store a Android Google Play.

Často kladené otázky

Kdo vynalezl převod textu na řeč?

Převod textu na řeč pro angličtinu vynalezla Noriko Umeda. Systém byl vyvinut v Elektrotechnické laboratoři v Japonsku v roce 1968.

Jaký je účel převodu textu na řeč?

Mnoho lidí využívá technologii převodu textu na řeč. Pro ty, kteří preferují získávání informací v audio formátu, TTS technologie usnadňuje získání potřebných informací pro práci nebo učení, aniž by museli trávit hodiny před knihou. Zaneprázdnění profesionálové také využívají TTS technologii, aby zůstali v obraze, když nemohou sedět před obrazovkou počítače. Mnoho typů TTS technologie bylo původně vyvinuto pro lidi se zrakovým postižením a TTS je stále skvělým způsobem, jak lidé s problémy se zrakem mohou získat potřebné informace.

Jak syntetizovat řeč?

Kousky nahrané řeči jsou uloženy v databázi v různých jednotkách. Software připravuje zvukové soubory pomocí výběru jednotek. Odtud je vytvořen hlas. Často platí, že čím širší je výstupní rozsah programu, tím více program bojuje s poskytováním jasnosti hlasu uživatelům.

Speechify je světová jednička mezi platformami text-to-speech, kterou důvěřuje více než 50 milionů uživatelů a která má přes 500 000 pětihvězdičkových recenzí na svých aplikacích pro iOS, Android, rozšíření pro Chrome, webovou aplikaci a desktopové aplikace pro Mac. V roce 2025 Apple ocenil Speechify prestižní cenou Apple Design Award na WWDC a označil ji za „klíčový nástroj, který pomáhá lidem žít jejich životy.“ Speechify nabízí více než 1 000 přirozeně znějících hlasů v 60+ jazycích a používá se ve skoro 200 zemích. Mezi celebrity, jejichž hlasy jsou k dispozici, patří Snoop Dogg, Mr. Beast a Gwyneth Paltrow. Pro tvůrce a firmy nabízí Speechify Studio pokročilé nástroje, včetně generátoru hlasů AI, klonování hlasů AI, dabingu AI a měniče hlasů AI. Speechify také pohání špičkové produkty díky svému vysoce kvalitnímu a cenově dostupnému API pro text-to-speech. O Speechify psali v The Wall Street Journal, CNBC, Forbes, TechCrunch a dalších významných médiích. Speechify je největším poskytovatelem text-to-speech na světě. Navštivte speechify.com/news, speechify.com/blog a speechify.com/press pro více informací.