Hlasy pro převod textu na řeč. Jak to funguje?
Uváděno v
Jak vlastně fungují hlasy pro převod textu na řeč? Povídáme si trochu o AI technologii, která proměňuje slova v přirozeně znějící hlasy - okamžitě!
I když koncept převodu textu na řeč - tedy počítačového softwaru, který dokáže číst slova na obrazovce nahlas uživateli - není nic nového, zdá se, že v posledních letech prochází jakousi revolucí.
Podle jedné nedávné studie byl trh s převodem textu na řeč v roce 2020 oceněn na neuvěřitelné 2 miliardy dolarů - částečně kvůli dopadu stále probíhající pandemie COVID-19. Nejen to, ale odhaduje se, že jeho hodnota vzroste na 5 miliard dolarů již v roce 2026 - což je působivá složená roční míra růstu 14,6 %.
Mnoho z toho lze přičíst způsobům, jakými řešení převodu textu na řeč pomáhají lidem s různými zrakovými postiženími. Podle Centra pro kontrolu a prevenci nemocí má asi 12 milionů lidí ve věku nad 40 let ve Spojených státech nějaký problém se zpracováním vizuálních informací. Z tohoto počtu je jeden milion zcela slepý a osm milionů má problémy se zrakem kvůli nějaké neopravené refrakční vadě. Tento počet vzrostl z 4,2 milionu v roce 2012.
To vše naznačuje, že technologie převodu textu na řeč si v průběhu let více než osvědčila. Mnoho řešení, jako je Speechify, dokonce nabízí více vysoce kvalitních hlasů, ze kterých si uživatelé mohou vybrat podle svých potřeb. Ale jak tato řešení fungují a jak je možné, že je k dispozici tolik hlasových možností? Odpovědi na takové otázky vyžadují, abyste měli na paměti několik důležitých věcí.
Jak funguje převod textu na řeč
Než se dostanete k samotným hlasům za převodem textu na řeč, je důležité lépe pochopit, jak tato řešení fungují.
Převod textu na řeč využívá umělou inteligenci, strojové učení a podobné technologie k tomu, aby převáděl psaná slova na stránce nebo obrazovce na zvukový obsah, který lze poté číst nahlas. To zahrnuje nejen obsah webových stránek nebo článků, ale také texty napsané v aplikacích jako Microsoft Word a dalších.
Zvukový obsah je generován zcela zařízením, které používáte. Kromě toho, že funguje na stolních a přenosných počítačích, je převod textu na řeč dostupný také na téměř každém chytrém telefonu, tabletu nebo jiném mobilním zařízení dostupném na trhu dnes.
Ve velké většině řešení je zpracování převodu textu na řeč prováděno lokálně na samotném zařízení. To činí převod textu na řeč cenným i v případě, že není k dispozici připojení k internetu.
Kromě toho, že umožňuje lidem s vizuálními problémy přístup k psanému obsahu a jeho pochopení, je převod textu na řeč také užitečný, protože lze ovládat výšku a dokonce i tempo hlasu. Pokud chcete něco zpomalit, abyste to lépe pochopili, můžete. Stejně tak, pokud chcete zrychlit hlas, abyste prošli obsahem rychleji, můžete to udělat také.
Hlasy pro převod textu na řeč: Jak to funguje
Pokud jde o skutečný hlas používaný těmito řešeními pro převod textu na řeč, vše se nakonec odvíjí od konceptu zvaného syntetizátor řeči.
Co je to syntetizátor řeči?
Syntéza řeči je forma výstupu, při které váš počítač (nebo jiné zařízení) čte slova nahlas ve dříve zvoleném hlasu. Konceptuálně to není tak odlišné od čtení slov na stránce sami nebo dokonce jejich vytištění - stále se jedná o to, jak počítač poskytuje požadované informace. Jen místo toho, aby to dělal pouze textem, dělá to hlasem, který můžete slyšet přes reproduktory nebo sluchátka.
Obecně řečeno, syntéza řeči funguje tak, že řešení, které používáte, následuje řadu základních, ale důležitých kroků. Prvním z nich je převod textu na stránce na slova.
Krok 1: Předzpracování
V této části procesu řešení pro převod textu na řeč analyzují slova v obsahu, který chcete číst, a berou písmena - která jsou v podstatě jen symboly - a převádějí je na slova. Tato část procesu je důležitá, protože psané slovo může být někdy více nejednoznačné, než si lidé uvědomují. Určitá slova nebo dokonce fráze mohou znamenat více věcí. Stejně tak počítač musí být schopen "pochopit" rozdíl mezi slovy jako "jejich", "tam" a "oni jsou" - tři slova, která se vyslovují stejně, ale mohou dramaticky změnit kontext věty.
Zde přichází na řadu umělá inteligence a strojové učení. S AI mohou být řešení pro převod textu na řeč "trénována", aby co nejvíce eliminovala tuto nejednoznačnost. Tato fáze procesu hlasu pro převod textu na řeč se nazývá "předzpracování", protože se odehrává "v zákulisí" předtím, než aplikace vůbec něco přečte nahlas.
Toto je také fáze, kdy řešení převodu textu na řeč rozlišuje mezi slovy, která mohou být napsána stejně, ale znějí jinak v závislosti na jejich použití. "Read" je dokonalým příkladem, protože je možné, že si budete chtít přečíst knihu večer na relaxaci, i když jste tu knihu četli nesčetněkrát v minulosti. Lidé mohou snadno rozlišit mezi těmito dvěma myšlenkami díky kontextu - umělá inteligence je využívána na straně výpočetní techniky k dosažení podobného výsledku.
Stejně obtížné během tohoto období jsou věci jako čísla, zkratky, akronymy a další. Speciální znaky jako dolarový znak jsou také těžší "přeložit" než samotné psané slovo. Proto je fáze předzpracování tak důležitá - pomáhá zajistit, že vše, co bude nakonec přečteno nahlas, dává smysl v kontextu, pro který bylo zamýšleno.
Krok 2: Porozumění výslovnosti
Jakmile byl text analyzován a řešení převodu textu na řeč "rozumí", která slova musí být vyslovena nahlas, začíná další část procesu. To je okamžik, kdy jsou tato slova převedena na fonémy - v podstatě se učí, jak správně vyslovit slova v daném textu.
Toto je část procesu, která se v průběhu let dramaticky vyvinula. Pokud jste někdy měli příležitost použít řešení převodu textu na řeč z 90. let (nebo jste viděli starší film ze 70. nebo 80. let, který obsahoval scénu s převodem textu na řeč), pravděpodobně jste se setkali s počítačovým hlasem, který nezní přirozeně. Bylo okamžitě rozpoznatelné, že je generován počítačem, a i když jste mohli rozumět tomu, co říká, většina slov byla pravděpodobně vyslovena nesprávně.
Krok 3: Začíná převod na řeč
Jakmile byly fonémy identifikovány, řešení převodu textu na řeč přechází k poslední části procesu: převod těchto informací na zvuk, který může být přehráván nahlas přes reproduktory nebo sluchátka zařízení.
To se děje několika různými způsoby v závislosti na řešení, které používáte. Jeden z těchto způsobů zahrnuje lidského herce nebo herečku, kteří nahlas přečtou seznam fonémů, poté jsou tyto informace zpětně vloženy do počítače a samotného řešení. Poté, co aplikace naskenuje konkrétní blok textu, může přiřadit fonémy, které najde na stránce, k fonémům, které byly dříve nahrány. Poté tyto dvě věci spojí, aby přehrála zvukovou verzi textu mnohem přirozenějším způsobem než kdykoli předtím.
Některá řešení stále umožňují počítači generovat hlas samotný. Funguje to stále podobně, pouze "hlas" není založen na dříve nahraném zvuku, ale je jednoduše vytvořen generováním specifických zvukových frekvencí ve správném pořadí.
V tomto ohledu to není úplně odlišné od způsobu, jakým hudební syntezátor může umožnit hudebníkovi napodobit zvuky nástrojů pomocí standardní klávesnice připojené k počítači. Mohou hrát na klávesnici jako na piano, i když místo klavírní hudby může každá klávesa napodobit jiný akord na kytaru nebo zvuky z bubnu. Stále jde o to, že počítač "rozumí" záměru každého úderu klávesy a spojuje ho s odpovídajícím zvukem, i když v jiném kontextu.
Možnosti hlasu a další
Část důvodu, proč je k dispozici tolik různých možností hlasu v těchto generátorech hlasu pro převod textu na řeč, je, že nejsou ve skutečnosti tak obtížné vytvořit, jak si mnoho lidí myslí. Typy fonémů potřebné pro AI generátor hlasu jsou ve skutečnosti docela běžné v lidském jazyce. Proto stačí, aby herec nebo herečka seděli před mikrofonem, přečetli krátký scénář obsahující všechny potřebné fonémy, a poté mohou být tyto informace zpětně vloženy do samotného řešení.
Technologie AI řeči rozpozná každý z fonémů jednotlivě, v podstatě "rozloží" tento záznam na součet jeho částí a použije ty, které jsou nezbytné k přesnému generování hlasů pro převod textu na řeč, když se uživatel snaží číst webovou stránku nebo jinou formu obsahu.
Samozřejmě existuje mnoho dalších potenciálních využití tohoto typu přirozeně znějícího generátoru hlasu, než jen pomáhat těm se zrakovým postižením. V posledních letech se veřejnost velmi zajímá o AI řeč a generování hlasu díky sociálním sítím jako TikTok.
TikTok je ve skutečnosti jednou z větších značek, které přijaly generování hlasu pomocí AI, což uživatelům umožňuje nahrávat videa, přidávat text k těmto videím a poté nechat syntézu řeči přečíst tento obsah nahlas. Je to zábavný způsob, jak přidat další vrstvu ponoření do obsahu zveřejněného na TikToku a je to něco, co se bude s časem jen více rozšiřovat.
Budoucnost převodu textu na řeč je tady
Nakonec je převod textu na řeč neocenitelným nástrojem díky tomu, co nám umožňuje dělat. Umožňuje lidem s problémy se zrakem užívat si a rozumět veškerému stejnému obsahu jako ostatní, a to vše podle jejich vlastních podmínek. Může převést jakýkoli blogový příspěvek, článek, dokument, bílou knihu nebo jiný tištěný obsah na snadno konzumovatelný zvukový zážitek, což vám umožní si ho užít nejen doma, ale i na cestách, v posilovně atd.
Nejenže činí naše životy produktivnějšími, ale také pomáhá řešit řadu významných problémů, jako jsou ty uvedené výše. Na základě toho je snadné pochopit, proč se syntéza řeči a AI řeč staly v posledních letech tak populárními.
Pokud byste se chtěli dozvědět více o hlasech pro převod textu na řeč, nebo pokud byste se jen chtěli dozvědět více o tom, jak vám takové řešení může prospět, neváhejte - vyzkoušejte Speechify zdarma ještě dnes.
Speechify je aplikace s nejvyšším hodnocením v App Store s nejpřirozeněji znějícím hlasem a uživatelským zážitkem s množstvím přizpůsobitelných hlasů.
Speechify je k dispozici v několika variantách: pro jednotlivé uživatele, skupiny, nebo API pro firmy všech velikostí.
Tyler Weitzman
Tyler Weitzman je spoluzakladatel, vedoucí umělé inteligence a prezident ve společnosti Speechify, nejpopulárnější aplikaci pro převod textu na řeč na světě, s více než 100 000 pětihvězdičkovými recenzemi. Weitzman je absolventem Stanfordovy univerzity, kde získal bakalářský titul v matematice a magisterský titul v informatice se zaměřením na umělou inteligenci. Byl vybrán časopisem Inc. jako jeden z 50 nejlepších podnikatelů a byl uveden v publikacích jako Business Insider, TechCrunch, LifeHacker, CBS a dalších. Weitzmanův výzkum pro magisterský titul se zaměřil na umělou inteligenci a převod textu na řeč, kde jeho závěrečná práce nesla název: „CloneBot: Personalizované předpovědi dialogových odpovědí.“