Aj keď koncept prevodu textu na reč – teda softvér, ktorý používateľovi nahlas číta text na obrazovke – nie je novinka, v posledných rokoch prechádza skutočnou revolúciou.
Podľa jednej nedávnej štúdie má trh s prevodom textu na reč v roku 2020 hodnotu až 2 miliardy dolárov – aj vďaka prebiehajúcej pandémii COVID-19. Odhaduje sa, že do roku 2026 narastie až na 5 miliárd, čo je ročné tempo rastu 14,6 %.
Väčšina tohto rastu súvisí s tým, ako prevod textu na reč pomáha ľuďom s rôznymi zrakovými obmedzeniami. Podľa CDC má asi 12 miliónov Američanov nad 40 rokov určitý problém so spracovaním vizuálnych informácií. Milión je úplne nevidiacich a osem miliónov má poruchy zraku v dôsledku nekorigovaných chýb. V roku 2012 to bolo 4,2 milióna.
To všetko znamená, že technológia prečítania textu nahlas sa roky osvedčuje. Mnohé riešenia, vrátane Speechify, ponúkajú viacero kvalitných hlasov. Ako však tieto riešenia fungujú a prečo je výber hlasov taký široký? Odpovede si vyžadujú pochopiť niekoľko kľúčových faktov.
Ako funguje prevod textu na reč
Skôr než objavíte samotné hlasy za prevodom textu na reč, je dôležité porozumieť, ako tieto riešenia vôbec fungujú.
Text na reč využíva umelú inteligenciu, strojové učenie a podobné technológie na prevod písaných slov na stránke či obrazovke do zvuku, ktorý možno prečítať nahlas. Týka sa to nielen obsahu webov a článkov, ale aj textov v aplikáciách typu Microsoft Word a ďalších.
Zvukový výstup sa generuje výhradne na zariadení používateľa. Okrem počítačov funguje text na reč aj na takmer každom smartfóne, tablete alebo inom mobilnom zariadení dostupnom dnes na trhu.
Vo väčšine riešení prebieha spracovanie prevodu textu na reč priamo na zariadení. Vďaka tomu je dostupný aj bez internetového pripojenia.
Okrem toho, že uľahčuje prístup k textu pre zrakovo znevýhodnených, umožňuje tiež ovládať výšku aj rýchlosť reči. Chcete spomaliť čítanie, aby ste textu lepšie rozumeli? Môžete. Alebo ho zrýchliť? Tiež môžete.
Hlasy prevodu textu na reč: Ako to funguje
Pri samotnom hlase v riešeniach prevodu textu na reč je kľúčový pojem syntetizátor reči.
Čo je syntetizátor reči?
Syntéza reči je výstup, keď počítač alebo zariadenie nahlas číta slová v zvolenom hlase. Nie je to veľmi odlišné od toho, ako čítate text vy sami alebo ho vytlačíte – ide len o iný spôsob, ako počítač sprostredkuje informáciu. Namiesto textu ju však prenáša hlasom, ktorý si môžete vypočuť cez reproduktory alebo slúchadlá.
V zásade funguje syntéza reči vďaka niekoľkým základným krokom, ktoré riešenie vykoná. Prvým krokom je konverzia textu na slová.
Krok 1: Predspracovanie
V tejto fáze prevodníky textu na reč analyzujú slová v texte a písmená – ktoré sú vlastne len symboly – konvertujú na skutočné slová. Táto fáza je dôležitá, pretože písaný text môže byť viacvýznamový. Niektoré slová či frázy môžu znamenať viac vecí. Počítač musí „pochopiť“ rozdiel medzi „their“, „there“ a „they're“ – tromi slovami s rovnakou výslovnosťou, ktoré menia význam vety.
Práve tu nastupuje umelá inteligencia a strojové učenie. Vďaka AI sa dajú odstrániť nejednoznačnosti v texte. Táto fáza procesu prevodu na hlas sa nazýva „predspracovanie“, lebo prebieha na pozadí ešte skôr, než aplikácia niečo prečíta nahlas.
V tomto štádiu rozpoznáva prevodník aj slová, ktoré sa píšu rovnako, ale znejú inak podľa použitia. Napríklad „read“ môže byť v minulom alebo prítomnom čase – človek to vie z kontextu, no AI musí prevziať túto úlohu a určiť správny význam podľa okolností.
Rovnako zložité v tejto fáze sú čísla, skratky, akronymy a špeciálne znaky ako dolárový symbol. Preto je fáza predspracovania taká dôležitá – zabezpečí, že všetko, čo bude neskôr prečítané nahlas, bude dávať zmysel podľa zamýšľaného kontextu.
Krok 2: Porozumenie výslovnosti
Keď bol text zanalyzovaný a riešenie prevodu textu na reč „chápe“, ktoré slová treba vysloviť, začína ďalší krok procesu. Tu sa slová menia na fonémy – teda softvér sa učí, ako ich správne vysloviť.
Tento proces sa za tie roky výrazne zlepšil. Ak ste niekedy používali prevod textu na reč z 90. rokov (alebo videli vo filme z 80. rokov scénu s počítačovým hlasom), všimli ste si, že hlas bol neprirodzený a výrazne „počítačový“ – slová boli často vyslovované nesprávne.
Krok 3: Začína premena na hlas
Keď sú fonémy identifikované, riešenie prevodu textu na reč ich premieňa na zvuk, ktorý sa prehrá cez reproduktory alebo slúchadlá zariadenia.
To môže prebiehať viacerými spôsobmi podľa konkrétneho softvéru. Niekedy hlas nahovorí reálny človek – herec alebo herečka – pričom fonémy vysloví nahlas a tieto nahrávky sú potom spracované počítačom. Pri čítaní konkrétneho textu aplikácia spáruje nájdené fonémy s už nahratými, čím prehrá výsledný text vo výrazne prirodzenejšej podobe.
Niektoré riešenia dokážu hlas vytvoriť aj bez nahrávok. Funguje to podobne, len „hlas“ je generovaný syntézou zvukových frekvencií v správnom poradí a nevychádza z reálneho záznamu.
Je to trochu podobné, ako keď hudobník na syntetizátore napodobňuje zvuky hudobných nástrojov cez klávesnicu pripojenú k počítaču. Namiesto klavírnych tónov tu každý kláves simuluje iný akord gitary či zvuk bubna – počítač „chápe“ úmysel stlačenia a priradí správny zvuk podľa kontextu.
Možnosti hlasov a viac
Dôvod, prečo sú v riešeniach generátorov hlasov v prevode textu na reč dostupné mnohé hlasy, je v skutočnosti jednoduchý – nie je to také náročné, ako si mnohí myslia. Potrebné fonémy pre AI generátor hlasu sú bežné vo všetkých jazykoch. Stačí, ak herec alebo herečka prečíta krátky text obsahujúci všetky fonémy a tie sa ďalej použijú v riešení.
Technológia syntézy hlasu potom rozpozná jednotlivé fonémy, „rozbije“ nahrávku na časti a využije tie, ktoré sú potrebné, aby vytvorila čo najvernejší hlas pri čítaní webovej stránky alebo iného obsahu.
Samozrejme, tento prirodzene znejúci generátor hlasu má mnoho ďalších využití, nielen pre zrakovo znevýhodnených. V posledných rokoch rastie záujem o AI hlasovú syntézu aj vďaka sociálnym sieťam, napr. TikTok.
TikTok je jednou z veľkých platforiem, ktoré prijali AI generovanie hlasu – umožňuje natáčať videá, pridať na ne text a nechať ho syntetizátor prečítať nahlas. Je to zábavný spôsob, ako pridať ďalšiu vrstvu zážitku k obsahu na TikTok, a jeho popularita bude len rásť.
Budúcnosť textu na reč je tu
Prevod textu na reč je neoceniteľný nástroj. Umožňuje ľuďom so zrakovým hendikepom užívať si rovnaký obsah ako ostatní – podľa vlastných potrieb. Každý článok, dokument či blog premení na zvukový zážitok, ktorý si môžete vypočuť doma, na ceste alebo v posilňovni.
Nielenže zlepšuje produktivitu, ale rieši aj mnohé zásadné problémy spomínané vyššie. Preto je syntéza reči a AI hlas v posledných rokoch taká populárna.
Ak chcete vedieť viac o hlasoch prevodu textu na reč alebo sa len naučiť, ako vám môže táto technológia pomôcť, neváhajte – vyskúšajte Speechify zdarma.
Speechify je najlepšie hodnotená aplikácia v App Store s najprirodzenejším hlasom a výborným používateľským zážitkom, vrátane vlastných hlasov.
Speechify je dostupný v niekoľkých podobách: pre jednotlivcov, skupiny alebo API pre firmy všetkých veľkostí.

