Umelá inteligencia (AI) prenikla takmer do každej časti nášho života – od chatbotov na weboch, cez tvorcov obsahu na sociálnych sieťach až po videohry. Hlasové technológie AI urobili výrazný skok vpred – od základných systémov prevodu textu na reč (TTS) až po syntetické hlasy na nerozoznanie od ľudských. S AI nástrojmi, ako sú generátory hlasu a softvér na klonovanie hlasu, dokáže AI dnes presvedčivo napodobniť hlas konkrétneho človeka.
Rozdiel medzi prevodom textu na reč a rozpoznávaním reči
Prevody textu na reč (TTS) a rozpoznávanie reči sú dve strany tej istej mince. Obe pracujú s ľudským hlasom a AI technológiami, no slúžia na iné účely. TTS je syntéza reči, ktorá premieňa text na hovorený výstup – často používaný v audioknihách, e‑learningu či pomôckach pre ľudí so zdravotným postihnutím. Využíva AI a strojové učenie na generovanie syntetického hlasu z napísaného textu.
Naopak, rozpoznávanie reči je proces, pri ktorom nástroj s AI prepíše hovorené slová na text. Táto technológia sa často používa pri živých prekladoch a prepisovaní, v hlasových asistentoch ako Apple Siri či Amazon Alexa a tiež na niektorých sociálnych sieťach, napríklad TikTok, na titulkovanie videí.
Ako AI dokáže napodobniť ľudský hlas
Bežný spôsob, ako AI napodobňuje ľudský hlas, má dva hlavné kroky – analýzu a syntézu. Spadá to do oblasti klonovania hlasu. Najskôr AI využije hlboké učenie a neurónové siete na analýzu audio nahrávok či záznamov hlasu, pri čom skúma vzorce, tón, farbu hlasu a prízvuk.
V syntetickej fáze AI použije generatívne modely (ako ChatGPT od OpenAI alebo Adobe VoCo) na vytvorenie digitálneho hlasu, ktorý kopíruje analyzovaný hlas. Je to podobné ako deepfake, len pre hlasy. Na vytvorenie prekvapivo realistického hlasu jej často stačí pár sekúnd zvuku.
Z čoho sa skladá tvorba ľudského hlasu
Na vytvorení ľudského hlasu sa podieľa viacero zložiek. Patria sem:
- Fonetická analýza: Pochopenie fonetickej štruktúry reči, rozklad slov na jednotlivé zvuky.
- Analýza prozódie: Pochopenie rytmu, dôrazu a intonácie v prejave.
- Učiace algoritmy: Algoritmy strojového učenia sa učia z audio dát, aby vedeli napodobniť podobné vzorce.
- Generatívne modely: Slúžia na tvorbu nových hlasových dát podľa naučených vzorcov.
Rozdiely medzi ľudským hlasom a AI hlasom
Napriek veľkému pokroku a čoraz prirodzenejšiemu zneniu AI hlasov sú medzi ľudským a umelým hlasom stále rozdiely. Kľúčový je prejav emócií a jemné významové odtiene, ktoré ľudská reč nesie a AI ich zatiaľ len dobieha. Zároveň sú tu etické a súkromné riziká – zneužitie môže viesť ku krádeži identity či deepfake podvodom.
Top 8 AI hlasových softvérov
- ChatGPT od OpenAI: Využíva generatívnu AI na tvorbu textových odpovedí. ChatGPT možno integrovať do rôznych appiek na realistický AI hlas.
- VoCo od Adobe: Nástroj od Adobe, ktorý umožňuje upraviť a vytvoriť reč z približne 20 minút vzorky pôvodného hlasu.
- Amazon Polly: Služba, ktorá mení text na prirodzenú reč, vďaka čomu môžu vývojári vytvárať hovoriace aplikácie a nové produkty s hlasovým ovládaním.
- Microsoft Azure Text na reč: Známa pre kvalitný AI hlas, široko využívaná v prístupnosti, zábave aj komunikácii.
- Google Text-to-Speech: Služba na syntézu prirodzene znejúcej reči vo viac ako 30 jazykoch, používaná v službách Google.
- Descript: Nástroj na tvorbu, úpravu a vylepšenie vlastného hlasu pre podcasty či dabing.
- Resemble AI: Ponúka technológiu na klonovanie hlasu pre vlastné jedinečné AI hlasy pre značky a produkty.
- Lyrebird: Kúpený spoločnosťou Descript, patril medzi prvých, ktorí ponúkali softvér na klonovanie realistického digitálneho hlasu.
AI hlasové technológie postavené na hlbokom učení a neurónových sieťach rýchlo napredujú a nachádzajú uplatnenie v audioknihách, podcastoch, na sociálnych sieťach aj vo videohrách. Podľa Forbes prinášajú nové AI nástroje kvalitné a realistické hlasy, ktoré menia spôsob, akým komunikujeme s technológiami. Ako toto odvetvie rastie, hranica medzi ľudským a AI hlasom sa čoraz viac stiera. Popri obrovskom potenciáli je však dôležité myslieť aj na etické a súkromné otázky.

