Deepfake hlasy a prevod textu na reč
Vďaka pokroku v umelej inteligencii (AI) a hlbokom učení možno dnes vytvárať kvalitné a realistické syntetické médiá. Táto technológia otvorila dvere novým kreatívnym spôsobom využitia naprieč odvetviami. Jednou z nich sú deepfaky, čiže syntetické hlasy a klonovanie hlasu.
Čo sú deepfake hlasy?
Deepfake je syntetické médium, známe aj ako klonovanie hlasu. S AI je možné vytvoriť video deepfake, kde niekoho vzhľad alebo slová nahradíte inými, čo je známe ako klonovanie hlasu. Predstavte si, že Arnold Schwarzenegger povie čokoľvek, čo mu „vložíte do úst“.
Proces vyžaduje špeciálny softvér na analýzu tvárí, spracovanie hlasu z textu a modelovanie pohybu úst v 3D priestore.
Táto technológia má množstvo pokročilých použití a klonovanie hlasu je jedným z nich. Takmer každý, aj bez technických znalostí, už narazil na nejaký deepfake škandál. Nedávno vyšiel aj dokument o Tony Bourdainovi, kde divákov prekvapilo, že „rozprával“ aj po smrti.
IT startupy pomohli filmárom znova vytvoriť Bourdainov hlas, čím príbehu dodali autenticitu. Je to obrovský technologický úspech, ale zároveň etická výzva. Stačí počítač so správnym softvérom a hocikto môže vyrobiť falošné zábery alebo zvuk akejkoľvek osoby.
Ako vlastne deepfaky vznikajú?
Najprv je potrebné zhromaždiť dostatok vzoriek hlasu danej osoby. Môžu pochádzať zo sociálnych sietí, telefonátov, TV a pod. Následne softvér s AI z týchto vzoriek vytvorí falošný hlas.
Toto je zjednodušený popis zložitého procesu – AI používa vložené dáta a vytvára prirodzene znejúce hlasy na čítanie textu. Preto sú deepfaky veľmi úzko prepojené s technológiou prevodu textu na reč (TTS).
Integrácia deepfake hlasov do prevodu textu na reč
Používateľ môže meniť vlastnosti ako výška, vek či prízvuk vďaka deepfake hlasom v systémoch TTS. Môže si tak „poskladať“ hlas podľa vlastných predstáv, napríklad pri hlasovom postihnutí, čo výrazne zlepší komunikáciu aj kvalitu života.
S deepfake hlasmi môžu tvorcovia obsahu pripravovať pútavejšie audio materiály a získať verných poslucháčov. Využívajú hlasy podobné známym interpretom či hviezdam, čo je atraktívne najmä v audioknihách alebo podcastoch, kde zvuk silno ovplyvňuje emócie a angažovanosť.
No využívanie deepfake hlasov v TTS systémoch prináša aj etické dilemy. Deepfake hlasy umožňujú vydávanie sa za iných a manipuláciu bez súhlasu dotknutých osôb. Preto je dôležité nastaviť jasné pravidlá a zákony na zodpovedné používanie tejto technológie.
Zavedenie deepfake hlasov do TTS predstavuje šancu na individuálnu a pútavú hlasovú syntézu. Táto technológia môže výrazne zlepšiť dostupnosť aj spokojnosť používateľov – samozrejme pri zohľadnení etických aspektov.
Výhody
Deepfaky majú aj pozitíva. Video „This Is Not Morgan Freeman“ z roku 2021 ukázalo, aký prínos môže mať rozšírená realita a AI v praxi.
Video ukázalo, že pri trénovaní AI s nahrávkami a filmovými zábermi sa dá napodobniť herec – pohyb, tvár aj reč. Má to svoje etické limity, no vie pomôcť napríklad hercovi Valovi Kilmerovi.
Kilmer pre rakovinu hrdla prišiel o hlas, čo mohlo ukončiť jeho kariéru. V dokumente o ňom sa ukázalo, že dabing mu nahovoril syn.
Keď však Kilmer spojil sily so Sonantic – AI startupom, získal svoj hlas späť vďaka deepfake. Firma replikovala jeho hlas a diváci ho počuli vo filme Top Gun: Maverick.
Nevýhody
Strojové učenie dokáže kopírovať hlas napríklad v New Yorku, kde sa nové technológie rýchlo ujímajú. To znamená ľahké získanie osobných údajov a riziko podvodu cez falošné hovory.
Etické otázky okolo deepfake technológií
Používanie deepfake hlasov aj deepfake prevodu textu na reč prináša aj etické otázky. S rastom technológií prichádzajú aj riziká. Napríklad deepfake hlas Arnolda Schwarzeneggera znie tak presvedčivo, že klame ľudí a vyvoláva neistotu a pochybnosti.
Pri zavádzaní novej technológie treba myslieť aj na riziká. Deepfake vie ľudí oklamať cez hlas, čo môže oslabiť dôveru verejnosti a zasiahnuť súkromie.
Hlavný problém je, že deepfake sa dá ľahko zneužiť cez falošné telefonáty či dezinformácie. Predstavte si, že vám zavolá „známy“, ale hlas je falošný. Takáto manipulácia dokáže negatívne ovplyvniť jednotlivcov aj celé komunity alebo krajiny.
Ako znížiť riziko nesprávneho využitia deepfake hlasov
Na zníženie rizika treba prísnejšie regulácie a vzdelávanie používateľov. Deepfake hlasy by sa mali používať zodpovedne – spoločnosti a štáty by mali spoločne nastaviť pravidlá. Existujú aj technológie na odhalenie zneužitia syntetických hlasov a prebieha osveta medzi používateľmi, lebo aj táto technika sa dá ľahko zneužiť.
Treba inovovať s rozumom a neprekračovať hranice. Vývoj je lákavý, no musí byť transparentný a zodpovedný. Používateľom je nutné dať jasnú informáciu, či počúvajú skutočný alebo syntetický hlas.
Právo a súkromie pri deepfake hlasoch
Deepfake hlasy prinášajú aj právne a súkromné otázky. Kto je majiteľom syntetického hlasu? Ako zabrániť jeho zneužitiu? Je potrebné jasne nastaviť pravidlá, ochrániť práva ľudí a podporiť zodpovedné použitie technológie.
Pri riešení etických otázok okolo deepfake hlasov je dôležitá otvorená debata. Odborníci, politici, technologickí lídri aj verejnosť by mali spoločne diskutovať o budúcnosti technológie v prospech spoločnosti.
Predstavte si telefonát, ktorý znie ako od známeho, ale je to len falošný hlas snažiaci sa vás oklamať. Takéto prípady môžu poškodiť jednotlivcov, komunity aj krajiny. Deepfake hlasy majú rôzne využitie – od zábavy cez Alexu s hlasom celebrity až po rizikové zneužitie.
Potrebujeme reguláciu pre etické využitie deepfake hlasov
Na ochranu ľudí potrebujeme jasné pravidlá a vzdelávanie o deepfake hlasoch. Štáty a technologické firmy musia spolupracovať, určovať pravidlá a vytvoriť nástroje na odhaľovanie a zastavenie škodlivých deepfake hlasov.
Pri použití deepfake hlasov je nutná opatrnosť a morálna zodpovednosť. Aj keď je to lákavá novinka, musíme byť féroví. Ľudia by mali vedieť, že hlas, ktorý počujú, je umelý, aby si vedeli overiť jeho dôveryhodnosť.
Hovoriť o problémoch spojených s deepfake hlasmi je dôležité. Debata by mala prebiehať medzi odborníkmi aj laickou verejnosťou, aby sme technológiu využívali v prospech všetkých.
Našťastie, ako sa zdokonaľuje softvér na syntézu hlasu, zlepšuje sa tiež odhaľovanie falošných hlasov. IT firmy vyvíjajú nástroje na identifikáciu, ktoré pomôžu bankám či call centrám rozlíšiť človeka od AI podvodníkov.
Softvéry na deepfake hlasy, ktoré si môžete vyskúšať
AI nástroje môžu zlepšiť život mnohých ľudí a možno si chcete vytvoriť vlastný audio deepfake. Na kvalitné výsledky potrebujete špičkový softvér a hardvér, no existujú aj programy na tvorbu prirodzených hlasov. Tu je päť deepfake generátorov hlasu, ktoré môžete vyskúšať:
Resemble
Resemble AI je nástroj na prevod textu na reč a deepfake softvér, ktorý aj z mála dát vytvorí ľudský hlas. Stačí zhruba päť minút audio záznamu a vytvoríte svoj prvý deepfake hlas.
Môžete si vyskúšať nahrávanie a nahrať vlastné úryvky, za pár minút už počujete svoj hlas. Používateľov poteší jednoduché ovládanie aj možnosť dolaďovať intonáciu.
Descript
Tento šikovný syntetizér reči ponúka silné editačné nástroje. Analyzuje nahrávky, videá a prepisy, aby vytvoril AI hlasy. Ak vám nevyhovuje vstup, v appke ho môžete upraviť priamo – netreba nové nahrávky.
Descript pomáha najmä tvorcom vytvárať kvalitné voiceovery do podcastov a videí. K dispozícii je množstvo hotových hlasov, ktoré ukazujú možnosti Descriptu.
ReSpeecher
ReSpeecher je spoľahlivý deepfake softvér, ktorý pomohol obnoviť hlas Luka Skywalkera v The Mandalorian. Okrem filmov a seriálov je vhodný aj na tvorbu voiceoverov na reklamy, animácie, hry, podcasty a iné.
iSpeech
iSpeech je dostupný ako program aj online. Okrem syntézy hlasu má funkcie TTS, čítačky webu a rozpoznávanie reči. Skúsiť môžete demo a meniť hlasy – napr. Obamu, Schwarzeneggera či Johanssonovú.
Real-Time voice cloning
Tento open-source projekt je zadarmo na GitHube. Vie nasimulovať hlas človeka už z päťsekundového záznamu. Vyžaduje však aspoň stredne pokročilé technické zručnosti.
Speechify – jednoduchá alternatíva TTS k deepfake hlasom
Prevod textu na reč (TTS) aplikácie ako Speechify aj deepfake generátory pracujú s podobnými technológiami, ale slúžia na iné účely. Speechify je TTS/ čítačka na čítanie ľubovoľného textu. Stačí nahrať Word, článok alebo prepis a vybrať preferovaný hlas narátora a Speechify text prečíta nahlas.
Program ponúka široký výber kvalitných mužských aj ženských hlasov a podporuje viac ako 20 jazykov, vrátane angličtiny, španielčiny, francúzštiny, taliančiny a portugalčiny. Ak chcete zvýšiť produktivitu a počuť celebritný hlas, skúste Gwyneth Paltrow v Speechify.
Stiahnite si program do počítača, iPhone alebo Android zariadenia a vyskúšajte Speechify zdarma už dnes.
FAQ
Je FakeYou zdarma?
FakeYou je jednoduchý a bezplatný program na tvorbu prirodzene znejúcich hlasov.
Ako spoznáte deepfake hlas?
Odhalenie deepfaku bez špeciálneho softvéru je náročné. Kyberbezpečnostné firmy preto využívajú hlasové biometrické systémy na prevenciu podvodov.
Aké sú riziká deepfake hlasov?
Deepfake hlasy môžu slúžiť na šírenie dezinformácií, poškodenie povesťi a oslabenie dôvery v inštitúcie alebo jednotlivcov.

