Hlasové deepfaky: jak AI mění hlasovou technologii
Hledáte náš čtečku textu na řeč?
Uváděno v
Slyšeli jste o hlasových deepfakech, ale co to vlastně je? Tento průvodce vám poskytne všechny potřebné informace o této AI technologii a jak se srovnává s TTS.
Hlasové deepfaky a převod textu na řeč
Díky pokrokům v umělé inteligenci (AI) a hlubokém učení mohou lidé nyní vytvářet vysoce kvalitní a realistická syntetická média. Tato technologie otevřela dveře mnoha novým kreativním technologiím ovlivňujícím mnoho odvětví. Jednou z těchto technologií jsou deepfaky, také známé jako syntetické hlasy a klonování hlasu.
Co jsou hlasové deepfaky?
Deepfake znamená syntetická média, také známá jako klonování hlasu. S pomocí AI je možné generovat video deepfaky, které zamění něčí vzhled s jinou osobou na obrazovce nebo přimějí někoho říkat něco, co by nikdy neřekl, což je populárně označováno jako klonování hlasu. Představte si, že byste mohli mít hlas Arnolda Schwarzeneggera, který opakuje, co chcete.
Proces vyžaduje speciální software pro analýzu tváří, zpracování hlasu z textových skriptů a modelování pohybu úst ve třírozměrném prostoru.
Existují pokročilé využití této technologie, ale klonování hlasu je jedním z nich. Téměř každý, i když není technický nadšenec, se setkal s nějakým skandálem s deepfakem. Nedávno byl však vydán posmrtný dokument o Tonym Bourdainovi, který překvapil publikum, protože byl stále schopen vyprávět v
IT start-upy pomohly produkční společnosti znovu vytvořit Bourdainův hlas, aby dodaly příběhu dotek reality. Není pochyb, že je to velký úspěch, ale má mnoho morálních otázek. Koneckonců, stačí mít počítač s potřebným softwarem, aby někdo mohl vytvořit upravené záběry nebo zpochybňující zvuk o jakékoli jiné osobě.
Jak přesně se deepfaky vytvářejí?
Nejprve shromáždíte dostatek vzorků něčího hlasu. Vstupy mohou pocházet z příspěvků na sociálních sítích, nahraných telefonních hovorů, televize atd. Poté software běžící na AI algoritmech kombinuje vzorky k vytvoření falešného hlasu.
Toto je základní přehled složitého procesu, ale nakonec AI nástroje využívají shromážděná data k vytvoření přirozeně znějících hlasů, které mohou číst digitální text. Z tohoto důvodu jsou deepfaky úzce spjaty s technologií převodu textu na řeč (TTS).
Integrace deepfake hlasů do převodu textu na řeč
Uživatelé mohou manipulovat s vlastnostmi, jako je výška tónu, věk a přízvuk, pomocí technologie deepfake hlasů integrované do systémů převodu textu na řeč. Takoví lidé mohou dokonce vyvinout syntetizované hlasy, které se podobají jejich požadovanému tónu a stylu, například v případě hlasového postižení. Taková personalizace výrazně zlepší jejich schopnost komunikace a kvalitu života obecně.
Pomocí deepfake hlasů vytvářejí atraktivnější zvukový obsah, který přitahuje sledující a loajalitu pro tvůrce obsahu. Využívají deepfake hlasy, které znějí jako hlasy známých vypravěčů nebo hvězd, aby přitáhli a fascinovali posluchače. To je obzvláště cenné pro multimediální obsah, jako jsou audioknihy, podcasty, kde má zvuk velký vliv na vyvolání pocitů a zapojení publika.
Nicméně použití deepfake hlasů pro začlenění do systémů TTS představuje několik morálních problémů. Deepfake hlasy jsou schopny manipulace a napodobování—mohou klamat lidi, kteří nejsou schopni dát souhlas s takovými činy. To poukazuje na potřebu pevných kontrol a předpisů podporujících správné a morální použití této technologie.
Nakonec začlenění deepfake hlasů do systémů převodu textu na řeč představuje příležitost pro individualizovanou a poutavou syntézu hlasu. Tato technologie může výrazně změnit naši interakci s generovanou řečí způsobem, který ji učiní přístupnější a zlepší celkovou spokojenost uživatelů s ohledem na etické otázky.
Výhody
Deepfaky obsahují několik pozitivních prvků. Deepfake video „Toto není Morgan Freeman“ z roku 2021 ukázalo, jak by mohla mít rozšířená technologie své využití.
Obrázky ukázaly, že trénováním AI s audio nahrávkami a filmovými klipy bylo možné vytvořit napodobení herce včetně imitace jeho pohybů, vzhledu a řeči. Jak jsme poukázali, má to své etické problémy, ale může to být neocenitelné pro osobu, jako je herec Val Kilmer.
I když Kilmer dostal rakovinu hrdla, která ho připravila o hlas, někteří lidé věřili, že to znamená konec jeho kariéry v Hollywoodu. V dokumentu Prime Voice na Amazon Prime o Kilmerovi bylo odhaleno, že hercův syn mu poskytoval dabing při hraní nových rolí.
Nicméně, když se Kilmer spojil se Sonantic—IT startupem zaměřeným na modelování hlasu, nakonec získal svůj hlas zpět. Pomocí technologie deepfake společnost znovu vytvořila Kilmerův hlas a diváci mohli slyšet úžasné výsledky v nedávno vydaném filmu Top Gun: Maverick.
Nevýhody
Strojové učení může replikovat něčí hlas na místech, jako je New York, kde se technologie rychle přijímá. To usnadňuje jednotlivcům odhalit své osobní informace a padnout do pasti falešných nebo podvodných hovorů.
Etické obavy ohledně technologie Deepfake
Existují některé etické otázky týkající se použití deepfake hlasů a deepfake textu na řeč. Jak přicházejí další technologické pokroky, existují potenciální překážky. Deepfake hlasy Arnolda Schwarzeneggera, například, jsou tak přirozené, že klamou lidi. To může způsobit podezření na cokoliv slyšeného a pochybnosti o sobě samém.
Jak společnost přijímá jakoukoli formu nové technologie, musí dvakrát přemýšlet o nebezpečích, která s sebou přináší. Deepfakes mohou klamat a ovlivňovat lidi prostřednictvím jejich hlasů. Je tedy rozumné se obávat, protože to může ohrozit důvěru veřejnosti a narušit práva na soukromí.
Hlavně je naléhavý problém, pokud jde o použití deepfakes. Ještě nebezpečnější je použití syntetických hlasů při telefonních podvodech a dezinformačních kampaních, které jsou široce rozšířené. Představte si, že dostanete neznámý hovor, ale něčí hlas zní velmi povědomě. Můžete tento hlas rozpoznat jako svého blízkého přítele, člena rodiny nebo partnera. Ale téměř okamžitě by se ukázalo, že je to jen podvod. Manipulace může způsobit extrémně nepříznivé účinky, které mohou ovlivnit lidi, celé komunity nebo státy.
Snížení dopadu nesprávného použití deepfake hlasů
Aby se snížila tato hrozba, jsou nezbytné silné regulační a vzdělávací programy pro uživatele. Deepfake hlasy je třeba používat uvážlivě a měly by být stanoveny pokyny vládami a technologickými společnostmi, které spolupracují. Byla vyvinuta účinná opatření k identifikaci a boji proti nezákonnému použití technologie syntetických hlasů; to také zahrnuje vzdělávání uživatelů o této skutečnosti, protože technologie syntetických hlasů může být použita pro zlovolné účely.
Kromě toho je třeba pečlivě zvážit, jak být inovativní, ale nepřekračovat hranice při používání deepfake hlasů a technologie textu na řeč. Vývoj v technologii je jistě slibný, ale je třeba zajistit transparentnost a řádnou odpovědnost při jejich používání. Je důležité informovat uživatele o syntéze hlasu, protože jim to umožňuje lépe rozpoznat, co je skutečné a co je falešné.
Právní a soukromí ohledně deepfake hlasů
Právní a soukromí úvahy také hrají roli, pokud jde o deepfake hlasy. Vznikají otázky ohledně vlastnictví syntetizovaných hlasů a potenciálu pro neoprávněné použití. Je třeba stanovit jasné pokyny k navigaci v těchto složitých otázkách, aby byla zajištěna ochrana práv jednotlivců a aby byla technologie používána zodpovědně.
Při zvažování etických otázek týkajících se deepfake hlasů je nezbytné zapojit se do otevřených a inkluzivních diskusí. Etici, politici, technologové a široká veřejnost se musí spojit, aby řešili tyto obavy a formovali budoucnost této technologie způsobem, který prospívá celé společnosti.
Představte si, že dostanete hovor, který zní, jako by byl od přítele nebo člena rodiny, ale ve skutečnosti je to falešný hlas, který se vás snaží oklamat. To může poškodit lidi, komunity a dokonce celé země. Existuje mnoho případů použití deepfake hlasů, od zábavných aplikací, jako je nechat Alexu mluvit hlasem celebrity, až po vážnější použití, které může být zavádějící.
Potřeba regulace pro etické používání deepfake hlasů
Abychom udrželi lidi v bezpečí, potřebujeme silná pravidla a způsoby, jak uživatele učit o těchto falešných hlasech. Vlády a technologické společnosti by měly spolupracovat. Musí vytvořit pravidla o tom, jak správně používat deepfake hlasy. Také musí najít způsoby, jak odhalit a zastavit škodlivé falešné hlasy.
Při používání deepfake hlasů je důležité být opatrný a přemýšlet o tom, co je správné a co špatné. I když jsou tyto nové hlasové nástroje zajímavé, musíme je používat způsobem, který je poctivý. Lidé by měli vědět, kdy je hlas, který slyší, vytvořen počítačem. Tímto způsobem mohou rozhodnout, zda důvěřují tomu, co slyší.
Diskutovat o problémech s deepfake hlasy je důležité. Každý, od odborníků po běžné lidi, by měl sdílet své názory. To nám pomůže používat tuto technologii způsobem, který je prospěšný pro všechny.
Naštěstí, jak se software pro vytváření hlasů zlepšuje, budeme také lepší v rozpoznávání falešných hlasů. Technologické společnosti vyvíjejí nástroje k odhalování a zastavení těchto falešných hlasů. To pomůže místům jako banky a call centra v New Yorku zajistit, že mluví se skutečnými lidmi a ne s počítačovými hlasy, které se je snaží oklamat.
Software pro zkoušení deepfake hlasů
Nástroje strojového učení mohou pozitivně ovlivnit životy mnoha lidí a možná vás zajímá, jak vytvořit audio deepfake. Ačkoli budete potřebovat špičkový hardware a software pro dosažení vysoce kvalitních výsledků, můžete použít několik programů k vytvoření přirozeně znějících hlasů. Zde je pět generátorů deepfake hlasů, které můžete vyzkoušet:
Resemble
Resemble AI je nástroj pro převod textu na řeč a tvorbu deepfake, který vytváří lidské hlasy pomocí omezených dat. S přibližně pěti minutami zvukových nahrávek mohou uživatelé vytvořit svůj první deepfake.
Můžete vyzkoušet funkci vzorku a nahrát do aplikace klipy sebe sama, a během několika minut uslyšíte známý hlas. Uživatelé oceňují snadno použitelný rozhraní Resemble a mohou dokonce upravit intonaci zvukového výstupu.
Descript
Tento působivý syntetizátor řeči se pyšní silnými editačními schopnostmi. Program analyzuje hlasové nahrávky, videoklipy a přepisy k vytvoření hlasů poháněných umělou inteligencí. Pokud nejste spokojeni s kvalitou vstupního materiálu, můžete jej upravit přímo z aplikace—není třeba dělat další záznamy.
Hlavním účelem Descriptu je pomoci tvůrcům obsahu vytvářet vysoce kvalitní voiceovery pro jejich podcasty a videa. Program má nespočet přednastavených hlasů, se kterými můžete experimentovat, abyste se seznámili s možnostmi Descriptu.
ReSpeecher
ReSpeecher je spolehlivé řešení pro deepfake, které pomohlo znovu vytvořit hlas Luka Skywalkera v The Mandalorian. Ačkoli je software vhodný pro filmy a televizní pořady, může být také vynikajícím způsobem, jak vytvořit voiceovery pro reklamy, animace, videohry, podcasty a další.
iSpeech
iSpeech je k dispozici jako desktopový program, ale můžete také vyzkoušet webovou verzi. Kromě syntézy hlasu má aplikace funkce převodu textu na řeč, webového čtenáře a rozpoznávání řeči. Abyste si na software zvykli, můžete vyzkoušet jeden z jeho dem a pohrát si s hlasy Barracka Obamy, Arnolda Schwarzeneggera nebo Scarlett Johansson.
Klonování hlasu v reálném čase
Tento open-source projekt je k dispozici zdarma na GitHubu. Tato komplexní sada nástrojů dokáže syntetizovat hlas osoby s pouhými pěti sekundami zvukového vstupu. Uživatelé však hlásí, že ovládání softwaru vyžaduje střední až pokročilé technické dovednosti.
Speechify – snadno použitelná alternativa převodu textu na řeč k deepfake hlasům
Aplikace pro převod textu na řeč (TTS) jako Speechify a generátory deepfake spoléhají na podobné technologie, ale mají různé účely. Speechify je nástroj TTS nebo nástroj pro hlasité čtení, který dokáže přečíst prakticky jakýkoli tištěný nebo digitální text. Po importu dokumentu Microsoft Word, článku nebo přepisu do aplikace a výběru preferovaného hlasu vypravěče, Speechify přečte obsah nahlas.
Program se pyšní bezkonkurenčním výběrem vysoce kvalitních mužských a ženských hlasů a podporuje více než 20 jazyků, včetně angličtiny, španělštiny, francouzštiny, italštiny a portugalštiny. Pokud chcete zvýšit produktivitu a poslouchat, jak vám čte celebrita, proč nezkusit hlas Gwyneth Paltrow od Speechify?
Stáhněte si program na svůj počítač, iPhone nebo Android zařízení a vyzkoušejte Speechify zdarma ještě dnes.
Často kladené otázky
Je FakeYou zdarma?
FakeYou je uživatelsky přívětivý a bezplatný program, který můžete použít k vytváření přirozeně znějících hlasů.
Jak poznáte, že je hlas deepfake?
Může být obtížné identifikovat deepfakes bez sofistikovaného softwaru. Kyberbezpečnostní společnosti používají systémy hlasové biometrie k prevenci podvodů s deepfake.
Jaká jsou některá nebezpečí deepfake hlasů?
Deepfakes někdy slouží k nekalým účelům a mohou šířit dezinformace, zničit pověst osoby a způsobit nedůvěru v státní instituce.
Cliff Weitzman
Cliff Weitzman je zastáncem dyslexie a CEO a zakladatelem Speechify, nejpopulárnější aplikace pro převod textu na řeč na světě, s více než 100 000 pětihvězdičkovými recenzemi a první příčkou v App Store v kategorii Zprávy a časopisy. V roce 2017 byl Weitzman zařazen na seznam Forbes 30 pod 30 za svou práci na zpřístupnění internetu lidem s poruchami učení. Cliff Weitzman byl uveden v EdSurge, Inc., PC Mag, Entrepreneur, Mashable a dalších předních médiích.