Veus deepfake i text a veu

Gràcies als avenços de la intel·ligència artificial (IA) i l'aprenentatge profund, ara podem crear contingut sintètic realista d'alta qualitat. Aquesta tecnologia ha obert pas a moltes noves aplicacions creatives i impacta nombrosos sectors. Una d’aquestes és el deepfake, també conegut com a veus sintètiques i clonació de veu.

Què són les veus deepfake?

Deepfake fa referència a contingut digital sintètic, també conegut com a clonació de veu. Amb IA, es poden crear vídeos on es canvia la cara d’una persona o fer dir a algú coses que mai ha pronunciat, cosa que també es coneix com clonació de veu. Imagina poder fer dir el que vulguis amb la veu de l’Arnold Schwarzenegger.

El procés requereix programari especial per analitzar cares, processar àudio de textos i modelar el moviment de la boca en 3D.

Hi ha aplicacions avançades d’aquesta tecnologia, i la clonació de veu n’és una. Gairebé tothom ha vist algun escàndol deepfake. Recentment s’ha estrenat un documental pòstum sobre Tony Bourdain que va sorprendre el públic perquè ell seguia narrant en

Startups tecnològiques van ajudar la productora a recrear la veu de Bourdain per donar realisme al relat. Malgrat l’èxit, hi ha dilemes ètics. Ara només cal un ordinador amb el programari adequat per crear vídeos o àudios manipulats sobre qualsevol persona.

Com es fan exactament els deepfakes?

Primer, es recullen prou mostres de veu: posts de xarxes, trucades, tele, etc. Després, el programari amb IA combina les mostres per crear una veu falsa.

Aquest és un resum d’un procés complex, però al final les eines d’IA aprofiten aquestes dades per generar veus naturals que poden llegir text digital. Per això, els deepfakes estan molt relacionats amb el text a veu (TTS).

La integració de veus deepfake en text a veu

Els usuaris poden modificar paràmetres com el to, l'edat i l’accent mitjançant tecnologia de veu deepfake integrada en sistemes TTS. Es poden crear veus sintetitzades personalitzades, útils per a persones amb dificultats de parla. Aquesta personalització millora la comunicació i la qualitat de vida.

Amb veus deepfake es creen continguts d’àudio més atractius, generant més seguiment i fidelitat per als creadors. Són útils per fer veus de narradors o famosos, sobretot en audiollibres o podcasts, on l’àudio té un gran impacte en l’oient.

Tanmateix, la utilització de veus deepfake en sistemes TTS planteja problemes ètics. Aquestes veus poden servir per manipular o suplantar, enganyant persones sense el seu coneixement ni consentiment. S’ha de regular i posar-hi límits per garantir el bon ús d’aquesta tecnologia.

La integració de veus deepfake en TTS ofereix síntesi de veu personalitzada i atractiva. Pot canviar com interactuem amb la parla generada, fent-la més accessible i satisfactòria, sempre tenint en compte l’ètica.

Avantatges

Els deepfakes tenen també aspectes positius. El vídeo “This Is Not Morgan Freeman” del 2021 va mostrar com la tecnologia augmentada pot ser útil.

Les imatges van evidenciar que, entrenant la IA amb àudio i vídeos, es pot imitar l’actor fins i tot en moviments i veu. Tot i els dilemes ètics, pot ser molt valuós per a perfils com l’actor Val Kilmer.

Malgrat el càncer de gola que li va fer perdre la veu, molts creien que la carrera de Kilmer havia acabat. Al documental d’Amazon Prime, s’explica que el seu fill li posava veu en nous papers.

No obstant això, en col·laboració amb Sonantic —una startup que modela veus—, Kilmer va recuperar la seva veu. Amb aquesta tecnologia, es va poder sentir la seva veu a la pel·lícula Top Gun: Maverick.

Inconvenients

L'aprenentatge automàtic pot replicar la veu d’algú a llocs com Nova York, on adopten ràpidament la tecnologia. Això fa que sigui més fàcil que algú reveli informació personal i acabi caient en estafes o enganys telefònics.

Preocupacions ètiques sobre la tecnologia deepfake

L'ús de veus deepfake i de text a veu genera qüestions ètiques. Els avenços tecnològics poden tenir efectes negatius. Per exemple, la veu d’IA d’Arnold Schwarzenegger sembla tan natural que pot enganyar qualsevol, provocant desconfiança i dubtes.

Quan la societat adopta una nova tecnologia, cal tenir present els perills. Els deepfakes poden enganyar i influir en les persones mitjançant la veu. Això pot comprometre la confiança pública i la privacitat.

Un gran problema és l'ús il·lícit dels deepfakes. Encara més perillosa és la veu sintètica per a estafes telefòniques o desinformació. Si reps una trucada d’una veu que sembla del teu entorn, pot ser només una enganyifa. La manipulació pot tenir conseqüències greus per a persones, comunitats o països.

Reduir l’impacte de l’ús indegut de veus deepfake

Cal regular i educar per reduir aquest risc. Les veus deepfake s'haurien de fer servir amb criteri i amb directrius per part de governs i empreses tecnològiques. Ja hi ha mesures per identificar i combatre l’ús il·lícit de veus sintètiques, i cal educar sobre el seu mal ús.

També cal usar la innovació amb mesura, sense traspassar límits amb deepfake i text a veu. La tecnologia promet molt, però cal transparència i responsabilitat. Informar els usuaris sobre la síntesi de veu és essencial per saber què és real i què és fals.

Legalitat i privacitat en les veus deepfake

La legalitat i la privacitat també importen amb les veus deepfake. Sorgeixen preguntes sobre la propietat i l’ús no autoritzat de veus sintetitzades. Cal establir normes clares per protegir els drets de les persones i garantir l’ús responsable de la tecnologia.

A l’hora d’afrontar les qüestions ètiques de les veus deepfake, cal obrir un debat ampli. Ètics, legisladors, tècnics i societat han de trobar solucions i definir el futur d’aquesta tecnologia perquè beneficiï tothom.

Imagina rebre una trucada amb la veu d’un amic o familiar, però és falsa i busca enganyar-te. Això pot perjudicar persones, col·lectius i fins i tot països. Hi ha molts usos per a veus deepfake, des d'aplicacions divertides amb la veu d'una celebritat fins a usos més seriosos que poden enganyar.

La necessitat de regulació per un ús ètic de les veus deepfake

Per protegir la gent, calen normes clares i educació sobre les veus deepfake. Governs i empreses han de col·laborar per definir-ne el bon ús i trobar maneres de detectar i aturar les veus falses nocives.

Fent servir veus deepfake, cal actuar amb responsabilitat i ètica. Tot i que aquestes eines són molt interessants, s’han d'utilitzar amb honestedat. Les persones han de saber quan una veu és generada per ordinador per poder-ne valorar la fiabilitat.

Parlar dels problemes de les veus deepfake és clau. Tant experts com usuaris han d’aportar les seves opinions. Això ajudarà a fer-ne un ús positiu per a tothom.

Per sort, a mesura que els programes de veu millorin, també millorarà la detecció de veus falses. Les empreses creen eines per identificar les veus deepfake. Això ajudarà bancs o call centers de Nova York a assegurar que parlen amb persones reals i no amb màquines que volen enganyar.

Programari de veu deepfake per provar

Eines d’aprenentatge automàtic poden millorar la vida de moltes persones i potser voldràs provar de crear un deepfake d’àudio. Tot i que cal bon maquinari per obtenir qualitat, hi ha programes per generar veus naturals. Aquí tens cinc generadors de veu deepfake que pots provar:

Resemble

Resemble AI és una eina de text a veu i creació deepfake que genera veus humanes amb poca informació. Amb uns cinc minuts d’àudio pots crear el teu primer deepfake.

Prova la funció de mostra i grava’t: en pocs minuts, escoltaràs una veu familiar. Els usuaris valoren la interfície senzilla i poden ajustar la entonació de la veu resultant.

Descript

Aquest sintetitzador de veu té opcions potents d’edició. Analitza gravacions, vídeos i transcripcions per generar veus d’IA. Si la qualitat no t’agrada, pots editar directament des de l’app sense repetir la gravació.

Descript vol ajudar creadors a fer veus per a podcast i vídeo. Té moltes veus predefinides per experimentar i descobrir tot el que permet Descript.

ReSpeecher

ReSpeecher és una eina deepfake fiable: va ajudar a recrear la veu de Luke Skywalker a The Mandalorian. Serveix tant per a cinema i televisió com per fer narracions per a anuncis, animacions, videojocs, podcasts i més.

iSpeech

iSpeech es pot instal·lar a l’ordinador o utilitzar-lo en línia. L’app inclou veu sintetitzada, text a veu, lector web i reconeixement de veu. Pots provar el demo i experimentar amb les veus de Barrack Obama, Arnold Schwarzenegger o Scarlett Johansson.

Clonació de veu en temps real

Aquest projecte de codi obert és gratuït a GitHub. Amb només cinc segons d’àudio pot sintetitzar una veu. Ara bé, requereix coneixements tècnics de nivell mitjà o avançat.

Speechify – l’alternativa fàcil d’usar al text a veu respecte a les veus deepfake

Les apps de text a veu (TTS) com Speechify i els generadors deepfake són tecnologies similars, però tenen usos diferents. Speechify és una eina TTS o de lectura en veu alta que pot llegir textos digitals o impresos. Només cal importar el document i triar la veu preferida, i Speechify llegirà el contingut.

El programa ofereix una àmplia selecció de veus masculines i femenines i suporta més de 20 idiomes, com ara anglès, espanyol, francès, italià o portuguès. Si vols ser més productiu i sentir llegir a una celebritat, prova la veu de Gwyneth Paltrow a Speechify.

Descarrega el programa a l’ordinador, iPhone o Android iprova Speechify gratis avui.

Preguntes freqüents

FakeYou és gratuït?

FakeYou és gratuït i fàcil d’usar: crea veus amb so natural sense cap cost.

Com pots saber si una veu és deepfake?

Detectar deepfakes pot ser complicat sense software avançat. Empreses de ciberseguretat fan servir sistemes biomètrics per evitar fraus.

Quins són alguns dels perills de les veus deepfake?

Els deepfakes poden tenir usos maliciosos, propagar desinformació, destruir reputacions i generar desconfiança en institucions públiques.

Speechify és la plataforma líder mundial de text a veu, de confiança per a més de 50 milions d'usuaris i avalada per més de 500.000 ressenyes de cinc estrelles a les seves aplicacions de text a veu per a iOS, Android, Extensió de Chrome, aplicació web i aplicació per a Mac. El 2025, Apple va premiar Speechify amb el prestigiós Premi de Disseny Apple a la WWDC, qualificant-lo com “una eina essencial que ajuda la gent a viure la seva vida.” Speechify ofereix més de 1.000 veus naturals en més de 60 idiomes i s'utilitza a gairebé 200 països. Entre les veus de celebritats hi trobem Snoop Dogg i Gwyneth Paltrow. Per a creadors i empreses, Speechify Studio proporciona eines avançades com Generador de veu IA, Clonació de veus IA, Doblatge IA i el seu Canviador de veu IA. Speechify també impulsa productes líders amb la seva API de text a veu, d'alta qualitat i amb una relació qualitat-preu òptima API de text a veu. Present en The Wall Street Journal, CNBC, Forbes, TechCrunch i altres mitjans destacats, Speechify és el proveïdor de text a veu més gran del món. Visiteu speechify.com/news, speechify.com/blog i speechify.com/press per saber-ne més.

Veus deepfake: com la IA està transformant la tecnologia de la veu

Cliff Weitzman

El generador de veu amb IA n.º 1.
Crea enregistraments de veu
amb qualitat humana en temps real.

Veus deepfake i text a veu

Què són les veus deepfake?

Com es fan exactament els deepfakes?