Download now

Deepfake voices: cómo la IA está transformando la tecnología de la voz

Table of Contents

Seguro que has oído hablar de las voces falsas, pero ¿qué son exactamente? Esta guía te dirá todo lo que necesitas saber sobre esta tecnología de IA y cómo se compara con el TTS.

Voces falsas y conversión de texto a voz

Gracias a los avances en inteligencia artificial (IA) y aprendizaje profundo, ahora se pueden crear medios sintéticos realistas y de alta calidad. Esta tecnología ha abierto las puertas a muchas nuevas tecnologías creativas que afectan a muchos sectores. Una de ellas son los deepfakes, también conocidos como voces sintéticas o clonación de voces.

¿Qué son las voces deepfake?

Deepfake significa medios sintéticos, también conocidos como clonación de voz. Gracias a la IA, los usuarios pueden generar deepfakes de vídeo que cambian el aspecto de alguien por el de otra persona en pantalla o hacen que alguien diga algo que siempre estará en desacuerdo con que haya salido realmente de su boca, lo que se conoce popularmente como clonación de voz. Imagina que puedes hacer que una voz de Arnold Schwarzenegger repita lo que tú quieras.

El proceso requiere un software especial para analizar rostros, procesar la voz a partir de guiones de texto y modelar el movimiento de la boca en un espacio tridimensional.

Esta tecnología tiene algunos usos avanzados, pero la clonación de voz es uno de ellos. Casi todo el mundo, aunque no sea un friki de la tecnología, se ha topado con algún escándalo de deepfake. Sin embargo, recientemente se ha estrenado un documental póstumo sobre Tony Bourdain que ha sorprendido al público, ya que todavía era capaz de narrar en

Las start-ups informáticas ayudaron a la productora a recrear la voz de Bourdin para dar un toque de realidad a la historia. Sin duda, se trata de todo un logro, pero plantea muchas cuestiones morales. Al fin y al cabo, basta un ordenador cargado con el software adecuado para que alguien produzca imágenes trucadas o impugne el sonido de cualquier otra persona.

¿Cómo se hacen exactamente los deepfakes?

En primer lugar, se reúnen suficientes muestras de la voz de alguien. La información puede proceder de publicaciones en redes sociales, llamadas telefónicas grabadas, televisión, etc. A continuación, un software basado en algoritmos de IA combina las muestras para producir una voz falsa.

Este es un resumen básico del complejo proceso, pero al final, las herramientas de IA utilizan los datos recopilados para crear voces que suenen naturales y puedan leer texto digital. Por este motivo, los deepfakes están estrechamente relacionados con la tecnología de conversión de texto a voz (TTS).

Integración de voces falsas profundas en la conversión de texto en voz

Los usuarios pueden manipular características como el tono, la edad y el acento haciendo uso de la tecnología de voz falsa profunda integrada en los sistemas de texto a voz. Estas personas pueden incluso desarrollar voces sintetizadas que se asemejen al tono y estilo que desean, por ejemplo en caso de discapacidad vocal. Esta personalización mejorará enormemente su capacidad de comunicación y su calidad de vida en sentido general.

Utilizando voces falsas profundas, crean contenidos de audio más atractivos que atraen seguidores y fidelizan a los creadores de contenidos. Utilizan voces falsas profundas que suenan como las de narradores o estrellas notables para atraer y fascinar a los oyentes. Es especialmente útil para contenidos multimedia como audiolibros o podcasts, en los que el sonido tiene un gran impacto para evocar sentimientos en la audiencia.

Sin embargo, el uso de voces falsas profundas para incorporarlas a sistemas TTS plantea varios problemas morales. Las voces falsas profundas son capaces de manipular y suplantar la identidad, engañando a personas que no pueden dar su consentimiento para tales actos. Esto apunta a la necesidad de controles firmes y estatutos que promuevan la aplicación correcta y moral de esta tecnología.

Por último, la incorporación de voces falsas profundas a los sistemas de conversión de texto en habla brinda la oportunidad de lograr una síntesis de voz individualizada y atractiva. Esta tecnología puede cambiar enormemente nuestra interacción con el habla generada de forma que la haga más accesible y mejore la satisfacción general de los usuarios, teniendo en cuenta los aspectos éticos.

Pros

Los deepfakes contienen varios elementos positivos. El vídeo deepfake “This Is Not Morgan Freeman” de 2021 demostró que la tecnología aumentada puede tener su utilidad.

Las imágenes mostraban que, entrenando a la IA con grabaciones de audio y los fragmentos de películas, eran capaces de crear una suplantación del actor que incluía imitar sus movimientos, su aspecto y su forma de hablar. Como señalamos, tiene sus problemas éticos, pero puede resultar impagable para una persona como el actor Val Kilmer.

Aunque Kilmer sufrió un cáncer de garganta que le hizo perder la voz, algunos creyeron que era el final de su carrera en Hollywood. En un Prime Voice, en el documental de Amazon Prime sobre Kilmer se reveló que el hijo del actor ponía voz a Kilmer cuando interpretaba nuevos papeles.

Sin embargo, cuando Kilmer se puso en manos de Sonantic -una startup informática que se dedica al modelado de voz-, acabó recuperando su voz. Utilizando tecnología deepfake, la empresa recreó la voz de Kilmer, y el público pudo escuchar los asombrosos resultados en la película Top Gun: Maverick.

Contras

El aprendizaje automático puede replicar la voz de alguien en lugares como Nueva York, que están adoptando rápidamente la tecnología. Esto facilita que las personas revelen su información personal y caigan en la trampa de las llamadas falsas o fraudulentas.

Preocupaciones éticas sobre la tecnología Deepfake

Hay algunas cuestiones éticas en torno al uso de voces falsas profundas y texto a voz falso profundo. A medida que avanza la tecnología, surgen posibles contratiempos. Las voces falsas profundas de la IA de Arnold Schwarzenegger, por ejemplo, son tan naturales que engañan a la gente. Esto puede hacer que se sospeche de todo lo que se oye y se dude de uno mismo.

Cuando la sociedad adopta cualquier forma de nueva tecnología, debe pensar dos veces en los peligros que conlleva. Las falsificaciones profundas pueden engañar e influir en los seres humanos a través de sus voces. Por tanto, es razonable preocuparse, ya que puede comprometer la confianza del público y vulnerar el derecho a la intimidad.

Sobre todo, hay un problema urgente cuando se trata del uso de falsificaciones profundas. Aún más peligroso es el uso de voces sintéticas cuando son utilizadas por estafas telefónicas y campañas de desinformación que se encuentran en una amplia dispersión. Imagínese que recibe una llamada desconocida pero la voz de alguien le resulta muy familiar. Puede que reconozca esa voz como la de un amigo íntimo, un familiar o su novio/novia. Pero, casi inmediatamente después, quedaría claro que sólo se trata de un engaño. La manipulación puede causar efectos extremadamente adversos que pueden afectar a personas, comunidades enteras o estados.

Reducir el impacto del uso indebido de voces falsas graves

Para reducir esta amenaza, son necesarios sólidos programas de regulación y educación de los usuarios. Las voces falsas profundas deben utilizarse con criterio y los gobiernos y las empresas tecnológicas deben establecer directrices en colaboración. Se han desarrollado medidas eficaces para identificar y combatir la aplicación ilícita de la tecnología de voces sintéticas; éstas también implican educar a los usuarios sobre este hecho, ya que la tecnología de voces sintéticas puede utilizarse con fines maliciosos.

Además, pide que se tenga muy en cuenta la necesidad de ser innovador, pero sin traspasar los límites, en el uso de la voz profunda falsa y la tecnología de texto a voz. No cabe duda de que los avances tecnológicos son prometedores, pero su uso debe ser transparente y responsable. Es importante informar a los usuarios de la síntesis de voz porque les permite saber mejor qué información es real y cuál es falsa.

Aspectos jurídicos y de privacidad de las voces falsas

Las consideraciones legales y de privacidad también entran en juego cuando se trata de voces falsas profundas. Surgen dudas sobre la propiedad de las voces sintetizadas y su posible uso no autorizado. Es necesario establecer directrices claras para navegar por estas complejas cuestiones, garantizando la protección de los derechos de las personas y el uso responsable de la tecnología.

Mientras navegamos por las consideraciones éticas que rodean a las voces profundas falsas, es esencial entablar debates abiertos e inclusivos. Los éticos, los responsables políticos, los tecnólogos y el público en general deben unirse para abordar estas preocupaciones y dar forma al futuro de esta tecnología de una manera que beneficie a la sociedad en su conjunto.

Imagínese que recibe una llamada que parece de un amigo o familiar, pero en realidad es una voz falsa que intenta engañarle. Esto puede perjudicar a personas, comunidades e incluso países enteros. Hay muchos casos de uso para las voces falsas profundas, desde aplicaciones divertidas como hacer que Alexa hable con la voz de un famoso hasta usos más serios que pueden ser engañosos.

Necesidad de regulación para que el uso de voces falsas sea ético

Para mantener a salvo a la gente, necesitamos normas estrictas y formas de enseñar a los usuarios sobre estas voces falsas. Los gobiernos y las empresas tecnológicas deben trabajar juntos. Deben establecer normas sobre el uso correcto de las voces falsas profundas. También deben encontrar formas de detectar y detener las voces falsas perjudiciales.

Al utilizar voces falsas profundas, es importante tener cuidado y pensar en lo que está bien y lo que está mal. Aunque estas nuevas herramientas de voz son geniales, tenemos que usarlas de forma honesta. La gente debe saber cuándo una voz que oye está hecha por ordenador. Así pueden decidir si confían en lo que oyen.

Hablar de los problemas de las voces falsas profundas es importante. Todos, desde los expertos hasta la gente corriente, deberían compartir sus opiniones. Esto nos ayudará a utilizar esta tecnología de forma que sea buena para todos.

Por suerte, a medida que mejore el software de creación de voces, también mejoraremos en la detección de voces falsas. Las empresas tecnológicas están creando herramientas para detectar y detener estas voces falsas. Esto ayudará a lugares como bancos y centros de llamadas de Nueva York a asegurarse de que están hablando con personas reales y no con voces de ordenador que intentan engañarles.

Software de voz Deepfake para probar

Las herramientas de aprendizaje automático pueden tener un impacto positivo en la vida de muchas personas y puede que te interese intentar crear un deepfake de audio. Aunque necesitarás hardware y software de última generación para obtener resultados de alta calidad, puedes utilizar varios programas para producir voces que suenen naturales. Aquí tienes cinco generadores de voz deepfake que puedes probar:

Se parece a

Resemble AI es una herramienta de conversión de texto a voz y creación de deepfakes que produce voces humanas utilizando datos limitados. Con aproximadamente cinco minutos de grabaciones de audio, los usuarios pueden crear su primer deepfake.

Puedes probar la función de muestra e introducir en la aplicación clips tuyos y, en pocos minutos, oirás una voz familiar. Los usuarios aprecian la facilidad de uso de la interfaz de Resemble e incluso pueden ajustar la entonación de la salida de audio.

Describa

Este impresionante sintetizador de voz cuenta con potentes funciones de edición. El programa analiza grabaciones de voz, videoclips y transcripciones para generar voces con IA. Si no estás satisfecho con la calidad del material de entrada, puedes editarlo directamente desde la aplicación, sin necesidad de hacer tomas adicionales.

El objetivo principal de Descript es ayudar a los creadores de contenidos a realizar locuciones de alta calidad para sus podcasts y vídeos. El programa cuenta con innumerables voces de archivo con las que puedes experimentar para familiarizarte con las capacidades de Descript.

ReSpeecher

ReSpeecher es una solución de deepfake fiable que ayudó a recrear la voz de Luke Skywalker en The Mandalorian. Aunque el software es adecuado para películas y programas de televisión, también puede ser una forma excelente de hacer doblajes para anuncios, animaciones, videojuegos, podcasts y mucho más.

iSpeech

iSpeech está disponible como programa de escritorio, pero también puedes probar la versión basada en web. Además de sintetizar la voz, la aplicación tiene funciones de texto a voz, lector web y reconocimiento de voz. Para acostumbrarte al software, puedes probar una de sus demos y jugar con las voces de Barrack Obama, Arnold Schwarzenegger o Scarlett Johansson.

Clonación de voz en tiempo real

Este proyecto de código abierto está disponible gratuitamente en GitHub. Esta completa caja de herramientas puede sintetizar la voz de una persona con tan solo cinco segundos de entrada de audio. Sin embargo, los usuarios han informado de que el manejo del software requiere conocimientos técnicos de moderados a avanzados.

Speechify: la alternativa de texto a voz fácil de usar a las voces de deepfake

Las aplicaciones de conversión de texto a voz (TTS ) como Speechify y los generadores de deepfake se basan en tecnologías similares, pero ambas tienen objetivos distintos. Speechify es una herramienta TTS o de lectura en voz alta que puede leer prácticamente cualquier texto impreso o digital. Después de importar un documento de Microsoft Word, un artículo o una transcripción a la aplicación y seleccionar la voz del narrador, Speechify leerá el contenido en voz alta.

El programa cuenta con una selección inigualable de voces masculinas y femeninas de alta calidad y es compatible con más de 20 idiomas, entre ellos inglés, español, francés, italiano y portugués. Si quieres aumentar tu productividad y escuchar a un famoso leyéndote, ¿por qué no pruebas la voz de Gwyneth Paltrow de Speechify?

Descarga el programa en tu ordenador, iPhone o dispositivo Android y prueba Speechify gratis hoy mismo.

PREGUNTAS FRECUENTES

¿Es gratis FakeYou?

FakeYou es un programa fácil de usar y gratuito que puedes utilizar para crear voces que suenen naturales.

¿Cómo saber si una voz es deepfake?

Identificar deepfakes sin un software sofisticado puede resultar complicado. Las empresas de ciberseguridad utilizan sistemas biométricos de voz para evitar el fraude de deepfakes.

¿Cuáles son algunos de los peligros de las voces falsas?

Los deepfakes a veces tienen fines maliciosos y pueden difundir información errónea, arruinar la reputación de una persona y provocar una falta de confianza en las instituciones gubernamentales.

Take the dyslexia quiz and get an instant score. See if you are dyslexic or not.

Listen and share everything on the go with our Soundbites. Try it for yourself.