Social Proof

¿Qué es Microsoft VALL-E?

Speechify es el lector de audio número 1 del mundo. Lee libros, documentos, artículos, PDFs, correos electrónicos - cualquier cosa que leas - más rápido.

Destacado en

forbes logocbs logotime magazine logonew york times logowall street logo
¡Escucha este artículo con Speechify!
Speechify

Microsoft VALL-E representa el último avance tecnológico que puede impulsar TTS con un sonido completamente natural. Aquí tienes un desglose detallado de la tecnología.

La tecnología de texto a voz ha avanzado a pasos agigantados, especialmente en los últimos años. Impulsada por mejoras en la inteligencia artificial, la TTS actual puede ofrecer lecturas de alta calidad que imitan el habla humana.

VALL-E de Microsoft es la última solución tecnológica que puede hacer que el texto a voz suene sorprendentemente real. Es un modelo de lenguaje de códec neuronal basado en aprendizaje automático de cero disparos.

Si esa última frase suena como jerga de ciencia ficción, no te preocupes. Desglosaremos los conceptos complejos detrás de VALL-E en el artículo a continuación.

Explicación de Microsoft VALL-E

Los modelos de IA están creciendo en poder a un ritmo rápido. A estas alturas, todos conocen ChatGPT de OpenAI, que podría ser lo más cercano que hemos llegado a que la IA parezca una persona real. Y probablemente hayas visto algunas obras de arte impulsadas por IA del motor DALL-E.

Además de startups como OpenAI, empresas globales como Microsoft han sido actores importantes en el ámbito de la IA.

Los investigadores de Microsoft han estado trabajando recientemente en avances para la síntesis de texto a voz. VALL-E representa precisamente eso.

La nueva IA probablemente será un cambio de juego en el panorama de TTS porque puede generar un habla que suena humana basándose en una pequeña muestra de audio. Una indicación acústica de tres segundos es suficiente para que VALL-E capte los patrones específicos del hablante.

Después de recibir la indicación del hablante, la IA puede imitar la voz humana e incluso simular su tono emocional. Igualmente impresionante, VALL-E preserva el entorno acústico del hablante no visto.

En pocas palabras, el modelo VALL-E sobresale en la similitud del hablante. Puedes escucharlo en acción en GitHub, donde Microsoft compartió ejemplos de audio junto con una explicación detallada de la IA.

Por supuesto, tal tecnología tiene muchos usos potenciales, como crear podcasts y audiolibros. El potencial puede crecer aún más a medida que VALL-E se combine con modelos generativos como GPT-3.

Pero la tecnología como VALL-E también podría usarse para propósitos más nefastos.

Dado que VALL-E puede sonar inquietantemente como una persona real, es fácil ver cómo actores malintencionados podrían utilizar la tecnología para estafas como deepfakes dañinos no consensuados. Tales posibilidades llevaron a Microsoft a emitir una declaración de ética.

En la declaración, la empresa aboga por modelos específicos de edición de voz que garantizarían el consentimiento del hablante original.

Pero las controversias en torno a los posibles usos de VALL-E son una consideración para el futuro. Por ahora, hay una pregunta más emocionante sobre la mesa:

¿Cómo replica la IA patrones complejos con solo un audio de tres segundos como muestra base?

No es sorprendente que la respuesta sea bastante compleja.

VALL-E tuvo datos de entrenamiento extensos, consistentes en miles de horas de habla en inglés. Esto preparó a la IA para una simulación fluida del habla en inglés. Sin embargo, VALL-E no es tu sistema TTS común y corriente: está impulsado por tecnología de aprendizaje automático de vanguardia.

Ya hemos mencionado el nombre de la tecnología: modelo de lenguaje de códec neuronal de cero disparos. Veamos qué significan esos términos en la práctica.

Entendiendo los modelos de lenguaje de códec neuronal de cero disparos

Comenzando con el término más sencillo, “cero disparos” se refiere a una tecnología específica para motores de texto a voz. Permite la generación de habla por IA basada en datos previamente desconocidos. En otras palabras, la computadora puede leer en voz alta texto que nunca ha “visto” antes.

Más impresionante aún, la tecnología de cero disparos permite que la máquina produzca lecturas sin entrenamiento adicional. Esencialmente, es similar a cómo los humanos pueden leer un texto desconocido en un idioma que ya conocen.

Pasando a la parte complicada, el “modelo de lenguaje de códec neuronal” requiere un desglose adicional.

Los motores TTS dependen de códecs de audio para crear formas de onda basadas en texto escrito. El códec ayuda a la IA a traducir letras, palabras y oraciones escritas en sonidos correspondientes. Un códec neuronal cumple el mismo propósito pero se basa en una robusta red neuronal.

Por supuesto, esto plantea una pregunta adicional: ¿Qué es una red neuronal?

Lo explicaremos aquí de manera general sin profundizar aún más. Una red neuronal intenta imitar cómo funciona el cerebro humano. La red consta de neuronas artificiales llamadas nodos, que están conectadas y organizadas en capas.

La estructura compleja permite el llamado aprendizaje profundo, haciendo que la máquina sea más capaz de desarrollar y adaptar patrones desconocidos.

El códec neuronal impulsa el modelo de lenguaje, la otra parte de esta ecuación de texto a voz.

El modelo de lenguaje utiliza un conjunto de datos para comprender cualquier texto en el contexto de un idioma real. En otras palabras, así es como la máquina "entiende" el texto.

En el caso de VALL-E, LibriLight, una biblioteca de audio compilada por Meta de Facebook, sirvió como la base del modelo de lenguaje de la IA.

Escucha la tecnología TTS de vanguardia en acción con Speechify

Aunque VALL-E aún no está disponible para el público, puedes escuchar cómo suena un avanzado motor de texto a voz con Speechify. Speechify es un servicio TTS que puede leer en voz alta texto de prácticamente cualquier fuente.

Ya sea que le des texto escrito, contenido web o una página escaneada, Speechify lo leerá al instante. Aún mejor, el motor cuenta con voces de narración que suenan naturales. A diferencia de los típicos motores TTS robóticos, Speechify suena más como un humano que como una máquina.

Además, puedes ajustar cómo lee Speechify. Elige tu idioma preferido, narrador y velocidad de lectura, y escucha cualquier texto exactamente como desees.

Si todo esto te suena emocionante, puedes probar Speechify gratis hoy mismo.

Preguntas Frecuentes

¿Pueden las personas usar Vall-E?

Existen muchas preocupaciones sobre cómo podría abusarse de VALL-E. El robo de identidad es una posibilidad particularmente preocupante. Por esa razón, Microsoft ha optado por no hacer VALL-E disponible al público.

¿Qué es Microsoft AI?

Microsoft AI no es un producto en particular. En cambio, el programa de la compañía sirve como un marco de desarrollo de IA. Microsoft AI incluye soluciones de ciencia de datos, IA conversacional, robótica, aprendizaje automático y otros avances en la industria.

¿Qué es una interfaz controlada por voz?

Una interfaz controlada por voz es exactamente lo que parece: una interfaz de usuario con la que interactúas mediante comandos de voz. Esta tecnología ya es común en dispositivos inteligentes, como Alexa de Amazon, Siri de Apple, Cortana de Microsoft o el Asistente de Google.

¿Qué es un robot?

El término "robot" denota cualquier máquina que opera automáticamente. Estas máquinas están diseñadas para reemplazar el trabajo humano. A pesar de la representación típica en los medios populares, la mayoría de los robots no tienen apariencia humanoide. De hecho, podrían no tener una forma física. Por ejemplo, los asistentes virtuales populares de hoy también cuentan como robots.

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman es un defensor de la dislexia y el CEO y fundador de Speechify, la aplicación de texto a voz número uno en el mundo, con más de 100,000 reseñas de 5 estrellas y ocupando el primer lugar en la categoría de Noticias y Revistas de la App Store. En 2017, Weitzman fue incluido en la lista de Forbes 30 menores de 30 por su trabajo haciendo que internet sea más accesible para personas con discapacidades de aprendizaje. Cliff Weitzman ha sido destacado en EdSurge, Inc., PC Mag, Entrepreneur, Mashable, entre otros medios líderes.