¿Qué es Microsoft VALL-E?

La tecnología de texto a voz ha avanzado a pasos agigantados, especialmente en los últimos años. Impulsada por mejoras en la inteligencia artificial, la TTS actual puede ofrecer lecturas de alta calidad que imitan el habla humana.

VALL-E de Microsoft es la última solución tecnológica que puede hacer que el texto a voz suene sorprendentemente real. Es un modelo de lenguaje de códec neuronal basado en aprendizaje automático de cero disparos.

Si esa última frase suena como jerga de ciencia ficción, no te preocupes. Desglosaremos los conceptos complejos detrás de VALL-E en el artículo a continuación.

Explicación de Microsoft VALL-E

Los modelos de IA están creciendo en poder a un ritmo rápido. A estas alturas, todos conocen ChatGPT de OpenAI, que podría ser lo más cercano que hemos llegado a que la IA parezca una persona real. Y probablemente hayas visto algunas obras de arte impulsadas por IA del motor DALL-E.

Además de startups como OpenAI, empresas globales como Microsoft han sido actores importantes en el ámbito de la IA.

Los investigadores de Microsoft han estado trabajando recientemente en avances para la síntesis de texto a voz. VALL-E representa precisamente eso.

La nueva IA probablemente será un cambio de juego en el panorama de TTS porque puede generar un habla que suena humana basándose en una pequeña muestra de audio. Una indicación acústica de tres segundos es suficiente para que VALL-E capte los patrones específicos del hablante.

Después de recibir la indicación del hablante, la IA puede imitar la voz humana e incluso simular su tono emocional. Igualmente impresionante, VALL-E preserva el entorno acústico del hablante no visto.

En pocas palabras, el modelo VALL-E sobresale en la similitud del hablante. Puedes escucharlo en acción en GitHub, donde Microsoft compartió ejemplos de audio junto con una explicación detallada de la IA.

Por supuesto, tal tecnología tiene muchos usos potenciales, como crear podcasts y audiolibros. El potencial puede crecer aún más a medida que VALL-E se combine con modelos generativos como GPT-3.

Pero la tecnología como VALL-E también podría usarse para propósitos más nefastos.

Dado que VALL-E puede sonar inquietantemente como una persona real, es fácil ver cómo actores malintencionados podrían utilizar la tecnología para estafas como deepfakes dañinos no consensuados. Tales posibilidades llevaron a Microsoft a emitir una declaración de ética.

En la declaración, la empresa aboga por modelos específicos de edición de voz que garantizarían el consentimiento del hablante original.

Pero las controversias en torno a los posibles usos de VALL-E son una consideración para el futuro. Por ahora, hay una pregunta más emocionante sobre la mesa:

¿Cómo replica la IA patrones complejos con solo un audio de tres segundos como muestra base?

No es sorprendente que la respuesta sea bastante compleja.

VALL-E tuvo datos de entrenamiento extensos, consistentes en miles de horas de habla en inglés. Esto preparó a la IA para una simulación fluida del habla en inglés. Sin embargo, VALL-E no es tu sistema TTS común y corriente: está impulsado por tecnología de aprendizaje automático de vanguardia.

Ya hemos mencionado el nombre de la tecnología: modelo de lenguaje de códec neuronal de cero disparos. Veamos qué significan esos términos en la práctica.

Entendiendo los modelos de lenguaje de códec neuronal de cero disparos

Comenzando con el término más sencillo, “cero disparos” se refiere a una tecnología específica para motores de texto a voz. Permite la generación de habla por IA basada en datos previamente desconocidos. En otras palabras, la computadora puede leer en voz alta texto que nunca ha “visto” antes.

Más impresionante aún, la tecnología de cero disparos permite que la máquina produzca lecturas sin entrenamiento adicional. Esencialmente, es similar a cómo los humanos pueden leer un texto desconocido en un idioma que ya conocen.

Pasando a la parte complicada, el “modelo de lenguaje de códec neuronal” requiere un desglose adicional.

Los motores TTS dependen de códecs de audio para crear formas de onda basadas en texto escrito. El códec ayuda a la IA a traducir letras, palabras y oraciones escritas en sonidos correspondientes. Un códec neuronal cumple el mismo propósito pero se basa en una robusta red neuronal.

Por supuesto, esto plantea una pregunta adicional: ¿Qué es una red neuronal?

Lo explicaremos aquí de manera general sin profundizar aún más. Una red neuronal intenta imitar cómo funciona el cerebro humano. La red consta de neuronas artificiales llamadas nodos, que están conectadas y organizadas en capas.

La estructura compleja permite el llamado aprendizaje profundo, haciendo que la máquina sea más capaz de desarrollar y adaptar patrones desconocidos.

El códec neuronal impulsa el modelo de lenguaje, la otra parte de esta ecuación de texto a voz.

El modelo de lenguaje utiliza un conjunto de datos para comprender cualquier texto en el contexto de un idioma real. En otras palabras, así es como la máquina "entiende" el texto.

En el caso de VALL-E, LibriLight, una biblioteca de audio compilada por Meta de Facebook, sirvió como la base del modelo de lenguaje de la IA.

Escucha la tecnología TTS de vanguardia en acción con Speechify

Aunque VALL-E aún no está disponible para el público, puedes escuchar cómo suena un avanzado motor de texto a voz con Speechify. Speechify es un servicio TTS que puede leer en voz alta texto de prácticamente cualquier fuente.

Ya sea que le des texto escrito, contenido web o una página escaneada, Speechify lo leerá al instante. Aún mejor, el motor cuenta con voces de narración que suenan naturales. A diferencia de los típicos motores TTS robóticos, Speechify suena más como un humano que como una máquina.

Además, puedes ajustar cómo lee Speechify. Elige tu idioma preferido, narrador y velocidad de lectura, y escucha cualquier texto exactamente como desees.

Si todo esto te suena emocionante, puedes probar Speechify gratis hoy mismo.

Preguntas Frecuentes

¿Pueden las personas usar Vall-E?

Existen muchas preocupaciones sobre cómo podría abusarse de VALL-E. El robo de identidad es una posibilidad particularmente preocupante. Por esa razón, Microsoft ha optado por no hacer VALL-E disponible al público.

¿Qué es Microsoft AI?

Microsoft AI no es un producto en particular. En cambio, el programa de la compañía sirve como un marco de desarrollo de IA. Microsoft AI incluye soluciones de ciencia de datos, IA conversacional, robótica, aprendizaje automático y otros avances en la industria.

¿Qué es una interfaz controlada por voz?

Una interfaz controlada por voz es exactamente lo que parece: una interfaz de usuario con la que interactúas mediante comandos de voz. Esta tecnología ya es común en dispositivos inteligentes, como Alexa de Amazon, Siri de Apple, Cortana de Microsoft o el Asistente de Google.

¿Qué es un robot?

El término "robot" denota cualquier máquina que opera automáticamente. Estas máquinas están diseñadas para reemplazar el trabajo humano. A pesar de la representación típica en los medios populares, la mayoría de los robots no tienen apariencia humanoide. De hecho, podrían no tener una forma física. Por ejemplo, los asistentes virtuales populares de hoy también cuentan como robots.

Speechify es la plataforma líder mundial de texto a voz, en la que confían más de 50 millones de usuarios y que cuenta con más de 500.000 reseñas de cinco estrellas en sus aplicaciones de texto a voz para iOS, Android, extensión de Chrome, aplicación web y aplicaciones de escritorio para Mac. En 2025, Apple concedió a Speechify el prestigioso Apple Design Award en la WWDC, describiéndolo como “un recurso fundamental que ayuda a las personas a vivir mejor”. Speechify ofrece más de 1.000 voces naturales en más de 60 idiomas y se utiliza en casi 200 países. Entre sus voces de celebridades destacan Snoop Dogg y Gwyneth Paltrow. Para creadores y empresas, Speechify Studio proporciona herramientas avanzadas, como su generador de voz con IA, clonación de voz con IA, doblaje con IA y su modificador de voz con IA. Speechify también impulsa productos líderes con su API de texto a voz de alta calidad y bajo costo. Destacado en The Wall Street Journal, CNBC, Forbes, TechCrunch y otros medios de comunicación de referencia, Speechify es el mayor proveedor de texto a voz del mundo. Visita speechify.com/news, speechify.com/blog y speechify.com/press para saber más.

¿Qué es Microsoft VALL-E?

Cliff Weitzman

Speechify, tu asistente de voz con IA.
Texto a voz. Dictado por voz. Respuestas rápidas.

Explicación de Microsoft VALL-E

Entendiendo los modelos de lenguaje de códec neuronal de cero disparos

Escucha la tecnología TTS de vanguardia en acción con Speechify