Què és Microsoft VALL-E?

La tecnologia de text a veu ha avançat molt, sobretot els últims anys. Gràcies a la IA, els TTS d’avui imiten l’expressió humana amb molta qualitat.

VALL-E de Microsoft és la nova solució que fa que el text a veu soni més autèntic que mai. És un model lingüístic neuronal amb aprenentatge automàtic zero-shot.

Si et sonen a termes de ciència-ficció, no et preocupis. T’expliquem els conceptes complexos de VALL-E a continuació.

Microsoft VALL-E, explicat

Els models d’IA evolucionen ràpid. Tothom coneix ChatGPT d’OpenAI, on la IA sembla gairebé humana, o l’art generat amb el motor DALL-E.

A més de startups com OpenAI, empreses com Microsoft també tenen un gran pes en el desenvolupament de la IA.

Els investigadors de Microsoft treballen en avenços en la síntesi de veu, i VALL-E n'és un gran exemple.

Aquesta IA podria revolucionar el TTS, ja que pot imitar una veu humana amb només una mostra petita d’àudio. Tres segons n’hi ha prou perquè VALL-E capti el patró de l’orador.

Amb la mostra, la IA pot copiar la veu i fins i tot l’emoció. També conserva l’entorn acústic original de l’orador.

Dit d’una altra manera, VALL-E destaca especialment a l’hora de simular veus. Pots escoltar exemples a GitHub, on Microsoft també n’explica el funcionament.

Aquesta tecnologia té molts usos potencials, com ara crear podcasts i audiollibres. I encara anirà més lluny en combinar-se amb models com GPT-3.

Però la tecnologia VALL-E també pot ser utilitzada amb finalitats malicioses.

Com que VALL-E sona tan real, seria fàcil que actors malintencionats l’aprofitessin per fer estafes o deepfakes perjudicials. Això ha portat Microsoft a publicar una declaració ètica.

Microsoft proposa utilitzar models d’edició de veu per garantir el consentiment de l’orador original.

Tot i així, els debats sobre l’ús futur de VALL-E encara estan per venir. Ara tenim una qüestió més interessant a respondre:

Com pot la IA replicar patrons tan complexos amb només tres segons d’àudio de mostra?

Com era d’esperar, la resposta és força complexa.

VALL-E s’ha entrenat amb milers d’hores de veu en anglès, fet que la fa excel·lent imitant parlant anglès. Però VALL-E no és un TTS típic: utilitza l’última tecnologia d’aprenentatge automàtic.

Ja hem esmentat el concepte: model lingüístic neuronal zero-shot. Anem a veure què vol dir.

Entendre els models lingüístics neuronals zero-shot

Zero-shot és la tecnologia específica que permet que el TTS generi veu a partir de dades desconegudes. Això vol dir que la màquina pot llegir text sense haver-lo “vist” abans.

Encara més destacable: amb zero-shot, la màquina pot llegir sense entrenament addicional. S’assembla a quan una persona llegeix un text nou en una llengua que ja domina.

Ara ve la part complexa: el “model lingüístic de codi neuronal” requereix més explicació.

Els motors TTS fan servir còdecs d’àudio per crear ones a partir del text. El còdec ajuda la IA a convertir lletres i paraules escrites en sons. Un còdec neuronal fa el mateix, però amb una xarxa neuronal avançada.

Això porta una altra pregunta: què és una xarxa neuronal?

Ho expliquem de forma resumida: una xarxa neuronal intenta imitar el funcionament del cervell humà. Està formada per neurones artificials, connectades i organitzades en capes.

Aquesta estructura complexa permet l’aprenentatge profund, fent que la màquina pugui adaptar-se a patrons nous.

El còdec neuronal impulsa el model lingüístic, l’altra part d’aquesta tecnologia TTS .

El model lingüístic utilitza un conjunt de dades per interpretar l’entrada de text dins el context d’una llengua real. Així és com la màquina entén el text.

Per a VALL-E, la biblioteca d’àudio LibriLight (Meta) serveix de base per al model lingüístic de la IA.

Escolta la tecnologia TTS més avançada en acció amb Speechify

Tot i que VALL-E no està disponible públicament, pots escoltar com sona un motor avançat de text a veu amb Speechify. És un servei TTS que llegeix qualsevol text en veu alta.

Sigui text escrit, web o escanejat, Speechify ho llegeix a l’instant. Utilitza veus naturals, a diferència dels TTS robòtics típics. Sona més humà que no pas màquina.

A més, pots personalitzar Speechify. Tria idioma, narrador i velocitat de lectura, i escolta el text com més t’agradi.

Si t’interessa, pots provar Speechify gratis avui mateix.

Preguntes freqüents

La gent pot usar VALL-E?

Hi ha preocupacions sobre l’ús indegut de VALL-E. El robatori d’identitat és un risc seriós. Per això, Microsoft ha decidit no fer-ho públic.

Què és la IA de Microsoft?

La IA de Microsoft no és un producte concret, sinó un marc per desenvolupar IA. Inclou solucions de ciència de dades, IA conversacional, robòtica, aprenentatge automàtic i altres avenços.

Què és una interfície per veu?

Una interfície per veu és just això: una interfície que controles mitjançant ordres de veu. Aquesta tecnologia és habitual en dispositius intel·ligents com Alexa, Siri, Cortana o Google Assistant.

Què és un robot?

El terme “robot” descriu qualsevol màquina que opera automàticament, sovint per substituir la feina humana. Tot i l’imaginari popular, pocs robots tenen forma humanoide. De fet, poden no tenir forma física; els assistents virtuals actuals també són robots.

Speechify és la plataforma líder mundial de text a veu, de confiança per a més de 50 milions d'usuaris i avalada per més de 500.000 ressenyes de cinc estrelles a les seves aplicacions de text a veu per a iOS, Android, Extensió de Chrome, aplicació web i aplicació per a Mac. El 2025, Apple va premiar Speechify amb el prestigiós Premi de Disseny Apple a la WWDC, qualificant-lo com “una eina essencial que ajuda la gent a viure la seva vida.” Speechify ofereix més de 1.000 veus naturals en més de 60 idiomes i s'utilitza a gairebé 200 països. Entre les veus de celebritats hi trobem Snoop Dogg i Gwyneth Paltrow. Per a creadors i empreses, Speechify Studio proporciona eines avançades com Generador de veu IA, Clonació de veus IA, Doblatge IA i el seu Canviador de veu IA. Speechify també impulsa productes líders amb la seva API de text a veu, d'alta qualitat i amb una relació qualitat-preu òptima API de text a veu. Present en The Wall Street Journal, CNBC, Forbes, TechCrunch i altres mitjans destacats, Speechify és el proveïdor de text a veu més gran del món. Visiteu speechify.com/news, speechify.com/blog i speechify.com/press per saber-ne més.

Què és Microsoft VALL-E?

Cliff Weitzman

Speechify, el teu assistent de veu amb IA.
Text a veu. Dictat per veu. Respostes ràpides.

Microsoft VALL-E, explicat

Entendre els models lingüístics neuronals zero-shot

Escolta la tecnologia TTS més avançada en acció amb Speechify