Che cos'è Microsoft VALL-E?
In Primo Piano In
Microsoft VALL-E rappresenta l'ultima innovazione tecnologica in grado di offrire una sintesi vocale completamente naturale. Ecco un'analisi dettagliata della tecnologia.
La tecnologia di sintesi vocale ha fatto passi da gigante, soprattutto negli ultimi anni. Grazie ai miglioramenti dell'intelligenza artificiale, le attuali TTS possono fornire letture di alta qualità che imitano il linguaggio umano.
VALL-E di Microsoft è l'ultima soluzione tecnologica che potrebbe rendere la sintesi vocale sorprendentemente realistica. È un modello di linguaggio a codec neurale basato sull'apprendimento automatico zero-shot.
Se l'ultima frase sembra un gergo da fantascienza, non preoccuparti. Spiegheremo i concetti complessi dietro VALL-E nell'articolo qui sotto.
Microsoft VALL-E spiegato
I modelli di intelligenza artificiale stanno crescendo in potenza a un ritmo rapido. Ormai tutti conoscono ChatGPT di OpenAI, che potrebbe essere il più vicino che siamo arrivati a un'IA che sembra una persona reale. E probabilmente hai visto alcune opere d'arte generate dall'IA del motore DALL-E.
Oltre a startup come OpenAI, aziende globali come Microsoft sono state attori significativi nel campo dell'IA.
I ricercatori di Microsoft hanno recentemente lavorato su avanzamenti nella sintesi vocale. VALL-E rappresenta proprio questo.
La nuova IA sarà probabilmente rivoluzionaria nel panorama TTS perché può generare discorsi che suonano umani basandosi su un piccolo campione audio. Un prompt acustico di tre secondi è sufficiente per VALL-E per cogliere i modelli specifici del parlante.
Dopo aver ricevuto il prompt del parlante, l'IA può imitare la voce umana e persino simulare il loro tono emotivo. Altrettanto impressionante, VALL-E preserva l'ambiente acustico del parlante non visto.
In parole semplici, il modello VALL-E eccelle nella somiglianza con il parlante. Puoi sentirlo in azione su GitHub, dove Microsoft ha condiviso esempi audio insieme a una spiegazione dettagliata dell'IA.
Ovviamente, una tecnologia del genere ha molteplici potenziali usi, come creare podcast e audiolibri. Il potenziale potrebbe crescere ulteriormente man mano che VALL-E si combina con modelli generativi come GPT-3.
Ma una tecnologia come VALL-E potrebbe anche essere utilizzata per scopi più nefasti.
Poiché VALL-E può suonare spaventosamente come una persona reale, è facile vedere come attori malintenzionati potrebbero utilizzare la tecnologia per truffe come deepfake dannosi e non consensuali. Tali possibilità hanno spinto Microsoft a emettere una dichiarazione etica.
Nella dichiarazione, l'azienda sostiene modelli specifici di modifica del discorso che garantirebbero il consenso del parlante originale.
Ma le controversie sui potenziali usi di VALL-E sono una considerazione per il futuro. Per ora, c'è una domanda più interessante sul tavolo:
Come fa l'IA a replicare modelli complessi con solo un audio di tre secondi come campione di base?
Non sorprende che la risposta sia piuttosto complessa.
VALL-E ha avuto un ampio set di dati di addestramento, composto da migliaia di ore di discorsi in inglese. Questo ha preparato l'IA per una simulazione del linguaggio inglese senza soluzione di continuità. Tuttavia, VALL-E non è il tuo sistema TTS comune: è alimentato da tecnologia di apprendimento automatico all'avanguardia.
Abbiamo già menzionato il nome della tecnologia: modello di linguaggio a codec neurale zero-shot. Vediamo cosa significano questi termini nella pratica.
Comprendere i modelli di linguaggio a codec neurale zero-shot
Iniziando con il termine più semplice, “zero-shot” si riferisce a una tecnologia specifica per i motori di sintesi vocale. Consente la generazione di discorsi da parte dell'IA basata su dati precedentemente sconosciuti. In altre parole, il computer può leggere ad alta voce un testo che non ha mai “visto” prima.
Ancora più impressionante, la tecnologia zero-shot consente alla macchina di produrre letture senza ulteriore addestramento. Essenzialmente, è simile a come gli esseri umani possono leggere un testo sconosciuto in una lingua che già conoscono.
Passando alla parte complicata, il “modello di linguaggio a codec neurale” richiede un'ulteriore spiegazione.
I motori TTS si basano su codec audio per creare forme d'onda basate su testo scritto. Il codec aiuta l'IA a tradurre lettere, parole e frasi scritte in suoni corrispondenti. Un codec neurale serve allo stesso scopo ma si basa su una robusta rete neurale.
Ovviamente, questo pone un'ulteriore domanda: cos'è una rete neurale?
Lo spiegheremo qui in termini generali senza entrare in un'analisi ancora più approfondita. Una rete neurale tenta di imitare il funzionamento del cervello umano. La rete è composta da neuroni artificiali chiamati nodi, che sono collegati e organizzati in strati.
La struttura complessa consente il cosiddetto apprendimento profondo, rendendo la macchina più capace di sviluppare e adattare modelli sconosciuti.
Il codec neurale alimenta il modello linguistico, l'altra parte di questa equazione testo a voce.
Il modello linguistico si basa su un dataset per comprendere qualsiasi input testuale nel contesto di una lingua reale. In altre parole, è così che la macchina "dà senso" al testo.
Nel caso di VALL-E, LibriLight, una libreria audio compilata da Meta di Facebook, ha servito come base del modello linguistico dell'IA.
Ascolta la tecnologia TTS all'avanguardia in azione con Speechify
Sebbene VALL-E non sia ancora disponibile al pubblico, puoi ascoltare come suona un avanzato motore testo a voce con Speechify. Speechify è un servizio TTS che può leggere ad alta voce testo da praticamente qualsiasi fonte.
Che tu fornisca testo scritto, contenuti web o una pagina scansionata, Speechify lo leggerà istantaneamente. Ancora meglio, il motore offre voci narranti che suonano naturali. A differenza dei tipici motori TTS robotici, Speechify suona più come un essere umano che come una macchina.
Inoltre, puoi modificare come Speechify legge. Scegli la tua lingua preferita, il narratore e la velocità di lettura, e ascolta qualsiasi testo esattamente come desideri.
Se tutto questo ti sembra interessante, puoi provare Speechify gratuitamente oggi stesso.
FAQ
Le persone possono usare Vall-E?
Ci sono molte preoccupazioni su come VALL-E potrebbe essere abusato. Il furto d'identità è una possibilità particolarmente preoccupante. Per questo motivo, Microsoft ha deciso di non rendere VALL-E disponibile al pubblico.
Cos'è l'AI di Microsoft?
L'AI di Microsoft non è un prodotto specifico. Invece, il programma dell'azienda serve come quadro di sviluppo per l'AI. Microsoft AI include soluzioni di data science, AI conversazionale, robotica, machine learning e altri progressi nel settore.
Cos'è un'interfaccia a comando vocale?
Un'interfaccia a comando vocale è esattamente ciò che sembra - un'interfaccia utente con cui interagisci tramite comandi vocali. Questa tecnologia è già comune nei dispositivi intelligenti – pensa ad Alexa di Amazon, Siri di Apple, Cortana di Microsoft o l'Assistente di Google.
Cos'è un robot?
Il termine "robot" denota qualsiasi macchina che opera automaticamente. Tali macchine sono progettate come sostituti del lavoro umano. Nonostante la tipica rappresentazione nei media popolari, la maggior parte dei robot non ha un aspetto umanoide. In effetti, potrebbero non avere nemmeno una forma fisica. Ad esempio, gli assistenti virtuali popolari di oggi contano anche come robot.
Cliff Weitzman
Cliff Weitzman è un sostenitore della dislessia e il CEO e fondatore di Speechify, l'app di sintesi vocale numero 1 al mondo, con oltre 100.000 recensioni a 5 stelle e al primo posto nell'App Store nella categoria Notizie e Riviste. Nel 2017, Weitzman è stato inserito nella lista Forbes 30 under 30 per il suo lavoro nel rendere internet più accessibile alle persone con difficoltà di apprendimento. Cliff Weitzman è stato menzionato in EdSurge, Inc., PC Mag, Entrepreneur, Mashable, tra altri importanti media.