Una breve storia della sintesi vocale
In Primo Piano In
La tecnologia di sintesi vocale, più comunemente conosciuta come text-to-speech, è evoluta rapidamente nel corso degli anni. Scopri di più sulla storia della sintesi vocale.
La sintesi vocale, ovvero la produzione artificiale della voce umana, ha fatto molta strada negli ultimi 70 anni. Che tu usi attualmente servizi di text-to-speech per ascoltare libri, studiare o correggere i tuoi scritti, non c'è dubbio che questi servizi abbiano reso la vita più facile a persone in una varietà di professioni.
Qui, daremo un'occhiata a come funziona l'elaborazione text-to-speech e a come la tecnologia assistiva è cambiata nel tempo.
Introduzione
Nel 1700, il professore russo Christian Kratzenstein creò risonatori acustici che imitavano il suono della voce umana. Due decenni dopo, il VODER (Voice Operating Demonstrator) fece grandi titoli alla Fiera Mondiale di New York quando il creatore Homer Dudley mostrò alle folle come il linguaggio umano potesse essere creato attraverso mezzi artificiali. Il dispositivo era difficile da usare: Dudley doveva controllare la frequenza fondamentale usando pedali.
All'inizio del 1800, Charles Wheatstone sviluppò il primo sintetizzatore vocale meccanico. Questo diede il via a una rapida evoluzione degli strumenti e delle tecnologie di sintesi articolatoria.
Può essere difficile definire esattamente cosa renda un buon programma di text-to-speech, ma come molte cose nella vita, lo riconosci quando lo senti. Un programma di alta qualità offre voci dal suono naturale con inflessioni e toni realistici.
La tecnologia text-to-speech può aiutare le persone con disabilità visive e altre disabilità a ottenere le informazioni di cui hanno bisogno per prosperare al lavoro e comunicare con gli altri. Il software consente anche a studenti e persone con carichi di lettura pesanti di ascoltare le informazioni tramite la voce umana quando sono in movimento. La sintesi vocale permette di fare di più in meno tempo e può essere utile in una varietà di contesti, dalla creazione di videogiochi all'aiuto per persone con differenze di elaborazione del linguaggio.
Anni '50 e '60
Alla fine degli anni '50, furono creati i primi sistemi di sintesi vocale. Questi sistemi erano basati su computer. Nel 1961, John Larry Kelly Jr., un fisico dei Bell Labs, utilizzò un computer IBM per sintetizzare la voce. Il suo vocoder (sintetizzatore di registrazione vocale) ricreò la canzone Daisy Bell.
Nel periodo in cui Kelly stava perfezionando il suo vocoder, Arthur C. Clarke, autore di 2001: Odissea nello spazio, utilizzò la dimostrazione di Kelly nella sceneggiatura del suo libro. Durante la scena, il computer HAL 9000 canta Daisy Bell.
Nel 1966, la codifica predittiva lineare fece la sua comparsa. Questa forma di codifica vocale iniziò il suo sviluppo sotto Fumitada Itakura e Shuzo Saito. Anche Bishnu S. Atal e Manfred R. Schroeder contribuirono allo sviluppo della codifica predittiva lineare.
Anni '70
Nel 1975, il metodo delle coppie spettrali lineari fu sviluppato da Itakura. Questo metodo di codifica vocale ad alta compressione aiutò Itakura a imparare di più sull'analisi e la sintesi vocale, individuando i punti deboli e capendo come migliorarli.
Durante quest'anno, fu rilasciato anche MUSA. Questo sistema di sintesi vocale autonomo utilizzava un algoritmo per leggere ad alta voce in italiano. Una versione rilasciata tre anni dopo era in grado di cantare in italiano.
Negli anni '70, fu sviluppato il primo sintetizzatore articolatorio basato sul tratto vocale umano. Il primo sintetizzatore noto fu sviluppato da Tom Baer, Paul Mermelstein e Philip Rubin presso i Laboratori Haskins. Il trio utilizzò informazioni dai modelli del tratto vocale creati presso i Bell Laboratories negli anni '60 e '70.
Nel 1976, furono introdotte le Macchine di Lettura Kurzweil per i non vedenti. Sebbene questi dispositivi fossero troppo costosi per il pubblico generale, le biblioteche spesso li fornivano alle persone con disabilità visive per ascoltare i libri.
La codifica predittiva lineare divenne il punto di partenza per i chip sintetizzatori. I chip vocali LPC di Texas Instruments e i giocattoli Speak & Spell della fine degli anni '70 utilizzavano entrambi la tecnologia dei chip sintetizzatori. Questi giocattoli erano esempi di sintesi vocale umana con intonazioni accurate, differenziando la voce dalle comunemente voci sintetizzate dal suono robotico dell'epoca. Molti dispositivi elettronici portatili con la capacità di sintetizzare la voce divennero popolari durante questo decennio, incluso il calcolatore Speech+ di Telesensory Systems per i non vedenti. Il Fidelity Voice Chess Challenger, un computer per scacchi in grado di sintetizzare la voce, fu rilasciato nel 1979.
Anni '80
Negli anni '80, la sintesi vocale iniziò a rivoluzionare il mondo dei videogiochi. Nel 1980, Sun Electronics pubblicò Stratovox (un gioco arcade di tipo sparatutto). Manbiki Shoujo (tradotto in inglese come Shoplifting Girl) fu il primo gioco per computer personale con la capacità di sintetizzare la voce. Anche il gioco elettronico Milton fu rilasciato nel 1980: era il primo gioco elettronico della Milton Bradley Company con la capacità di sintetizzare la voce umana.
Nel 1983, la macchina autonoma di sintesi vocale acustico-meccanica chiamata DECtalk. DECtalk comprendeva le trascrizioni fonetiche delle parole, permettendo una pronuncia personalizzata di parole insolite. Queste trascrizioni fonetiche potevano includere anche un indicatore di tono che DECtalk utilizzava per enunciare i componenti fonetici. Questo permetteva a DECtalk di cantare.
Alla fine degli anni '80, Steve Jobs creò NeXT, un sistema sviluppato da Trillium Sound Research. Sebbene NeXT non ebbe successo, Jobs alla fine integrò il programma con Apple negli anni '90.
Anni '90
Le prime versioni dei sistemi di sintesi vocale testuale suonavano distintamente robotiche, ma ciò iniziò a cambiare alla fine degli anni '80 e all'inizio degli anni '90. Consonanti più morbide permettevano alle macchine parlanti di perdere il tono elettronico e suonare più umane. Nel 1990, Ann Syrdal presso AT&T Bell Laboratories sviluppò una voce sintetizzata femminile. Gli ingegneri lavorarono per rendere le voci più naturali durante gli anni '90.
Nel 1999, Microsoft rilasciò Narrator, una soluzione di lettura dello schermo ora inclusa in ogni copia di Microsoft Windows.
Anni 2000
La sintesi vocale incontrò alcune difficoltà durante gli anni 2000, poiché gli sviluppatori lottavano per creare standard concordati per la sintesi vocale. Poiché la voce è altamente individuale, è difficile per le persone di tutto il mondo concordare sulla corretta pronuncia di fonemi, difoni, intonazione, tono, riproduzione dei modelli e inflessione.
La qualità dell'audio della sintesi vocale formantica divenne anche una preoccupazione negli anni '90, poiché ingegneri e ricercatori notarono che la qualità dei sistemi utilizzati in laboratorio per riprodurre la sintesi vocale era spesso molto più avanzata rispetto all'attrezzatura che l'utente aveva. Quando si pensa alla sintesi vocale, molti pensano al sintetizzatore vocale di Stephen Hawking, che forniva una voce dal suono robotico con poco tono umano.
Nel 2005, i ricercatori finalmente raggiunsero un accordo e iniziarono a utilizzare un dataset comune di sintesi vocale, permettendo loro di lavorare dagli stessi ideali di base nella creazione di sistemi di sintesi vocale di alto livello.
Nel 2007, uno studio dimostrò che gli ascoltatori possono capire se una persona che parla sta sorridendo. I ricercatori continuano a lavorare per capire come utilizzare queste informazioni per creare software di riconoscimento e sintesi vocale più naturali.
Anni 2010
Oggi, i prodotti di sintesi vocale che utilizzano segnali vocali sono ovunque, da Siri ad Alexa. I sintetizzatori vocali elettronici non solo rendono la vita più facile, ma anche più divertente. Che tu stia usando un sistema TTS per ascoltare romanzi in movimento o stia usando app che facilitano l'apprendimento di una lingua straniera, è probabile che tu stia utilizzando la tecnologia di sintesi vocale per attivare le tue reti neurali quotidianamente.
Il futuro
Nei prossimi anni, è probabile che la tecnologia di sintesi vocale si concentri sulla creazione di un modello del cervello per comprendere meglio come registriamo i dati vocali nella nostra mente. La tecnologia vocale lavorerà anche per comprendere meglio il ruolo che le emozioni giocano nel discorso, e utilizzerà queste informazioni per creare voci AI indistinguibili da quelle umane reali.
Le ultime novità nella tecnologia di sintesi vocale: Speechify
Quando si apprende delle transizioni dalla tecnologia di sintesi vocale precedente, è sorprendente immaginare quanto la scienza sia progredita. Oggi, app come Speechify rendono facile tradurre qualsiasi testo in file audio. Con un semplice tocco di un pulsante (o un tocco su un'app), Speechify è in grado di prendere siti web, documenti e immagini di testo e tradurli in discorsi dal suono naturale. La libreria di Speechify si sincronizza su tutti i tuoi dispositivi, rendendo semplice continuare a imparare e lavorare in movimento. Scopri l'app Speechify sia nell'App Store di Apple che nel Play Store di Android Google Play.
Domande frequenti
Chi ha inventato il text-to-speech?
Il text-to-speech per l'inglese è stato inventato da Noriko Umeda. Il sistema è stato sviluppato nel Laboratorio Elettrotecnico in Giappone nel 1968.
Qual è lo scopo del text-to-speech?
Molte persone utilizzano la tecnologia di sintesi vocale. Per chi preferisce ricevere informazioni in formato audio, la tecnologia TTS può semplificare l'accesso alle informazioni necessarie per lavorare o studiare, senza dover passare ore davanti a un libro. Anche i professionisti impegnati utilizzano la tecnologia TTS per rimanere aggiornati sul loro lavoro quando non possono sedersi davanti a uno schermo del computer. Molti tipi di tecnologia TTS sono stati originariamente sviluppati per persone con disabilità visive, e la TTS è ancora un modo fantastico per chi ha difficoltà visive di ottenere le informazioni di cui ha bisogno.
Come si sintetizza un discorso?
Frammenti di discorso registrato sono memorizzati in un database in varie unità. Il software prepara i file audio attraverso la selezione delle unità. Da lì, viene creata una voce. Spesso, maggiore è la gamma di output di un programma, più il programma fatica a fornire agli utenti una chiarezza vocale.
Tyler Weitzman
Tyler Weitzman è il Co-Fondatore, Responsabile dell'Intelligenza Artificiale e Presidente di Speechify, l'app di sintesi vocale numero 1 al mondo, con oltre 100.000 recensioni a 5 stelle. Weitzman è laureato all'Università di Stanford, dove ha conseguito una laurea in matematica e una laurea magistrale in Informatica nel percorso di Intelligenza Artificiale. È stato selezionato da Inc. Magazine come uno dei 50 migliori imprenditori e ha ricevuto menzioni su Business Insider, TechCrunch, LifeHacker, CBS, tra altre pubblicazioni. La ricerca per la sua laurea magistrale si è concentrata sull'intelligenza artificiale e la sintesi vocale, e il suo lavoro finale era intitolato: “CloneBot: Previsioni di Risposta al Dialogo Personalizzate.”