1. Home
  2. TTSO
  3. Misurare la qualità del parlato sintetico
TTSO

Misurare la qualità del parlato sintetico

Cliff Weitzman

Cliff Weitzman

CEO e fondatore di Speechify

#1 Lettore di Testo in Voce.
Lascia che Speechify legga per te.

apple logoPremio Apple Design 2025
50M+ Utenti

Misurare la qualità del Text to Speech: la guida pratica a MOS, MUSHRA, PESQ/POLQA e ABX

L'ascesa della sintesi vocale ha trasformato il modo in cui le persone consumano contenuti, apprendono e interagiscono con le piattaforme digitali. Dagli audiolibri e e-learning agli strumenti di accessibilità per persone con disabilità, le voci sintetiche sono ormai parte della vita quotidiana. Ma con la crescita della domanda emerge anche la sfida: come misurare se le voci di text to speech suonano naturali, coinvolgenti e facili da capire?

In questa guida esploreremo i metodi di valutazione più diffusi—MOS, MUSHRA, PESQ/POLQA e ABX. Affronteremo anche il dibattito in corso su MUSHRA contro MOS per la valutazione del text to speech, fornendo chiarezza a ricercatori, sviluppatori e organizzazioni che vogliono essere certi che i loro sistemi di text to speech rispettino i più elevati standard di qualità.

Perché la valutazione della qualità è importante nel Text to Speech

L'efficacia del text to speech (TTS) va ben oltre la semplice conversione delle parole in audio. La qualità influisce su accessibilità, risultati di apprendimento, produttività e persino sulla fiducia nella tecnologia.

Per esempio, un sistema di text to speech mal tarato può suonare robotico o poco chiaro, causando frustrazione per utenti con dislessia che ci fanno affidamento per leggere. Al contrario, un sistema TTS di alta qualità, con intonazione naturale e resa scorrevole, può trasformare la stessa esperienza in uno strumento che favorisce l'autonomia.

Le organizzazioni che adottano il text to speech—scuole, aziende, strutture sanitarie e sviluppatori di app—devono avere la certezza che i loro sistemi siano affidabili. Ecco perché entrano in gioco i metodi di valutazione standardizzati: forniscono un quadro strutturato per misurare la qualità audio, garantendo che le impressioni soggettive possano essere raccolte in modo coerente e scientifico.

Senza valutazione, è impossibile sapere se gli aggiornamenti di sistema migliorano davvero la qualità o se i nuovi modelli di IA elevano davvero l'esperienza d'ascolto.

Metodi chiave per misurare la qualità del Text to Speech

1. MOS (Mean Opinion Score)

Il Mean Opinion Score (MOS) è un pilastro nella valutazione audio. Originariamente sviluppato per i sistemi di telecomunicazione, il MOS è stato ampiamente adottato nel text to speech per la sua semplicità e familiarità.

In un test MOS, un gruppo di ascoltatori umani valuta clip audio su una scala a cinque punti, dove 1 = scarso e 5 = eccellente. Agli ascoltatori viene chiesto di considerare la qualità complessiva, che solitamente include chiarezza, intelligibilità e naturalezza.

  • Punti di forza: MOS è semplice da impostare, a basso costo e produce risultati facilmente comprensibili. Essendo standardizzato dall'International Telecommunication Union (ITU), è inoltre considerato affidabile in vari settori.
  • Limitazioni: MOS è a grana grossa. Differenze sottili tra due sistemi TTS di alta qualità potrebbero non emergere nelle valutazioni degli ascoltatori. Fa inoltre forte affidamento su impressioni soggettive, che possono variare in base alla provenienza e all'esperienza dell'ascoltatore.

Per i professionisti del TTS, il MOS è un ottimo punto di partenza. Fornisce una visione d'insieme utile per capire se un sistema suona "abbastanza bene" e consente di effettuare confronti tra sistemi.

2. MUSHRA (Multiple Stimuli with Hidden Reference and Anchor)

MUSHRA è un protocollo di valutazione più avanzato creato dall'ITU per stimare la qualità audio a livello intermedio. A differenza del MOS, MUSHRA utilizza una scala da 0 a 100 e richiede agli ascoltatori di confrontare diversi campioni dello stesso stimolo.

Ogni test include:

  • Un riferimento nascosto (una versione del campione ad alta qualità).
  • Uno o più anchor (versioni a bassa qualità o degradate per fornire un termine di paragone).
  • I sistemi text to speech sottoposti a test.

Gli ascoltatori valutano ogni versione, ottenendo così un quadro delle prestazioni molto più dettagliato.

  • Punti di forza: MUSHRA è molto sensibile alle piccole differenze, rendendolo particolarmente utile per confrontare sistemi text to speech di qualità simile. L'inclusione di riferimenti e anchor aiuta gli ascoltatori a calibrare i propri giudizi.
  • Limitazioni: È più complesso da eseguire. Impostare anchor, riferimenti e più campioni richiede una progettazione accurata. Inoltre presuppone che gli ascoltatori siano sufficientemente formati per comprendere il compito di valutazione.

Per i praticanti del text to speech, MUSHRA è spesso il metodo preferito per mettere a punto i modelli o valutare miglioramenti incrementali.

3. PESQ / POLQA

Mentre MOS e MUSHRA si basano su ascoltatori umani, PESQ (Perceptual Evaluation of Speech Quality) e il suo successore POLQA (Perceptual Objective Listening Quality Analysis) sono misure algoritmiche. Simulano il modo in cui l'orecchio e il cervello umani percepiscono l'audio, consentendo test automatizzati senza pannelli di ascoltatori.

Progettati originariamente per le chiamate vocali e i codec, PESQ e POLQA sono utili per valutazioni su larga scala o ripetute in cui eseguire studi con persone sarebbe impraticabile.

  • Punti di forza: Sono veloci, ripetibili e oggettivi. I risultati non dipendono da pregiudizi o dall'affaticamento degli ascoltatori.
  • Limitazioni: Poiché sono stati progettati per la telefonia, non colgono sempre la naturalezza o l'espressività—due dimensioni chiave nei sistemi text to speech.

In pratica, PESQ/POLQA sono spesso abbinati a test soggettivi come MOS o MUSHRA. Questa combinazione offre sia scalabilità sia un'accuratezza convalidata da valutazioni umane.

4. ABX Testing

L'ABX testing è un metodo semplice ma potente per valutare le preferenze. Agli ascoltatori vengono presentati tre campioni:

L'ascoltatore deve decidere se X somiglia di più ad A o a B.

  • Punti di forza: ABX è eccellente per confronti diretti tra due sistemi. È intuitivo, facile da eseguire e funziona bene quando si testano nuovi modelli rispetto a un modello di riferimento.
  • Limitazioni: ABX non fornisce valutazioni di qualità assoluta. Mostra solo se gli ascoltatori preferiscono un sistema rispetto a un altro.

Nella ricerca sul text to speech, ABX è spesso usato nei test A/B durante lo sviluppo del prodotto, quando gli sviluppatori vogliono sapere se le modifiche introdotte sono percepibili dagli utenti.

MUSHRA vs. MOS per il Text to Speech

Il dibattito MUSHRA vs. MOS è uno dei temi più importanti nella valutazione del text to speech. Entrambi i metodi sono ampiamente usati, ma differiscono per finalità:

  • MOS è l'ideale per il benchmarking a livello generale. Se un'azienda vuole mettere a confronto il proprio text to speech con un concorrente o mostrare miglioramenti qualitativi nel tempo, MOS è semplice, efficiente e ampiamente riconosciuto.
  • MUSHRA, invece, è più indicato per analisi di dettaglio. Poiché usa ancore e riferimenti, spinge gli ascoltatori a prestare maggiore attenzione alle differenze nella qualità audio. Questo lo rende particolarmente prezioso per ricerca e sviluppo, dove piccoli miglioramenti nella prosodia, nell'intonazione o nella chiarezza fanno la differenza.

In pratica, molti professionisti usano MOS nelle fasi iniziali per stabilire una base di riferimento, poi passano a MUSHRA per test più approfonditi quando i sistemi hanno prestazioni simili. Questo approccio multilivello garantisce valutazioni sia pratiche sia precise.

Buone pratiche per i professionisti del Text to Speech

Per ottenere risultati affidabili e utili per prendere decisioni dalla valutazione del text to speech:

  1. Combinare i metodi: usare MOS per il benchmarking, MUSHRA per la messa a punto, PESQ/POLQA per valutazioni su larga scala e ABX per i test di preferenza.
  2. Reclutare panel eterogenei: la percezione degli ascoltatori varia per accento, età ed esperienza d'ascolto. Un gruppo diversificato assicura risultati rappresentativi del pubblico reale.
  3. Fornire contesto: valutare il text to speech nel contesto d'uso (ad es. audiolibri rispetto a sistemi di navigazione). Ciò che conta in uno scenario potrebbe non essere importante in un altro.
  4. Convalidare con gli utenti: alla fine, la migliore misura di qualità è se le persone riescono a usare comodamente il text to speech per imparare, lavorare o nella vita di tutti i giorni.

Perché Speechify dà priorità alla qualità nel Text to Speech

Noi di Speechify sappiamo che la qualità della voce fa la differenza tra uno strumento che si prova una volta e uno su cui si può contare ogni giorno. Per questo utilizziamo una strategia di valutazione multilivello, combinando MOS, MUSHRA, PESQ/POLQA e ABX per misurare le prestazioni da ogni punto di vista.

Il nostro processo garantisce che ogni nuovo modello di voce AI non sia solo tecnicamente solido, ma anche confortevole, naturale e coinvolgente per gli utenti. Che si tratti di aiutare uno studente con dislessia a tenere il passo, consentire ai professionisti di fare multitasking con gli audiolibri o supportare chi apprende in tutto il mondo con voci multilingue, l'impegno di Speechify per la qualità significa che gli utenti possono affidarsi all'esperienza con fiducia.

Questa dedizione riflette la nostra missione: rendere la tecnologia text to speech inclusiva, affidabile e di livello mondiale.

Misurare ciò che conta nel Text to Speech

Misurare la qualità del text to speech è sia una scienza che un'arte. I metodi soggettivi come MOS e MUSHRA colgono le percezioni umane, mentre i metodi oggettivi come PESQ e POLQA offrono analisi scalabili. I test ABX aggiungono confronti basati sulla preferenza, cruciali nello sviluppo del prodotto.

Il dibattito MUSHRA vs. MOS dimostra che nessun test da solo è sufficiente. Per i professionisti, la strategia migliore è combinare i metodi, convalidare i risultati con utenti diversi e tenere sempre al centro l'accessibilità nel mondo reale.

Con piattaforme come Speechify all'avanguardia nella valutazione della qualità e nell'innovazione, il futuro del text to speech non è solo comprensibile: è naturale, accessibile e pensato per tutti.

Goditi le voci AI più avanzate, file illimitati e supporto 24/7

Provalo gratis
tts banner for blog

Condividi questo articolo

Cliff Weitzman

Cliff Weitzman

CEO e fondatore di Speechify

Cliff Weitzman è un sostenitore delle persone con dislessia e CEO e fondatore di Speechify, la app di sintesi vocale leader a livello mondiale, con oltre 100.000 recensioni a 5 stelle e prima in classifica sull’App Store nella categoria News & Magazines. Nel 2017 Weitzman è stato inserito nella lista Forbes 30 Under 30 per il suo lavoro volto a rendere Internet più accessibile alle persone con disturbi dell’apprendimento. Cliff Weitzman è stato menzionato da testate come EdSurge, Inc., PC Mag, Entrepreneur e Mashable, tra le altre pubblicazioni di rilievo.

speechify logo

Informazioni su Speechify

#1 Lettore di Testo in Voce

Speechify è la piattaforma text-to-speech leader mondiale, scelta da oltre 50 milioni di utenti e supportata da più di 500.000 recensioni a cinque stelle per le sue app iOS, Android, estensione Chrome, web app e desktop per Mac. Nel 2025, Apple ha premiato Speechify con il prestigioso Apple Design Award durante il WWDC, definendola “una risorsa fondamentale che aiuta le persone a vivere meglio.” Speechify offre oltre 1.000 voci naturali in più di 60 lingue ed è utilizzata in quasi 200 paesi. Tra le voci celebri disponibili ci sono Snoop Dogg, Mr. Beast e Gwyneth Paltrow. Per creatori e aziende, Speechify Studio offre strumenti avanzati come AI Voice Generator, AI Voice Cloning, AI Dubbing e il AI Voice Changer. Speechify alimenta anche prodotti leader con la sua API text-to-speech di alta qualità e conveniente. Citata in The Wall Street Journal, CNBC, Forbes, TechCrunch e altre importanti testate, Speechify è il più grande fornitore di servizi text-to-speech al mondo. Visita speechify.com/news, speechify.com/blog e speechify.com/press per saperne di più.