1. Home
  2. TTSO
  3. Misurare la qualità della sintesi vocale (Text to Speech)
TTSO

Misurare la qualità della sintesi vocale (Text to Speech)

Cliff Weitzman

Cliff Weitzman

CEO/Fondatore di Speechify

#1 Lettore di Testo in Voce.
Lascia che Speechify legga per te.

apple logoPremio Apple Design 2025
50M+ Utenti

Misurare la qualità del Text to Speech: guida pratica a MOS, MUSHRA, PESQ/POLQA e ABX

L’ascesa della sintesi vocale ha trasformato il modo in cui le persone consumano contenuti, apprendono e interagiscono con le piattaforme digitali. Dagli audiolibri e l’e-learning agli strumenti di accessibilità per le persone con disabilità, le voci sintetiche sono ormai parte integrante della vita moderna. Ma con l’aumento della domanda cresce anche la sfida: come valutare se le voci di text to speech suonano naturali, coinvolgenti e facili da comprendere?

In questa guida esploreremo i metodi di valutazione più diffusi—MOS, MUSHRA, PESQ/POLQA e ABX. Affronteremo inoltre il dibattito ancora aperto su MUSHRA vs. MOS per la valutazione del text to speech, facendo chiarezza per ricercatori, sviluppatori e organizzazioni che vogliono assicurarsi che i loro sistemi soddisfino i più elevati standard qualitativi.

Perché valutare la qualità è fondamentale nel Text to Speech

L’efficacia del text to speech (TTS) va ben oltre la semplice conversione delle parole in audio. La qualità influisce sull’accessibilità, sui risultati di apprendimento, sulla produttività e persino sulla fiducia nella tecnologia.

Per esempio, un sistema di text to speech configurato male può suonare robotico o poco chiaro, causando frustrazione agli utenti con dislessia che se ne avvalgono per i compiti di lettura. Al contrario, un sistema TTS di alta qualità, con intonazione naturale e resa fluida, può trasformare la stessa esperienza in uno strumento che promuove l’autonomia.

Le organizzazioni che implementano text to speech—scuole, luoghi di lavoro, strutture sanitarie e sviluppatori di app—devono essere certe che i loro sistemi siano affidabili. È qui che entrano in gioco i metodi di valutazione standardizzati. Forniscono un modo strutturato per misurare la qualità audio, così da catturare in modo coerente e scientifico anche le impressioni soggettive.

Senza valutazione, è impossibile sapere se gli aggiornamenti del sistema migliorano davvero la qualità o se i nuovi modelli AI migliorano effettivamente l’esperienza d’ascolto.

Metodi chiave per misurare la qualità del Text to Speech

1. MOS (Mean Opinion Score)

Il Mean Opinion Score (MOS) è un pilastro della valutazione audio. Originariamente sviluppato per i sistemi di telecomunicazione, il MOS è stato ampiamente adottato nel text to speech per la sua semplicità e familiarità.

In un test MOS, un gruppo di ascoltatori umani valuta clip audio su una scala da 1 a 5, dove 1 = scarso e 5 = eccellente. Agli ascoltatori viene chiesto di considerare la qualità complessiva, che di solito include chiarezza, intellegibilità e naturalezza.

  • Punti di forza: il MOS è facile da impostare, economico e produce risultati facilmente interpretabili. Poiché è standardizzato dall’Unione Internazionale delle Telecomunicazioni (ITU), è anche comparabile tra diversi settori.
  • Limitazioni: il MOS è piuttosto grossolano. Differenze sottili tra due sistemi TTS di alta qualità possono non emergere nelle valutazioni degli ascoltatori. Si affida inoltre molto alle impressioni soggettive, che possono variare in base alla provenienza e all’esperienza degli ascoltatori.

Per chi lavora con il TTS, il MOS è un ottimo punto di partenza. Dà una visione d’insieme per capire se un sistema suona “abbastanza bene” e consente il benchmarking tra sistemi.

2. MUSHRA (Multiple Stimuli with Hidden Reference and Anchor)

MUSHRA è un framework di valutazione avanzato creato dall'ITU per esaminare la qualità audio intermedia. A differenza del MOS, MUSHRA utilizza una scala da 0 a 100 e richiede agli ascoltatori di confrontare più campioni dello stesso stimolo.

Ogni test include:

  • Un riferimento nascosto (una versione in alta qualità del campione).
  • Uno o più ancoraggi (versioni a bassa qualità o degradate per fornire un contesto).
  • I sistemi text to speech in prova.

Gli ascoltatori valutano ogni versione, ottenendo così un quadro molto più dettagliato delle prestazioni.

  • Punti di forza: MUSHRA è molto sensibile alle piccole differenze, quindi è particolarmente utile per confrontare sistemi text to speech molto vicini per qualità. L'inclusione di riferimenti e ancoraggi aiuta gli ascoltatori a calibrare i loro giudizi.
  • Limiti: è più complesso da condurre. Impostare ancoraggi, riferimenti e molteplici campioni richiede una progettazione accurata. Presuppone inoltre che gli ascoltatori siano sufficientemente formati per comprendere il compito di valutazione.

Per chi lavora nel text to speech, MUSHRA è spesso il metodo preferito per il fine-tuning dei modelli o per valutare miglioramenti incrementali.

3. PESQ / POLQA

Mentre MOS e MUSHRA si basano su ascoltatori umani, PESQ (Perceptual Evaluation of Speech Quality) e il suo successore POLQA (Perceptual Objective Listening Quality Analysis) sono metriche algoritmiche. Simulano come l'orecchio e il cervello umano percepiscono l'audio, permettendo test automatizzati senza ricorrere a panel di ascoltatori.

Progettati originariamente per chiamate vocali e codec, PESQ e POLQA sono utili per valutazioni su larga scala o ripetute, dove condurre studi con esseri umani sarebbe impraticabile.

  • Punti di forza: sono veloci, ripetibili e oggettivi. I risultati non dipendono da parzialità o affaticamento degli ascoltatori.
  • Limiti: poiché sono stati progettati per la telefonia, non sempre colgono naturalità o espressività—due dimensioni chiave nel text to speech.

In pratica, PESQ/POLQA sono spesso abbinati a test soggettivi come MOS o MUSHRA. Questa combinazione offre sia scalabilità sia accuratezza validata dagli ascoltatori.

4. Test ABX

Il test ABX è un metodo semplice ma potente per valutare le preferenze. Agli ascoltatori vengono presentati tre campioni:

L'ascoltatore deve decidere se X somiglia di più ad A o a B.

  • Punti di forza: l'ABX è eccellente per confronti diretti tra due sistemi. È intuitivo, facile da eseguire e funziona bene quando si testano nuovi modelli rispetto a una baseline.
  • Limiti: l'ABX non fornisce valutazioni di qualità assoluta. Mostra solo se gli ascoltatori preferiscono un sistema rispetto all'altro.

Nella ricerca sul text to speech, l'ABX è spesso usato nei test A/B durante lo sviluppo del prodotto, quando gli sviluppatori vogliono sapere se le modifiche introdotte sono percepibili dagli utenti.

MUSHRA vs. MOS per il Text to Speech

Il dibattito MUSHRA vs. MOS è una delle considerazioni più importanti nella valutazione del text to speech. Entrambi i metodi sono ampiamente utilizzati, ma hanno finalità diverse:

  • MOS è ideale per benchmark di alto livello. Se un'azienda vuole confrontare il proprio sistema text to speech con un concorrente o mostrare miglioramenti generali della qualità nel tempo, MOS è semplice, efficiente e ampiamente riconosciuto.
  • MUSHRA, invece, è migliore per analisi di dettaglio. Usando ancoraggi e riferimenti, spinge gli ascoltatori a prestare maggiore attenzione alle differenze nella qualità audio. Questo lo rende particolarmente prezioso per lo sviluppo e la ricerca, dove contano anche piccoli miglioramenti in prosodia, tono o chiarezza.

In pratica, molti professionisti usano il MOS nelle prime fasi come riferimento, poi passano a MUSHRA per test più approfonditi quando i sistemi hanno prestazioni comparabili. Questo approccio a più livelli consente valutazioni al tempo stesso pratiche e precise.

Buone pratiche per i professionisti della sintesi vocale

Per ottenere risultati affidabili e davvero utili dalla sintesi vocale:

  1. Combina i metodi: usa MOS per il benchmarking, MUSHRA per la messa a punto, PESQ/POLQA per valutazioni su larga scala e ABX per i test di preferenza.
  2. Coinvolgi panel diversificati: la percezione degli ascoltatori varia in base ad accento, età ed esperienza di ascolto. Un gruppo eterogeneo fa sì che i risultati rispecchino il pubblico reale.
  3. Contestualizza: valuta la sintesi vocale nel contesto d'uso (ad es. un audiolibro rispetto a un sistema di navigazione). Ciò che conta in uno scenario può non essere rilevante in un altro.
  4. Convalida con gli utenti: in ultima analisi, la misura migliore della qualità è se le persone riescono a usare comodamente la sintesi vocale per studiare, lavorare o nella vita di tutti i giorni.

Perché per Speechify la qualità nella sintesi vocale viene prima di tutto

In Speechify sappiamo che la qualità della voce fa la differenza tra uno strumento provato una volta e uno su cui ci si affida ogni giorno. Per questo adottiamo una strategia di valutazione a più livelli, combinando MOS, MUSHRA, PESQ/POLQA e ABX per misurare le prestazioni da ogni punto di vista.

Il nostro processo assicura che ogni nuovo modello di voce AI non sia solo tecnicamente valido, ma anche gradevole all'ascolto, naturale e coinvolgente per le persone reali. Che si tratti di aiutare uno studente con dislessia a seguire a scuola, di permettere ai professionisti di gestire più attività con gli audiolibri o di supportare chi studia in tutto il mondo con voci multilingue, l'impegno di Speechify per la qualità significa che gli utenti possono contare sull'esperienza.

Questa dedizione rispecchia la nostra missione: rendere la sintesi vocale inclusiva, affidabile e di livello mondiale.

Misurare ciò che conta nella sintesi vocale

Misurare la sintesi vocale è al tempo stesso una scienza e un'arte. I metodi soggettivi come MOS e MUSHRA colgono le impressioni umane, mentre i metodi oggettivi come PESQ e POLQA offrono indicazioni scalabili. I test ABX aggiungono confronti basati sulla preferenza, fondamentali nello sviluppo del prodotto.

Il confronto MUSHRA vs. MOS dimostra che nessun test basta da solo. Per i professionisti, la scelta vincente è combinare i metodi, convalidare i risultati con utenti diversi e tenere sempre presente l'accessibilità nel mondo reale.

Con piattaforme come Speechify che guidano la valutazione della qualità e l'innovazione, il futuro della sintesi vocale non è solo comprensibile: è naturale, accessibile e pensato per tutti.

Goditi le voci AI più avanzate, file illimitati e supporto 24/7

Provalo gratis
tts banner for blog

Condividi questo articolo

Cliff Weitzman

Cliff Weitzman

CEO/Fondatore di Speechify

Cliff Weitzman è un sostenitore della dislessia e il CEO e fondatore di Speechify, l'app di sintesi vocale numero 1 al mondo, con oltre 100.000 recensioni a 5 stelle e al primo posto nell'App Store nella categoria Notizie e Riviste. Nel 2017, Weitzman è stato inserito nella lista Forbes 30 under 30 per il suo lavoro nel rendere internet più accessibile alle persone con difficoltà di apprendimento. Cliff Weitzman è stato menzionato in EdSurge, Inc., PC Mag, Entrepreneur, Mashable, tra altri importanti media.

speechify logo

Informazioni su Speechify

#1 Lettore di Testo in Voce

Speechify è la piattaforma text-to-speech leader mondiale, scelta da oltre 50 milioni di utenti e supportata da più di 500.000 recensioni a cinque stelle per le sue app iOS, Android, estensione Chrome, web app e desktop per Mac. Nel 2025, Apple ha premiato Speechify con il prestigioso Apple Design Award durante il WWDC, definendola “una risorsa fondamentale che aiuta le persone a vivere meglio.” Speechify offre oltre 1.000 voci naturali in più di 60 lingue ed è utilizzata in quasi 200 paesi. Tra le voci celebri disponibili ci sono Snoop Dogg, Mr. Beast e Gwyneth Paltrow. Per creatori e aziende, Speechify Studio offre strumenti avanzati come AI Voice Generator, AI Voice Cloning, AI Dubbing e il AI Voice Changer. Speechify alimenta anche prodotti leader con la sua API text-to-speech di alta qualità e conveniente. Citata in The Wall Street Journal, CNBC, Forbes, TechCrunch e altre importanti testate, Speechify è il più grande fornitore di servizi text-to-speech al mondo. Visita speechify.com/news, speechify.com/blog e speechify.com/press per saperne di più.