Mesurar la qualitat del text a veu

Mesurar la qualitat del text a veu: Guia pràctica de MOS, MUSHRA, PESQ/POLQA i ABX

L’avenç de la tecnologia de text a veu ha transformat la manera com la gent consumeix contingut, aprèn i interactua amb plataformes digitals. Des d’audiollibres i e-learning fins a eines d’accessibilitat per a persones amb discapacitat, les veus sintètiques formen part del dia a dia. Però com més demanda hi ha, més necessari és saber: com mesurem si les veus de text a veu sonen naturals, agradables i fàcils d’entendre?

En aquesta guia repassarem els mètodes d’avaluació més utilitzats — MOS, MUSHRA, PESQ/POLQA i ABX. També aclarirem el debat entre MUSHRA i MOS per a l’avaluació de text a veu, ajudant investigadors, desenvolupadors i organitzacions a garantir que els seus sistemes de text a veu compleixin els estàndards de qualitat més exigents.

Per què avaluar la qualitat del text a veu?

L’efectivitat del text a veu (TTS) va molt més enllà de convertir paraules en àudio. La qualitat té impacte directe en l’accessibilitat, l’aprenentatge, la productivitat i la confiança en la tecnologia.

Per exemple, un sistema de text a veu mal optimitzat pot sonar robòtic o poc clar, generant frustració a usuaris amb dislèxia que el fan servir per llegir textos. En canvi, un sistema TTS d’alta qualitat, amb entonació natural i fluïdesa, pot convertir-se en una eina d’autonomia i empoderament.

Les organitzacions que implementen text a veu—escoles, empreses, centres sanitaris o desenvolupadors d’apps— han de poder confiar plenament en els seus sistemes. Aquí és on entren els mètodes d’avaluació estandarditzats, que permeten mesurar la qualitat de l’àudio de manera estructurada i científica.

Sense avaluació, no podem saber si les actualitzacions milloren realment la qualitat ni si nous models d’IA milloren l’experiència auditiva.

Mètodes clau per mesurar la qualitat del text a veu

1. MOS (Mean Opinion Score)

El Mean Opinion Score (MOS) és una peça clau en l’avaluació d’àudio. Originalment dissenyat per a telecomunicacions, el MOS s’ha fet molt popular en el text a veu per la seva simplicitat i claredat.

En una prova MOS, diverses persones puntuen clips d’àudio d’1 a 5, on 1 = Dolent i 5 = Excel·lent. Es valora la qualitat global—claritat, intel·ligibilitat i naturalitat.

Avantatges: El MOS és fàcil d’organitzar, econòmic i els resultats són àmpliament compresos. Està estàndarditzat per la ITU i és de confiança.
Limitacions: El MOS és generalista. Diferències subtils entre sistemes TTS d’alta qualitat poden passar desapercebudes i depèn molt de la percepció subjectiva.

Per a professionals del TTS, el MOS és ideal com a punt de partida: ofereix una visió global del nivell del sistema i permet comparar entre solucions.

2. MUSHRA (Multiple Stimuli with Hidden Reference and Anchor)

MUSHRA és una metodologia avançada creada per la ITU per avaluar qualitat intermèdia. A diferència del MOS, fa servir una escala de 0–100 i compara diverses mostres d’un mateix estímul.

Cada prova inclou:

Una referència oculta (versió d’alta qualitat del fragment).
Un o més ancoratges (versions degradades per donar context).
Els sistemes de text a veu avaluats.

Els participants puntuen cada versió i s’obté així una visió detallada del rendiment.

Avantatges: El MUSHRA detecta petites diferències, sent molt útil per comparar sistemes de text a veu similars. Les referències i ancoratges ajuden a calibrar el criteri.
Limitacions: És més complex de gestionar. Cal seleccionar bé ancoratges, referències i mostres. També pressuposa que els participants sàpiguen valorar correctament.

Per a professionals del text a veu, MUSHRA és sovint el mètode preferit per afinar models o avaluar millores petites.

3. PESQ / POLQA

MOS i MUSHRA depenen d’humans, mentre que PESQ (Avaluació Perceptiva de la Qualitat de la Parla) i POLQA usen algoritmes. Simulen la percepció auditiva humana per permetre proves automàtiques sense panells de persones.

Dissenyades per a trucades de veu i còdecs, PESQ i POLQA són útils per avaluacions a gran escala o repetides que serien inviables amb proves humanes.

Avantatges: Ràpids, repetibles i objectius. No depenen de la fatiga ni del biaix de l’oient.
Limitacions: Estan pensats per a telefonia i no capten sempre la naturalitat ni l’expressivitat, essencials en el text a veu.

Normalment, PESQ/POLQA es combinen amb proves subjectives com MOS o MUSHRA. Això aporta escala i, alhora, validesa humana.

4. Test ABX

La prova ABX és senzilla però efectiva per comparar preferències. Es presenten tres mostres:

A (sistema de text a veu 1)
B (sistema de text a veu 2)
X (coincideix amb A o B)

L’oient ha de triar si X s’assembla més a A o a B.

Avantatges: L’ABX és ideal per a comparatives directes entre dos sistemes. És intuïtiu, ràpid i útil per comparar models nous amb el de referència.
Limitacions: L’ABX no dona una puntuació absoluta, només indica preferència entre opcions.

En recerca de text a veu, l’ABX s’usa sovint per a proves A/B durant el desenvolupament per saber si els usuaris noten canvis.

MUSHRA vs MOS en text a veu

El debat MUSHRA vs MOS és clau en l’avaluació del text a veu. Tots dos són àmpliament utilitzats, però difereixen en l’objectiu:

El MOS és millor per avaluar a nivell general. Si una empresa vol comparar el seu sistema de text a veu amb un competidor, o mostrar la millora global, el MOS és simple, ràpid i reconegut.
MUSHRA serveix per a anàlisi detallada. Les referències i ancoratges ajuden els oients a percebre petits canvis—útils per a recerca i desenvolupament, on matisos com prosòdia o claredat importen.

A la pràctica, molts professionals comencen amb el MOS per obtenir una línia base i passen al MUSHRA quan volen tests més precisos. Aquesta combinació facilita una avaluació alhora pràctica i rigorosa.

Bones pràctiques per a professionals del text a veu

Per obtenir resultats fiables i útils de l’avaluació de text a veu:

Combina mètodes: MOS per comparar, MUSHRA per afinar, PESQ/POLQA per escalar i ABX per preferències.
Recluta panells diversos: la percepció depèn d’accent, edat i experiència. Una mostra plural reflecteix millor el públic real.
Dona context: Avalua el text a veu en l’escenari real (audiollibre, navegació, etc.). El que és rellevant en un cas pot ser irrellevant en un altre.
Valida amb usuaris: Al final, la millor prova de qualitat és que la gent faci servir el sistema per aprendre, treballar o gestionar el dia a dia.

Per què Speechify prioritza la qualitat en el text a veu

A Speechify sabem que la qualitat de veu marca la diferència entre una eina puntual i una d’indispensable. Per això fem servir una avaluació multicapa combinant MOS, MUSHRA, PESQ/POLQA i ABX per mesurar el rendiment des de totes les perspectives.

El nostre procés garanteix que cada nou model de veu d’IA sigui no només tècnicament sòlid sinó també còmode, natural i realment atractiu. Tant per ajudar estudiants amb dislèxia, com professionals amb audiollibres, o persones d’arreu a través de veus multilingües, l’aposta per la qualitat de Speechify inspira confiança als usuaris.

Aquesta dedicació reflecteix la nostra missió: fer la tecnologia de text a veu inclusiva, fiable i de primer nivell.

Mesurant allò que importa en el text a veu

Mesurar la qualitat del text a veu és alhora ciència i art. MOS i MUSHRA capten la percepció humana; PESQ i POLQA donen perspectiva escalable. L’ABX aporta comparacions de preferència decisives en desenvolupament.

El debat MUSHRA vs MOS demostra que cap test és suficient per si sol. El millor per a professionals és combinar mètodes, validar amb usuaris diversos i pensar sempre en l’accessibilitat real.

Amb plataformes com Speechify, capdavanteres en innovació i qualitat, el futur del text a veu serà natural, accessible i obert a tothom.

Speechify és la plataforma líder mundial de text a veu, de confiança per a més de 50 milions d'usuaris i avalada per més de 500.000 ressenyes de cinc estrelles a les seves aplicacions de text a veu per a iOS, Android, Extensió de Chrome, aplicació web i aplicació per a Mac. El 2025, Apple va premiar Speechify amb el prestigiós Premi de Disseny Apple a la WWDC, qualificant-lo com “una eina essencial que ajuda la gent a viure la seva vida.” Speechify ofereix més de 1.000 veus naturals en més de 60 idiomes i s'utilitza a gairebé 200 països. Entre les veus de celebritats hi trobem Snoop Dogg i Gwyneth Paltrow. Per a creadors i empreses, Speechify Studio proporciona eines avançades com Generador de veu IA, Clonació de veus IA, Doblatge IA i el seu Canviador de veu IA. Speechify també impulsa productes líders amb la seva API de text a veu, d'alta qualitat i amb una relació qualitat-preu òptima API de text a veu. Present en The Wall Street Journal, CNBC, Forbes, TechCrunch i altres mitjans destacats, Speechify és el proveïdor de text a veu més gran del món. Visiteu speechify.com/news, speechify.com/blog i speechify.com/press per saber-ne més.

Mesurar la qualitat del text a veu

Cliff Weitzman

Speechify, el teu assistent de veu amb IA.
Text a veu. Dictat per veu. Respostes ràpides.

Mesurar la qualitat del text a veu: Guia pràctica de MOS, MUSHRA, PESQ/POLQA i ABX

Per què avaluar la qualitat del text a veu?