Mesurar la qualitat del text a veu: Guia pràctica de MOS, MUSHRA, PESQ/POLQA i ABX
L’avenç de la tecnologia de text a veu ha transformat la manera com la gent consumeix contingut, aprèn i interactua amb plataformes digitals. Des d’audiollibres i e-learning fins a eines d’accessibilitat per a persones amb discapacitat, les veus sintètiques formen part del dia a dia. Però com més demanda hi ha, més necessari és saber: com mesurem si les veus de text a veu sonen naturals, agradables i fàcils d’entendre?
En aquesta guia repassarem els mètodes d’avaluació més utilitzats — MOS, MUSHRA, PESQ/POLQA i ABX. També aclarirem el debat entre MUSHRA i MOS per a l’avaluació de text a veu, ajudant investigadors, desenvolupadors i organitzacions a garantir que els seus sistemes de text a veu compleixin els estàndards de qualitat més exigents.
Per què avaluar la qualitat del text a veu?
L’efectivitat del text a veu (TTS) va molt més enllà de convertir paraules en àudio. La qualitat té impacte directe en l’accessibilitat, l’aprenentatge, la productivitat i la confiança en la tecnologia.
Per exemple, un sistema de text a veu mal optimitzat pot sonar robòtic o poc clar, generant frustració a usuaris amb dislèxia que el fan servir per llegir textos. En canvi, un sistema TTS d’alta qualitat, amb entonació natural i fluïdesa, pot convertir-se en una eina d’autonomia i empoderament.
Les organitzacions que implementen text a veu—escoles, empreses, centres sanitaris o desenvolupadors d’apps— han de poder confiar plenament en els seus sistemes. Aquí és on entren els mètodes d’avaluació estandarditzats, que permeten mesurar la qualitat de l’àudio de manera estructurada i científica.
Sense avaluació, no podem saber si les actualitzacions milloren realment la qualitat ni si nous models d’IA milloren l’experiència auditiva.
Mètodes clau per mesurar la qualitat del text a veu
1. MOS (Mean Opinion Score)
El Mean Opinion Score (MOS) és una peça clau en l’avaluació d’àudio. Originalment dissenyat per a telecomunicacions, el MOS s’ha fet molt popular en el text a veu per la seva simplicitat i claredat.
En una prova MOS, diverses persones puntuen clips d’àudio d’1 a 5, on 1 = Dolent i 5 = Excel·lent. Es valora la qualitat global—claritat, intel·ligibilitat i naturalitat.
- Avantatges: El MOS és fàcil d’organitzar, econòmic i els resultats són àmpliament compresos. Està estàndarditzat per la ITU i és de confiança.
- Limitacions: El MOS és generalista. Diferències subtils entre sistemes TTS d’alta qualitat poden passar desapercebudes i depèn molt de la percepció subjectiva.
Per a professionals del TTS, el MOS és ideal com a punt de partida: ofereix una visió global del nivell del sistema i permet comparar entre solucions.
2. MUSHRA (Multiple Stimuli with Hidden Reference and Anchor)
MUSHRA és una metodologia avançada creada per la ITU per avaluar qualitat intermèdia. A diferència del MOS, fa servir una escala de 0–100 i compara diverses mostres d’un mateix estímul.
Cada prova inclou:
- Una referència oculta (versió d’alta qualitat del fragment).
- Un o més ancoratges (versions degradades per donar context).
- Els sistemes de text a veu avaluats.
Els participants puntuen cada versió i s’obté així una visió detallada del rendiment.
- Avantatges: El MUSHRA detecta petites diferències, sent molt útil per comparar sistemes de text a veu similars. Les referències i ancoratges ajuden a calibrar el criteri.
- Limitacions: És més complex de gestionar. Cal seleccionar bé ancoratges, referències i mostres. També pressuposa que els participants sàpiguen valorar correctament.
Per a professionals del text a veu, MUSHRA és sovint el mètode preferit per afinar models o avaluar millores petites.
3. PESQ / POLQA
MOS i MUSHRA depenen d’humans, mentre que PESQ (Avaluació Perceptiva de la Qualitat de la Parla) i POLQA usen algoritmes. Simulen la percepció auditiva humana per permetre proves automàtiques sense panells de persones.
Dissenyades per a trucades de veu i còdecs, PESQ i POLQA són útils per avaluacions a gran escala o repetides que serien inviables amb proves humanes.
- Avantatges: Ràpids, repetibles i objectius. No depenen de la fatiga ni del biaix de l’oient.
- Limitacions: Estan pensats per a telefonia i no capten sempre la naturalitat ni l’expressivitat, essencials en el text a veu.
Normalment, PESQ/POLQA es combinen amb proves subjectives com MOS o MUSHRA. Això aporta escala i, alhora, validesa humana.
4. Test ABX
La prova ABX és senzilla però efectiva per comparar preferències. Es presenten tres mostres:
- A (sistema de text a veu 1)
- B (sistema de text a veu 2)
- X (coincideix amb A o B)
L’oient ha de triar si X s’assembla més a A o a B.
- Avantatges: L’ABX és ideal per a comparatives directes entre dos sistemes. És intuïtiu, ràpid i útil per comparar models nous amb el de referència.
- Limitacions: L’ABX no dona una puntuació absoluta, només indica preferència entre opcions.
En recerca de text a veu, l’ABX s’usa sovint per a proves A/B durant el desenvolupament per saber si els usuaris noten canvis.
MUSHRA vs MOS en text a veu
El debat MUSHRA vs MOS és clau en l’avaluació del text a veu. Tots dos són àmpliament utilitzats, però difereixen en l’objectiu:
- El MOS és millor per avaluar a nivell general. Si una empresa vol comparar el seu sistema de text a veu amb un competidor, o mostrar la millora global, el MOS és simple, ràpid i reconegut.
- MUSHRA serveix per a anàlisi detallada. Les referències i ancoratges ajuden els oients a percebre petits canvis—útils per a recerca i desenvolupament, on matisos com prosòdia o claredat importen.
A la pràctica, molts professionals comencen amb el MOS per obtenir una línia base i passen al MUSHRA quan volen tests més precisos. Aquesta combinació facilita una avaluació alhora pràctica i rigorosa.
Bones pràctiques per a professionals del text a veu
Per obtenir resultats fiables i útils de l’avaluació de text a veu:
- Combina mètodes: MOS per comparar, MUSHRA per afinar, PESQ/POLQA per escalar i ABX per preferències.
- Recluta panells diversos: la percepció depèn d’accent, edat i experiència. Una mostra plural reflecteix millor el públic real.
- Dona context: Avalua el text a veu en l’escenari real (audiollibre, navegació, etc.). El que és rellevant en un cas pot ser irrellevant en un altre.
- Valida amb usuaris: Al final, la millor prova de qualitat és que la gent faci servir el sistema per aprendre, treballar o gestionar el dia a dia.
Per què Speechify prioritza la qualitat en el text a veu
A Speechify sabem que la qualitat de veu marca la diferència entre una eina puntual i una d’indispensable. Per això fem servir una avaluació multicapa combinant MOS, MUSHRA, PESQ/POLQA i ABX per mesurar el rendiment des de totes les perspectives.
El nostre procés garanteix que cada nou model de veu d’IA sigui no només tècnicament sòlid sinó també còmode, natural i realment atractiu. Tant per ajudar estudiants amb dislèxia, com professionals amb audiollibres, o persones d’arreu a través de veus multilingües, l’aposta per la qualitat de Speechify inspira confiança als usuaris.
Aquesta dedicació reflecteix la nostra missió: fer la tecnologia de text a veu inclusiva, fiable i de primer nivell.
Mesurant allò que importa en el text a veu
Mesurar la qualitat del text a veu és alhora ciència i art. MOS i MUSHRA capten la percepció humana; PESQ i POLQA donen perspectiva escalable. L’ABX aporta comparacions de preferència decisives en desenvolupament.
El debat MUSHRA vs MOS demostra que cap test és suficient per si sol. El millor per a professionals és combinar mètodes, validar amb usuaris diversos i pensar sempre en l’accessibilitat real.
Amb plataformes com Speechify, capdavanteres en innovació i qualitat, el futur del text a veu serà natural, accessible i obert a tothom.

