Medición de la calidad de Text to Speech: Guía práctica de MOS, MUSHRA, PESQ/POLQA y ABX
El auge de text to speech ha transformado la forma en que las personas consumen contenido, aprenden e interactúan con las plataformas digitales. Desde audiolibros y e-learning hasta herramientas de accesibilidad para personas con discapacidad, las voces sintéticas ya forman parte del día a día. Pero, a medida que la demanda crece, también lo hace el reto: ¿cómo medimos si las voces de text to speech suenan naturales, atractivas y fáciles de entender?
En esta guía exploraremos los métodos de evaluación más utilizados—MOS, MUSHRA, PESQ/POLQA y ABX. También profundizaremos en el debate sobre MUSHRA vs. MOS para la evaluación de text to speech, aportando claridad a investigadores, desarrolladores y organizaciones que quieren asegurarse de que sus sistemas de text to speech cumplan con los estándares de calidad más altos.
Por qué es importante evaluar la calidad en Text to Speech
La eficacia del text to speech (TTS) va mucho más allá de convertir palabras en audio. La calidad afecta la accesibilidad, los resultados de aprendizaje, la productividad e incluso la confianza en la tecnología.
Por ejemplo, un sistema de text to speech mal configurado puede sonar robótico o poco claro, y frustrar a usuarios con dislexia que dependen de él para sus lecturas. En cambio, un sistema de TTS de alta calidad, con entonación natural y buena fluidez, puede convertir esa misma experiencia en una herramienta que potencia su autonomía.
Las organizaciones que implementan text to speech—colegios, empresas, proveedores de servicios de salud y desarrolladores de apps—deben asegurarse de que sus sistemas sean fiables. Ahí es donde entran los métodos estandarizados de evaluación. Proporcionan una forma estructurada de medir la calidad del audio, garantizando que las impresiones subjetivas se capturen de manera coherente y rigurosa.
Sin evaluación, es imposible saber si las actualizaciones del sistema de verdad mejoran la calidad o si los nuevos modelos de IA realmente enriquecen la experiencia de escucha.
Métodos clave para medir la calidad de Text to Speech
1. MOS (Mean Opinion Score)
El Mean Opinion Score (MOS) es una piedra angular en la evaluación de audio. Desarrollado originalmente para sistemas de telecomunicaciones, el MOS se ha adoptado ampliamente en text to speech por su simplicidad y familiaridad.
En una prueba MOS, un grupo de oyentes humanos valora fragmentos de audio en una escala de cinco puntos, donde 1 = Malo y 5 = Excelente. Se pide a los oyentes que consideren la calidad general, que normalmente incluye claridad, inteligibilidad y naturalidad.
- Ventajas: MOS es fácil de poner en marcha, económico y arroja resultados fáciles de interpretar. Al estar estandarizado por la Unión Internacional de Telecomunicaciones (UIT), también genera confianza en distintas industrias.
- Limitaciones: MOS es poco preciso. Diferencias sutiles entre dos sistemas de TTS de alta calidad pueden no quedar reflejadas en las puntuaciones de los oyentes. Además, depende mucho de impresiones subjetivas, que pueden variar según el bagaje y la experiencia de cada oyente.
Para los profesionales de TTS, MOS es un excelente punto de partida. Ofrece un panorama general sobre si un sistema suena “lo suficientemente bien” y permite comparar sistemas.
2. MUSHRA (Multiple Stimuli with Hidden Reference and Anchor)
MUSHRA es un método de evaluación más avanzado, creado por la UIT, para valorar la calidad intermedia del audio. A diferencia de MOS, MUSHRA usa una escala de 0–100 y requiere que los oyentes comparen varias versiones del mismo estímulo.
Cada prueba incluye:
- Una referencia oculta (una versión de alta calidad de la muestra).
- Uno o más anclajes (versiones de baja calidad o degradadas para servir de punto de referencia).
- Los text to speech en evaluación.
Los oyentes califican cada versión, lo que ofrece una imagen mucho más detallada del desempeño.
- Fortalezas: MUSHRA es muy sensible a diferencias sutiles, por lo que resulta especialmente útil para comparar text to speech de calidades muy similares. La inclusión de referencias y anclajes ayuda a los oyentes a calibrar sus juicios.
- Limitaciones: Es más complejo de llevar a cabo. Configurar anclajes, referencias y múltiples muestras requiere un diseño cuidadoso. También da por hecho que los oyentes tienen suficiente entrenamiento para comprender la tarea de evaluación.
En entornos profesionales de text to speech, MUSHRA suele ser el método de referencia para afinar modelos o evaluar mejoras graduales.
3. PESQ / POLQA
Mientras que MOS y MUSHRA dependen de oyentes humanos, PESQ (Perceptual Evaluation of Speech Quality) y su sucesor POLQA (Perceptual Objective Listening Quality Analysis) son métricas algorítmicas. Simulan la forma en que el oído y el cerebro humanos perciben el audio, lo que permite realizar pruebas automatizadas sin paneles de oyentes.
Diseñados originalmente para llamadas de voz y códecs, PESQ y POLQA son útiles para evaluaciones a gran escala o repetidas, cuando resultaría poco práctico realizar estudios con personas.
- Fortalezas: Son rápidos, reproducibles y objetivos. Los resultados no se ven afectados por sesgos ni por la fatiga de los oyentes.
- Limitaciones: Debido a que fueron diseñados para telefonía, no siempre capturan la naturalidad o la expresividad—dos dimensiones clave en text to speech.
En la práctica, PESQ/POLQA se suelen combinar con pruebas subjetivas como MOS o MUSHRA. Esta combinación aporta escalabilidad y precisión validada por humanos.
4. Pruebas ABX
Las pruebas ABX son un método sencillo pero potente para evaluar preferencias. A los oyentes se les presentan tres muestras:
- A (sistema 1 de text to speech)
- B (sistema 2 de text to speech)
- X (coincide con A o con B)
El oyente debe decidir si X suena más como A o como B.
- Fortalezas: ABX es excelente para comparaciones directas entre dos sistemas. Es intuitivo, fácil de implementar y funciona bien al comparar modelos nuevos con una referencia.
- Limitaciones: ABX no proporciona calificaciones de calidad absolutas. Solo muestra si los oyentes prefieren un sistema sobre otro.
En la investigación de text to speech, ABX se utiliza a menudo en pruebas A/B durante el desarrollo del producto, cuando los equipos quieren saber si los usuarios perciben los cambios introducidos.
MUSHRA vs. MOS para Text to Speech
El debate MUSHRA vs. MOS es uno de los temas clave en la evaluación de text to speech. Ambos métodos se usan ampliamente, pero difieren en su propósito:
- MOS es mejor para benchmarking de alto nivel. Si una empresa quiere comparar su text to speech con el de un competidor o mostrar mejoras generales de calidad con el tiempo, MOS es simple, eficiente y ampliamente reconocido.
- MUSHRA, en cambio, es más adecuado para análisis detallados. Al usar anclas y referencias, obliga a los oyentes a fijarse más en las diferencias en la calidad del audio. Esto lo vuelve especialmente valioso para el desarrollo y la investigación, donde pequeñas mejoras en prosodia, tono o claridad marcan la diferencia.
En la práctica, muchos profesionales usan MOS en las etapas iniciales para obtener una línea de base y luego pasan a MUSHRA para pruebas detalladas cuando los sistemas tienen rendimientos similares. Este enfoque en capas garantiza que las evaluaciones sean tanto prácticas como precisas.
Mejores prácticas para profesionales de Text to Speech
Para obtener resultados fiables y útiles de la evaluación de text to speech:
- Combina métodos: usa MOS para benchmarking, MUSHRA para ajuste fino, PESQ/POLQA para evaluaciones a escala y ABX para pruebas de preferencia.
- Reúne paneles diversos: la percepción de los oyentes varía por acento, edad y experiencia auditiva. Un grupo diverso garantiza que los resultados reflejen audiencias reales.
- Aporta contexto: evalúa text to speech en el contexto de uso (por ejemplo, audiolibro frente a sistema de navegación). Lo que importa en un escenario puede no ser relevante en otro.
- Valida con usuarios: a fin de cuentas, la mejor medida de calidad es que las personas puedan usar cómodamente el text to speech para aprender, trabajar o en su día a día.
Por qué Speechify prioriza la calidad en Text to Speech
En Speechify sabemos que la calidad de la voz marca la diferencia entre una herramienta que la gente prueba una vez y otra que usan a diario. Por eso empleamos una estrategia de evaluación multinivel, combinando MOS, MUSHRA, PESQ/POLQA y ABX para medir el rendimiento desde todos los ángulos.
Nuestro proceso garantiza que cada nuevo modelo de voz de IA no solo sea técnicamente sólido, sino también cómodo, natural y atractivo para usuarios reales. Ya sea ayudando a un estudiante con dislexia a seguir en la escuela, permitiendo a profesionales hacer varias tareas a la vez con audiolibros, o apoyando a estudiantes de todo el mundo con voces multilingües, el compromiso de Speechify con la calidad permite que los usuarios confíen en la experiencia.
Esta dedicación refleja nuestra misión: hacer que la tecnología de text to speech sea inclusiva, fiable y de clase mundial.
Medir lo que importa en Text to Speech
Medir la calidad de text to speech es tanto una ciencia como un arte. Métodos subjetivos como MOS y MUSHRA captan impresiones humanas, mientras que métodos objetivos como PESQ y POLQA aportan métricas escalables. Las pruebas ABX añaden comparaciones basadas en preferencias que son clave en el desarrollo de productos.
El debate MUSHRA vs. MOS deja claro que ninguna prueba por sí sola basta. Para los profesionales, la mejor estrategia es combinar métodos, validar los resultados con usuarios diversos y tener siempre presente la accesibilidad en el mundo real.
Con plataformas como Speechify liderando la evaluación de calidad y la innovación, el futuro del text to speech no solo será inteligible: será natural, accesible y pensado para todos.

