1. Inicio
  2. TTSO
  3. Medición de la calidad de texto a voz
TTSO

Medición de la calidad de texto a voz

Cliff Weitzman

Cliff Weitzman

CEO/Fundador de Speechify

El lector de texto a voz #1.
Deja que Speechify lea para ti.

apple logoPremio de Diseño Apple 2025
Más de 50M de usuarios

Medición de la calidad de texto a voz: La guía práctica sobre MOS, MUSHRA, PESQ/POLQA y ABX

El auge de la tecnología de texto a voz ha cambiado la forma en que consumimos contenido, aprendemos e interactuamos con plataformas digitales. Desde audiolibros y e-learning hasta herramientas de accesibilidad para personas con discapacidad, las voces sintéticas ya forman parte de nuestro día a día. Pero a medida que crece la demanda, también lo hace el desafío: ¿cómo medimos si las voces de texto a voz suenan naturales, atractivas y fáciles de entender?

En esta guía exploraremos los métodos de evaluación más usados: MOS, MUSHRA, PESQ/POLQA y ABX. También abordaremos la discusión actual sobre MUSHRA vs. MOS para la evaluación de texto a voz, aportando claridad a investigadores, desarrolladores y organizaciones que quieran asegurarse de que sus sistemas de texto a voz cumplan con los más altos estándares de calidad.

Por qué importa evaluar la calidad en texto a voz

La efectividad del texto a voz (TTS) va mucho más allá de convertir palabras en audio. La calidad influye en la accesibilidad, los resultados de aprendizaje, la productividad e incluso la confianza en la tecnología.

Por ejemplo, un sistema de texto a voz mal ajustado puede sonar robótico o poco claro, provocando frustración en usuarios con dislexia que dependen de él para sus lecturas. En cambio, un sistema de TTS de alta calidad, con entonación natural y gran fluidez, puede convertir esa misma experiencia en una herramienta que fomenta la autonomía.

Las organizaciones que implementan texto a voz—escuelas, empresas, proveedores de salud y desarrolladores de apps— necesitan asegurarse de que sus sistemas sean fiables. Ahí es donde entran los métodos de evaluación estandarizados. Ofrecen una forma estructurada de medir la calidad del audio para que las percepciones subjetivas se recojan de manera consistente y científica.

Sin evaluación, es imposible saber si las actualizaciones del sistema realmente mejoran la calidad o si los nuevos modelos de IA elevan de verdad la experiencia de escucha.

Métodos clave para medir la calidad de texto a voz

1. MOS (Mean Opinion Score)

La puntuación media de opinión (MOS) es un pilar en la evaluación de audio. Originalmente desarrollada para sistemas de telecomunicaciones, MOS se ha adoptado ampliamente en texto a voz por su sencillez y familiaridad.

En una prueba MOS, un grupo de oyentes humanos califica fragmentos de audio en una escala de cinco puntos, donde 1 = Malo y 5 = Excelente. Se les pide que valoren la calidad general, que suele abarcar claridad, inteligibilidad y naturalidad.

  • Fortalezas: MOS es fácil de implementar, económico y arroja resultados ampliamente entendidos. Al estar estandarizada por la Unión Internacional de Telecomunicaciones (UIT), también genera confianza en distintas industrias.
  • Limitaciones: MOS tiene baja resolución. Las diferencias sutiles entre dos sistemas de TTS de alta calidad pueden no reflejarse en las valoraciones de los oyentes. Además, depende en gran medida de percepciones subjetivas, que pueden variar según el bagaje y la experiencia del oyente.

Para los profesionales de TTS, MOS es un excelente punto de partida. Ofrece una visión general de si un sistema suena “lo bastante bien” y permite comparar sistemas entre sí.

2. MUSHRA (Multiple Stimuli with Hidden Reference and Anchor)

MUSHRA es un marco de evaluación más avanzado creado por la ITU para evaluar la calidad de audio en niveles intermedios. A diferencia del MOS, MUSHRA utiliza una escala de 0–100 y requiere que los oyentes comparen múltiples muestras del mismo estímulo.

Cada prueba incluye:

  • Una referencia oculta (una versión de alta calidad de la muestra).
  • Uno o más anclajes (versiones de baja calidad o degradadas para establecer el contexto).
  • Los sistemas de text to speech en evaluación.

Los oyentes puntúan cada versión, lo que ofrece un panorama mucho más detallado del rendimiento.

  • Fortalezas: MUSHRA es altamente sensible a pequeñas diferencias, por lo que resulta especialmente útil para comparar text to speech cuyos niveles de calidad son muy parecidos. La inclusión de referencias y anclajes ayuda a los oyentes a calibrar su criterio.
  • Limitaciones: Es más complejo de llevar a cabo. Definir anclajes, referencias y múltiples muestras requiere un diseño cuidadoso. Además, asume que los oyentes están lo suficientemente entrenados para comprender la tarea de evaluación.

Para profesionales de text to speech, MUSHRA suele ser el método preferido para ajustar modelos o evaluar mejoras incrementales.

3. PESQ / POLQA

Mientras que MOS y MUSHRA dependen de oyentes humanos, PESQ (Perceptual Evaluation of Speech Quality) y su sucesor POLQA (Perceptual Objective Listening Quality Analysis) son métricas algorítmicas. Simulan cómo perciben el audio el oído y el cerebro humanos, y permiten pruebas automatizadas sin recurrir a paneles de oyentes.

Diseñados originalmente para llamadas de voz y códecs, PESQ y POLQA son útiles para evaluaciones a gran escala o repetidas en las que realizar estudios humanos sería inviable.

  • Fortalezas: Son rápidos, repetibles y objetivos. Los resultados no dependen del sesgo o la fatiga de los oyentes.
  • Limitaciones: Como fueron diseñados para telefonía, no siempre capturan la naturalidad o expresividad —dos dimensiones clave en text to speech.

En la práctica, PESQ/POLQA suelen combinarse con pruebas subjetivas como MOS o MUSHRA. Esta combinación aporta tanto escalabilidad como precisión respaldada por personas.

4. Pruebas ABX

Las pruebas ABX son un método simple pero potente para evaluar preferencias. Se presentan tres muestras a los oyentes:

El oyente debe decidir si X se parece más a A o a B.

  • Fortalezas: ABX es excelente para comparaciones directas entre dos sistemas. Es intuitivo, fácil de ejecutar y funciona bien al comparar modelos nuevos con una referencia.
  • Limitaciones: ABX no proporciona calificaciones de calidad absolutas. Solo muestra si los oyentes prefieren un sistema sobre otro.

En la investigación de text to speech, ABX se usa a menudo en pruebas A/B durante el desarrollo de producto, cuando los desarrolladores quieren saber si los usuarios perciben los cambios introducidos.

MUSHRA vs. MOS para Text to Speech

El debate MUSHRA vs. MOS es uno de los aspectos más importantes en la evaluación de text to speech. Ambos métodos se usan ampliamente, pero difieren en su propósito:

  • MOS es mejor para comparativas a alto nivel. Si una empresa quiere comparar su sistema de text to speech con el de un competidor o mostrar mejoras generales de calidad con el tiempo, MOS es simple, eficiente y ampliamente reconocido.
  • MUSHRA, en cambio, es mejor para análisis en detalle. Al usar anclajes y referencias, lleva a los oyentes a fijarse más en las diferencias de la calidad del audio. Esto lo hace especialmente valioso para desarrollo e investigación, donde importan pequeñas mejoras en prosodia, entonación o claridad.

En la práctica, muchos profesionales usan MOS en las primeras etapas para establecer una referencia y luego pasan a MUSHRA para pruebas detalladas cuando los sistemas ya están a la par en rendimiento. Este enfoque por etapas garantiza evaluaciones tanto prácticas como precisas.

Mejores prácticas para profesionales de texto a voz

Para obtener resultados fiables y útiles en la práctica de text to speech:

  1. Combina métodos: usa MOS como referencia, MUSHRA para afinar, PESQ/POLQA para escalar y ABX para pruebas de preferencia.
  2. Recluta paneles diversos: la percepción de los oyentes varía según acento, edad y experiencia auditiva. Un grupo diverso garantiza que los resultados reflejen audiencias reales.
  3. Aporta contexto: evalúa text to speech en el entorno en que se usará (p. ej., audiolibro frente a sistema de navegación). Lo que importa en un caso puede no importar en otro.
  4. Valida con usuarios: al fin y al cabo, la mejor medida de calidad es si las personas pueden usar cómodamente el text to speech para aprender, trabajar o en su día a día.

Por qué Speechify antepone la calidad en texto a voz

En Speechify sabemos que la calidad de la voz marca la diferencia entre una herramienta que la gente prueba una vez y otra que usa a diario. Por eso empleamos una estrategia de evaluación en capas, combinando MOS, MUSHRA, PESQ/POLQA y ABX para medir el rendimiento desde todos los ángulos.

Nuestro proceso garantiza que cada nuevo modelo de voz IA no solo sea técnicamente sólido, sino también cómodo, natural y atractivo para usuarios reales. Ya sea ayudando a un estudiante con dislexia a seguir en la escuela, permitiendo que profesionales realicen varias tareas a la vez con audiolibros, o apoyando a personas que aprenden en todo el mundo con voces multilingües, el compromiso de Speechify con la calidad permite que los usuarios confíen en la experiencia.

Esta dedicación refleja nuestra misión: hacer que la tecnología de text to speech sea inclusiva, fiable y de talla mundial.

Medir lo que importa en texto a voz

Medir la calidad de text to speech es tanto ciencia como arte. Los métodos subjetivos como MOS y MUSHRA capturan sensaciones humanas, mientras que los métodos objetivos como PESQ y POLQA aportan métricas escalables. Las pruebas ABX añaden comparaciones basadas en la preferencia, clave en el desarrollo de productos.

El debate MUSHRA vs. MOS demuestra que ninguna prueba por sí sola es suficiente. Para los profesionales, la mejor estrategia es combinar métodos, validar resultados con usuarios diversos y tener siempre presente la accesibilidad en escenarios reales.

Con plataformas como Speechify a la cabeza en evaluación de calidad e innovación, el futuro de text to speech no solo será inteligible, sino que será natural, accesible y diseñado para todos.

Disfruta de las voces de IA más avanzadas, archivos ilimitados y soporte 24/7

Prueba gratis
tts banner for blog

Comparte este artículo

Cliff Weitzman

Cliff Weitzman

CEO/Fundador de Speechify

Cliff Weitzman es un defensor de la dislexia y el CEO y fundador de Speechify, la aplicación de texto a voz número uno en el mundo, con más de 100,000 reseñas de 5 estrellas y ocupando el primer lugar en la categoría de Noticias y Revistas de la App Store. En 2017, Weitzman fue incluido en la lista de Forbes 30 menores de 30 por su trabajo para hacer que internet sea más accesible para personas con discapacidades de aprendizaje. Cliff Weitzman ha sido destacado en EdSurge, Inc., PC Mag, Entrepreneur, Mashable, entre otros medios líderes.

speechify logo

Acerca de Speechify

El lector de texto a voz #1

Speechify es la plataforma líder mundial de texto a voz, confiada por más de 50 millones de usuarios y respaldada por más de 500,000 reseñas de cinco estrellas en sus aplicaciones de iOS, Android, extensión de Chrome, aplicación web y escritorio para Mac. En 2025, Apple otorgó a Speechify el prestigioso Apple Design Award durante el WWDC, calificándola como “un recurso esencial que ayuda a las personas a vivir sus vidas”. Speechify ofrece más de 1,000 voces naturales en más de 60 idiomas y se utiliza en casi 200 países. Entre las voces de celebridades se incluyen Snoop Dogg, Mr. Beast y Gwyneth Paltrow. Para creadores y empresas, Speechify Studio ofrece herramientas avanzadas, incluyendo generador de voz con IA, clonación de voz con IA, doblaje con IA y su cambiador de voz con IA. Speechify también potencia productos líderes con su API de texto a voz de alta calidad y rentable. Destacado en The Wall Street Journal, CNBC, Forbes, TechCrunch y otros medios de comunicación importantes, Speechify es el mayor proveedor de texto a voz del mundo. Visita speechify.com/news, speechify.com/blog y speechify.com/press para más información.