Оценка качества синтеза речи

Оценка качества синтеза речи: практическое руководство по MOS, MUSHRA, PESQ/POLQA и ABX

Бурное развитие синтеза речи изменило то, как мы потребляем контент, учимся и взаимодействуем с цифровыми платформами. От аудиокниг и онлайн-обучения до инструментов доступности для людей с ограниченными возможностями, синтетические голоса уже стали частью повседневной жизни. Но по мере роста спроса возникает и вопрос: как понять, звучат ли синтетические голоса естественно, приятно на слух и легко воспринимаются?

В этом руководстве мы разберём самые распространённые методики оценки — MOS, MUSHRA, PESQ/POLQA и ABX. Также подробнее обсудим сопоставление MUSHRA и MOS для оценки синтеза речи, чтобы прояснить картину для исследователей, разработчиков и организаций, стремящихся гарантировать высокое качество своих систем синтеза речи.

Почему оценка качества важна для синтеза речи

Эффективность синтеза речи (TTS) — это не только преобразование текста в звук. Качество влияет на доступность, результаты обучения, продуктивность и даже на доверие к технологии.

Например, плохо настроенная система синтеза речи может звучать роботично или невнятно, вызывая раздражение у пользователей с дислексией, которые полагаются на неё при чтении заданий. Напротив, высококачественная TTS с естественной интонацией и плавной подачей может превратить тот же опыт в инструмент, дающий пользователю большую независимость.

Организации, внедряющие синтез речи — школы, рабочие места, медицинские учреждения и разработчики приложений — должны быть уверены в надёжности своих систем. Именно здесь на помощь приходят стандартизованные методы оценки. Они дают структурированный способ измерения качества аудио, переводя субъективные впечатления в сопоставимую, научно обоснованную форму.

Без таких оценок не понять, стало ли качество выше после обновления системы и действительно ли новые модели ИИ улучшают восприятие слушателя.

Ключевые методы оценки качества синтеза речи

1. MOS (Mean Opinion Score)

Средняя субъективная оценка (MOS) — краеугольный камень оценки аудио. Изначально разработанная для телекоммуникационных систем, MOS получила широкое распространение в области синтеза речи благодаря простоте и узнаваемости.

В MOS‑тесте группа слушателей оценивает аудиоклипы по пятибалльной шкале, где 1 = Плохо, а 5 = Отлично. Слушатели оценивают общее качество — обычно это ясность, разборчивость и естественность.

Преимущества: MOS легко проводить, он недорог и даёт результаты, которые всем понятны. Поскольку он стандартизован Международным союзом электросвязи (ITU), ему доверяют в разных отраслях.
Ограничения: MOS даёт грубую оценку. Тонкие различия между двумя высококачественными TTS‑системами могут «сглаживаться» в итоговых баллах. Есть и сильная зависимость от субъективности: оценки варьируются в зависимости от опыта и подготовки слушателя.

Для специалистов по TTS MOS — отличная отправная точка. Он даёт общее представление о том, звучит ли система «достаточно хорошо», и позволяет сравнивать системы между собой.

2. MUSHRA (Multiple Stimuli with Hidden Reference and Anchor)

MUSHRA — более продвинутая методика оценки, разработанная ITU для оценки качества аудио среднего уровня. В отличие от MOS, MUSHRA использует шкалу 0–100 и предполагает, что слушатели сравнивают несколько образцов одного и того же стимула.

Каждый тест включает:

Скрытый эталон (высококачественная версия образца).
Один или несколько якорей (низкокачественные или искажённые версии для калибровки восприятия).
Тестируемые системы text to speech.

Слушатели оценивают каждую версию, что даёт гораздо более подробную картину качества работы.

Преимущества: MUSHRA очень чувствителен к небольшим различиям, поэтому особенно полезен для сравнения text to speech систем сопоставимого качества. Наличие эталона и якорей помогает слушателям откалибровать свои суждения.
Ограничения: проведение теста сложнее. Подготовка якорей, эталонов и нескольких образцов требует тщательного планирования. Также предполагается, что слушатели достаточно подготовлены и понимают постановку задачи.

Для практиков в области text to speech MUSHRA часто является предпочтительным методом для тонкой доводки моделей и оценки поэтапных улучшений.

3. PESQ / POLQA

В то время как MOS и MUSHRA опираются на человеческих слушателей, PESQ (Perceptual Evaluation of Speech Quality) и его преемник POLQA (Perceptual Objective Listening Quality Analysis) — это алгоритмические метрики. Они моделируют восприятие звука человеческим слухом и мозгом, что позволяет автоматизировать тестирование без участия людей.

Изначально разработанные для голосовых вызовов и кодеков, PESQ и POLQA полезны при масштабных или повторяющихся оценках, когда привлекать людей было бы непрактично.

Преимущества: они быстрые, воспроизводимые и объективные. Результаты не зависят от предвзятости слушателей или их усталости.
Ограничения: поскольку они были разработаны для телефонии, они не всегда хорошо отражают естественность и выразительность — два ключевых измерения в text to speech.

На практике PESQ/POLQA часто сочетают с субъективными тестами, такими как MOS или MUSHRA. Такое сочетание обеспечивает и масштабируемость, и подтверждённую человеческим восприятием точность.

4. ABX Testing

ABX-тестирование — простой, но мощный метод оценки предпочтений. Слушателям представляют три образца:

A (text to speech система 1)
B (text to speech система 2)
X (совпадает либо с A, либо с B)

Слушатель должен определить, на что X больше похож: на A или на B.

Преимущества: ABX отлично подходит для прямого сравнения двух систем. Он интуитивно понятен, прост в организации и хорошо работает при тестировании новых моделей в сравнении с базовой версией.
Ограничения: ABX не даёт абсолютных оценок качества. Он только показывает, предпочитают ли слушатели одну систему другой.

В исследованиях по text to speech ABX часто используется в A/B-тестировании на этапе разработки продукта, когда разработчики хотят знать, заметны ли пользователям изменения.

MUSHRA vs. MOS for Text to Speech

Дискуссия MUSHRA vs. MOS — один из ключевых вопросов оценки в области text to speech. Оба подхода широко применяются, но служат разным целям:

MOS лучше подходит для высокоуровневого бенчмаркинга. Если компания хочет сравнить свою систему синтеза речи с конкурентом или показать, как в целом растёт качество со временем, MOS прост, эффективен и широко признан.
А вот MUSHRA лучше подходит для детального анализа. Благодаря якорям и эталонам он помогает слушателям лучше улавливать различия в качестве звука. Это особенно ценно при разработке и исследованиях, где важны даже небольшие сдвиги в просодии, тембре или разборчивости.

На практике многие специалисты используют MOS на ранних этапах, чтобы получить базовую картину, а затем переходят на MUSHRA для детального тестирования, когда системы сближаются по качеству. Такой многоуровневый подход сочетает практичность и точность оценок.

Лучшие практики для специалистов по синтезу речи

Чтобы получать надёжные и практически полезные результаты оценки системы синтеза речи:

Комбинируйте методы: используйте MOS для бенчмаркинга, MUSHRA — для тонкой настройки, PESQ/POLQA — для проверки масштабируемости и ABX — для тестов предпочтений.
Формируйте разнородные панели слушателей: восприятие варьируется в зависимости от акцента, возраста и опыта прослушивания. Так результаты лучше отражают реальную аудиторию.
Давайте контекст: оценивайте синтез речи в том окружении, где он будет использоваться (например, аудиокнига и навигационная система). Для одного сценария важны одни параметры, для другого — другие.
Тестируйте с участием пользователей: в конечном счёте лучшая метрика качества — насколько удобно людям использовать систему синтеза речи для учёбы, работы или повседневной жизни.

Почему в Speechify качество синтеза речи — приоритет

В Speechify мы знаем, что качество голоса — это разница между инструментом, который пробуют один раз, и тем, на который полагаются ежедневно. Поэтому мы используем многоуровневую стратегию оценки, комбинируя MOS, MUSHRA, PESQ/POLQA и ABX, чтобы смотреть на качество со всех ракурсов.

Наш процесс гарантирует, что каждая новая модель голосового ИИ не только технически состоятельна, но и удобна, естественна и привлекательна для реальных пользователей. Будь то помощь студенту с дислексией в учёбе, помощь профессионалам слушать аудиокниги параллельно с другими делами или поддержка глобальных учащихся мультиязычными голосами — приверженность Speechify качеству даёт пользователям уверенность в результате.

Эта приверженность отражает нашу миссию: сделать технологию синтеза речи инклюзивной, надёжной и мирового уровня.

Измерение того, что действительно важно в синтезе речи

Измерение качества синтеза речи — это и наука, и искусство. Субъективные методы, такие как MOS и MUSHRA, улавливают человеческое восприятие, тогда как объективные методы, такие как PESQ и POLQA, дают масштабируемые данные. Тесты ABX добавляют сравнительную оценку предпочтений, которая критически важна в продуктовой разработке.

Дискуссия о MUSHRA и MOS показывает, что ни один тест сам по себе не достаточен. Для практиков лучшая стратегия — комбинировать методы, проверять результаты на разнообразных пользователях и всегда учитывать реальную доступность.

С такими платформами, как Speechify, задающими тон в оценке качества и инновациях, будущее синтеза речи будет не только разборчивым — оно будет естественным, доступным и созданным для всех.

Speechify — ведущая в мире платформа синтеза речи, которой доверяют более 50 миллионов пользователей и которая имеет свыше 500 000 отзывов с пятью звёздами во всех своих приложениях для iOS, Android, расширения Chrome, веб‑приложения и десктопа Mac. В 2025 году Apple вручила Speechify престижную Apple Design Award на WWDC, назвав приложение «критически важным ресурсом, который помогает людям жить лучше». Speechify предлагает более 1 000 натурально звучащих голосов на 60+ языках и используется почти в 200 странах. Среди голосов знаменитостей — Snoop Dogg и Гвинет Пэлтроу. Для создателей и бизнеса Speechify Studio предлагает продвинутые инструменты, такие как генератор голосов на ИИ, ИИ‑клонирование голоса, ИИ‑дубляж и ИИ‑изменение голоса. Speechify также интегрируется в ведущие продукты с помощью своего высококачественного и доступного API синтеза речи. О нас писали в The Wall Street Journal, CNBC, Forbes, TechCrunch и других крупных СМИ: Speechify — крупнейший поставщик услуг синтеза речи в мире. Подробнее на speechify.com/news, speechify.com/blog и speechify.com/press.

Оценка качества синтеза речи

Клифф Вайцман

Speechify — ваш голосовой ИИ‑ассистент
Синтез речи. Голосовой ввод. Быстрые ответы.

Оценка качества синтеза речи: практическое руководство по MOS, MUSHRA, PESQ/POLQA и ABX

Почему оценка качества важна для синтеза речи