衡量文本转语音质量

衡量文本转语音质量：面向实践者的 MOS、MUSHRA、PESQ/POLQA 与 ABX 指南

随着文本转语音技术的兴起，人们获取内容、学习和与数字平台互动的方式发生了变革。从有声书和在线教育到为残障人士提供的无障碍工具，合成语音已成为现代生活的一部分。但随着需求增长，问题也随之而来：我们如何衡量文本转语音的声音是否自然、富有吸引力且易于理解？

在本指南中，我们将探讨最为广泛使用的评估方法——MOS、MUSHRA、PESQ/POLQA 与 ABX。我们还将深入讨论 MUSHRA 与 MOS 在文本转语音评估中的之争，为研究人员、开发者和希望确保其文本转语音系统达到最高质量标准的组织提供清晰的指引。

为何文本转语音的质量评估至关重要

文本转语音（TTS）的有效性远不止于将文字转换为音频。质量会影响无障碍、学习成果、生产力，甚至影响人们对这项技术的信任。

例如，一个调校不当的文本转语音系统可能听起来生硬或不清晰，会让依赖它完成阅读的阅读障碍（如诵读困难）用户倍感挫败。相反，具有自然语调和平滑表达的高质量 TTS 系统则能把同样的体验变成助力独立的有力工具。

部署文本转语音的组织——学校、工作场所、医疗机构和应用开发者——必须对其系统的可靠性有信心。这正是标准化评估方法大显身手之处。它们提供了结构化衡量音频质量的手段，确保主观印象可以以一致、科学的方式被捕捉。

如果没有评估，就无法判断系统更新是否真正提升了质量，或者新 AI 模型是否确实改善了听感体验。

衡量文本转语音质量的关键方法

1. MOS（主观平均分）

主观平均分（MOS）是音频评估的基石。最初为电信系统开发，MOS 因其简单易用且认知度高，而被广泛应用于文本转语音领域。

在 MOS 测试中，一组受试听众会使用五分制对音频片段打分（1 = 差，5 = 优秀）。听众通常会综合考虑清晰度、可懂性和自然度来评判总体质量。

优点：MOS 易于开展、成本低；结果通俗易懂。由于已被国际电信联盟（ITU）标准化，各行业对其信赖度较高。
局限：MOS 粒度较粗。两套高质量的 TTS 系统之间的细微差别可能难以在评分中体现。并且高度依赖主观感受，易受听众背景与经验影响。

对 TTS 从业者来说，MOS 是一个很好的起点。它提供了系统是否“足够好”的整体视角，也便于不同系统之间的基准对比。

2. MUSHRA (Multiple Stimuli with Hidden Reference and Anchor)

MUSHRA 是国际电信联盟（ITU）提出的更高级评估框架，用于评估中等质量的音频。与 MOS 不同，MUSHRA 使用 0–100 的评分尺度，并要求听众比较同一刺激的多个样本。

每次测试包括：

一个隐藏参考（该样本的高质量版本）。
一个或多个锚点（低质或降级版本，用于设定参照/校准刻度）。
待测的 text to speech 系统。

听众为每个版本打分，从而勾勒出更细致的性能画像。

优点：MUSHRA 对细微差异极为敏感，尤其适合比较质量接近的 text to speech 系统。参考与锚点的设置有助于听众校准判断。
局限：实施更为复杂。设置锚点、参考和多个样本需要精心设计，同时也假设听众经过足够训练，能理解评分任务。

对于 text to speech 从业者而言，MUSHRA 常被用作微调模型或评估渐进改进的首选方案。

3. PESQ / POLQA

MOS 和 MUSHRA 依赖人工听众，而 PESQ（感知语音质量评估）及其继任者 POLQA（感知客观听觉质量分析）则是算法度量。它们模拟人耳与大脑对音频的感知，从而可在无需人工小组的情况下进行自动化测试。

PESQ 和 POLQA 最初为语音通话和编解码器设计，尤其适合大规模或重复性评估，在不便开展人工研究的场景中尤为有用。

优点：快速、可重复且客观。结果不受听众偏见或疲劳影响。
局限：由于设计初衷为电话通信，它们不一定能充分捕捉自然度或表现力——而这恰是 text to speech 的关键维度。

在实践中，PESQ/POLQA 常与主观测试（如 MOS 或 MUSHRA）结合使用，既兼顾可扩展性，又保有人工验证的准确性。

4. ABX Testing

ABX 测试是一种简单却有效的偏好评估方法。会向听众呈现三个样本：

A（ text to speech 系统 1）
B（ text to speech 系统 2）
X（与 A 或 B 相匹配）

听众需要判断 X 更像 A 还是更像 B。

优点：ABX 非常适合对两个系统进行直接比较。直观易行，在将新模型与基线比较时效果良好。
局限：ABX 无法提供绝对质量评分，只能说明听众是否偏好某个系统而非另一个。

在 text to speech 研究中，ABX 常用于产品开发中的 A/B 测试，帮助开发者了解用户是否能察觉到新的改动。

MUSHRA vs. MOS for Text to Speech

选择 MUSHRA 还是 MOS，是 text to speech 评估中最关键的权衡之一。两种方法都很常用，但侧重点不同：

MOS 适用于更宏观的基准测试。公司若想拿自家的 text to speech 系统和竞品对比，或展示整体质量随时间的提升，MOS 简单、高效，且业内广泛认可。
而 MUSHRA 更适合细致分析。借助锚点和参照，它能引导听众更留意音频质量的细微差异。这对开发与研究尤为有价值，特别是在韵律、音高或清晰度的微小改进至关重要的场景。

实际操作中：许多从业者在早期阶段用 MOS 来建立基线；当各系统性能逐渐接近时，再改用 MUSHRA 做深入细测。这种分层思路既务实又精准。

语音合成从业者的最佳实践

想从 text to speech 评估中拿到可靠、可落地的结果：

方法组合：用 MOS 做基准测试，用 MUSHRA 做微调，用 PESQ/POLQA 做大规模评估，用 ABX 做偏好测试。
招募多样化的评审小组：听众感知会因口音、年龄和听音经验而异。多元样本能让结果更贴近真实受众。
提供上下文：把 text to speech 放到真实使用场景里评估（例如有声书与导航系统）。一个场景看重的点，换到另一个场景未必重要。
以用户为先：归根结底，衡量质量的最佳标准，是人们能否舒舒服服地把 text to speech 用于学习、工作和日常生活。

为什么 Speechify 将语音合成质量放在首位

在 Speechify，我们深知声音质量决定一个工具是昙花一现的尝试，还是成为日常依赖。因此我们采用多层次评估策略，结合 MOS、MUSHRA、PESQ/POLQA 和 ABX，从多个维度衡量性能。

我们的流程确保每个新的 AI 语音模型不只是技术上过硬，更要让真实用户听着舒适、自然、还有吸引力。无论是帮助有 dyslexia 的学生跟上课堂进度，还是让专业人士通过 audiobooks 实现多任务处理，或支持使用多语种语音的全球学习者，Speechify 对质量的坚持，都是用户放心依赖的底气。

这一承诺映射着我们的使命：让 text to speech 技术更包容、更可靠，并达到世界级水准。

衡量语音合成中真正重要的指标

衡量 text to speech 质量既是科学，也是艺术。主观方法如 MOS 和 MUSHRA 能捕捉人的主观感受；客观方法如 PESQ 和 POLQA 则提供可规模化的洞见。ABX 测试补充了基于偏好的对比，在产品开发中至关重要。

围绕 MUSHRA 与 MOS 的讨论说明，单一测试并不够全面。对从业者而言，最佳策略是组合多种方法，用多元用户验证结果，并始终把现实世界的 accessibility 纳入考量。

在像 Speechify 这样的领先质量评估与创新平台推动下，text to speech 的未来不止听得清，还更自然、更易用，面向所有人。

Speechify 是全球领先的文字转语音平台，深受超过 5000 万用户信赖，并在其文字转语音 iOS、Android、Chrome 扩展、网页版应用和 Mac 桌面端应用上，收获超过 50 万条五星好评。2025 年，Apple 授予 Speechify 备受业界瞩目的苹果设计大奖，并在 WWDC 盛会上称其为“帮助人们更好生活的重要资源”。Speechify 提供 1000+ 自然音色、60+ 种语言支持，服务覆盖近 200 个国家/地区。明星声音包括 Snoop Dogg 和 Gwyneth Paltrow。面向创作者和企业用户，Speechify Studio 提供强大工具，包括 AI 语音生成器、AI 语音克隆、AI 配音和高阶AI 变声器。Speechify 还通过高品质、低成本的文字转语音 API赋能行业领先产品。Speechify 被众多主流媒体报道，包括《华尔街日报》、CNBC、福布斯、TechCrunch等，现已成为全球最大的文字转语音服务提供商。更多信息请访问 speechify.com/news、speechify.com/blog 和 speechify.com/press 了解更多。

衡量文本转语音质量

Cliff Weitzman

Speechify，您的语音 AI 助手
文字转语音，语音输入，快速解答一应俱全。

衡量文本转语音质量：面向实践者的 MOS、MUSHRA、PESQ/POLQA 与 ABX 指南

为何文本转语音的质量评估至关重要