衡量文本转语音质量:面向实践者的 MOS、MUSHRA、PESQ/POLQA 与 ABX 指南
随着 文本转语音 技术的兴起,人们获取内容、学习和与数字平台互动的方式发生了变革。从 有声书 和 在线教育 到为残障人士提供的 无障碍 工具,合成语音已成为现代生活的一部分。但随着需求增长,问题也随之而来:我们如何衡量 文本转语音 的声音是否自然、富有吸引力且易于理解?
在本指南中,我们将探讨最为广泛使用的评估方法——MOS、MUSHRA、PESQ/POLQA 与 ABX。我们还将深入讨论 MUSHRA 与 MOS 在 文本转语音 评估中的之争,为研究人员、开发者和希望确保其 文本转语音 系统达到最高质量标准的组织提供清晰的指引。
为何文本转语音的质量评估至关重要
文本转语音(TTS)的有效性远不止于将文字转换为音频。质量会影响无障碍、学习成果、生产力,甚至影响人们对这项技术的信任。
例如,一个调校不当的 文本转语音 系统可能听起来生硬或不清晰,会让依赖它完成阅读的 阅读障碍(如诵读困难) 用户倍感挫败。相反,具有自然语调和平滑表达的高质量 TTS 系统则能把同样的体验变成助力独立的有力工具。
部署 文本转语音 的组织——学校、工作场所、医疗机构和应用开发者——必须对其系统的可靠性有信心。这正是标准化评估方法大显身手之处。它们提供了结构化衡量音频质量的手段,确保主观印象可以以一致、科学的方式被捕捉。
如果没有评估,就无法判断系统更新是否真正提升了质量,或者新 AI 模型是否确实改善了听感体验。
衡量文本转语音质量的关键方法
1. MOS(主观平均分)
主观平均分(MOS)是音频评估的基石。最初为电信系统开发,MOS 因其简单易用且认知度高,而被广泛应用于文本转语音 领域。
在 MOS 测试中,一组受试听众会使用五分制对音频片段打分(1 = 差,5 = 优秀)。听众通常会综合考虑清晰度、可懂性和自然度来评判总体质量。
- 优点:MOS 易于开展、成本低;结果通俗易懂。由于已被国际电信联盟(ITU)标准化,各行业对其信赖度较高。
- 局限:MOS 粒度较粗。两套高质量的 TTS 系统之间的细微差别可能难以在评分中体现。并且高度依赖主观感受,易受听众背景与经验影响。
对 TTS 从业者来说,MOS 是一个很好的起点。它提供了系统是否“足够好”的整体视角,也便于不同系统之间的基准对比。
2. MUSHRA (Multiple Stimuli with Hidden Reference and Anchor)
MUSHRA 是国际电信联盟(ITU)提出的更高级评估框架,用于评估中等质量的音频。与 MOS 不同,MUSHRA 使用 0–100 的评分尺度,并要求听众比较同一刺激的多个样本。
每次测试包括:
- 一个隐藏参考(该样本的高质量版本)。
- 一个或多个锚点(低质或降级版本,用于设定参照/校准刻度)。
- 待测的 text to speech 系统。
听众为每个版本打分,从而勾勒出更细致的性能画像。
- 优点:MUSHRA 对细微差异极为敏感,尤其适合比较质量接近的 text to speech 系统。参考与锚点的设置有助于听众校准判断。
- 局限:实施更为复杂。设置锚点、参考和多个样本需要精心设计,同时也假设听众经过足够训练,能理解评分任务。
对于 text to speech 从业者而言,MUSHRA 常被用作微调模型或评估渐进改进的首选方案。
3. PESQ / POLQA
MOS 和 MUSHRA 依赖人工听众,而 PESQ(感知语音质量评估)及其继任者 POLQA(感知客观听觉质量分析)则是算法度量。它们模拟人耳与大脑对音频的感知,从而可在无需人工小组的情况下进行自动化测试。
PESQ 和 POLQA 最初为语音通话和编解码器设计,尤其适合大规模或重复性评估,在不便开展人工研究的场景中尤为有用。
- 优点:快速、可重复且客观。结果不受听众偏见或疲劳影响。
- 局限:由于设计初衷为电话通信,它们不一定能充分捕捉自然度或表现力——而这恰是 text to speech 的关键维度。
在实践中,PESQ/POLQA 常与主观测试(如 MOS 或 MUSHRA)结合使用,既兼顾可扩展性,又保有人工验证的准确性。
4. ABX Testing
ABX 测试是一种简单却有效的偏好评估方法。会向听众呈现三个样本:
- A( text to speech 系统 1)
- B( text to speech 系统 2)
- X(与 A 或 B 相匹配)
听众需要判断 X 更像 A 还是更像 B。
- 优点:ABX 非常适合对两个系统进行直接比较。直观易行,在将新模型与基线比较时效果良好。
- 局限:ABX 无法提供绝对质量评分,只能说明听众是否偏好某个系统而非另一个。
在 text to speech 研究中,ABX 常用于产品开发中的 A/B 测试,帮助开发者了解用户是否能察觉到新的改动。
MUSHRA vs. MOS for Text to Speech
选择 MUSHRA 还是 MOS,是 text to speech 评估中最关键的权衡之一。两种方法都很常用,但侧重点不同:
- MOS 适用于更宏观的基准测试。公司若想拿自家的 text to speech 系统和竞品对比,或展示整体质量随时间的提升,MOS 简单、高效,且业内广泛认可。
- 而 MUSHRA 更适合细致分析。借助锚点和参照,它能引导听众更留意音频质量的细微差异。这对开发与研究尤为有价值,特别是在韵律、音高或清晰度的微小改进至关重要的场景。
实际操作中:许多从业者在早期阶段用 MOS 来建立基线;当各系统性能逐渐接近时,再改用 MUSHRA 做深入细测。这种分层思路既务实又精准。
语音合成从业者的最佳实践
想从 text to speech 评估中拿到可靠、可落地的结果:
- 方法组合:用 MOS 做基准测试,用 MUSHRA 做微调,用 PESQ/POLQA 做大规模评估,用 ABX 做偏好测试。
- 招募多样化的评审小组:听众感知会因口音、年龄和听音经验而异。多元样本能让结果更贴近真实受众。
- 提供上下文:把 text to speech 放到真实使用场景里评估(例如有声书与导航系统)。一个场景看重的点,换到另一个场景未必重要。
- 以用户为先:归根结底,衡量质量的最佳标准,是人们能否舒舒服服地把 text to speech 用于学习、工作和日常生活。
为什么 Speechify 将语音合成质量放在首位
在 Speechify,我们深知声音质量决定一个工具是昙花一现的尝试,还是成为日常依赖。因此我们采用多层次评估策略,结合 MOS、MUSHRA、PESQ/POLQA 和 ABX,从多个维度衡量性能。
我们的流程确保每个新的 AI 语音模型不只是技术上过硬,更要让真实用户听着舒适、自然、还有吸引力。无论是帮助有 dyslexia 的学生跟上课堂进度,还是让专业人士通过 audiobooks 实现多任务处理,或支持使用多语种语音的全球学习者,Speechify 对质量的坚持,都是用户放心依赖的底气。
这一承诺映射着我们的使命:让 text to speech 技术更包容、更可靠,并达到世界级水准。
衡量语音合成中真正重要的指标
衡量 text to speech 质量既是科学,也是艺术。主观方法如 MOS 和 MUSHRA 能捕捉人的主观感受;客观方法如 PESQ 和 POLQA 则提供可规模化的洞见。ABX 测试补充了基于偏好的对比,在产品开发中至关重要。
围绕 MUSHRA 与 MOS 的讨论说明,单一测试并不够全面。对从业者而言,最佳策略是组合多种方法,用多元用户验证结果,并始终把现实世界的 accessibility 纳入考量。
在像 Speechify 这样的领先质量评估与创新平台推动下,text to speech 的未来不止听得清,还更自然、更易用,面向所有人。

