1. 首页
  2. TTSO
  3. 衡量文本转语音质量
TTSO

衡量文本转语音质量

Cliff Weitzman

Cliff Weitzman

Speechify 首席执行官兼创始人

#1 文字转语音阅读器。
让 Speechify 为您朗读。

apple logo2025 年 Apple 设计奖
5000 万+ 用户

衡量文本转语音质量:面向实践者的 MOS、MUSHRA、PESQ/POLQA 与 ABX 指南

随着 文本转语音 技术的兴起,人们获取内容、学习和与数字平台互动的方式发生了变革。从 有声书在线教育 到为残障人士提供的 无障碍 工具,合成语音已成为现代生活的一部分。但随着需求增长,问题也随之而来:我们如何衡量 文本转语音 的声音是否自然、富有吸引力且易于理解?

在本指南中,我们将探讨最为广泛使用的评估方法——MOS、MUSHRA、PESQ/POLQA 与 ABX。我们还将深入讨论 MUSHRA 与 MOS 在 文本转语音 评估中的之争,为研究人员、开发者和希望确保其 文本转语音 系统达到最高质量标准的组织提供清晰的指引。

为何文本转语音的质量评估至关重要

文本转语音TTS)的有效性远不止于将文字转换为音频。质量会影响无障碍、学习成果、生产力,甚至影响人们对这项技术的信任。

例如,一个调校不当的 文本转语音 系统可能听起来生硬或不清晰,会让依赖它完成阅读的 阅读障碍(如诵读困难) 用户倍感挫败。相反,具有自然语调和平滑表达的高质量 TTS 系统则能把同样的体验变成助力独立的有力工具。

部署 文本转语音 的组织——学校、工作场所、医疗机构和应用开发者——必须对其系统的可靠性有信心。这正是标准化评估方法大显身手之处。它们提供了结构化衡量音频质量的手段,确保主观印象可以以一致、科学的方式被捕捉。

如果没有评估,就无法判断系统更新是否真正提升了质量,或者新 AI 模型是否确实改善了听感体验。

衡量文本转语音质量的关键方法

1. MOS(主观平均分)

主观平均分(MOS)是音频评估的基石。最初为电信系统开发,MOS 因其简单易用且认知度高,而被广泛应用于文本转语音 领域。

在 MOS 测试中,一组受试听众会使用五分制对音频片段打分(1 = 差,5 = 优秀)。听众通常会综合考虑清晰度、可懂性和自然度来评判总体质量。

  • 优点:MOS 易于开展、成本低;结果通俗易懂。由于已被国际电信联盟(ITU)标准化,各行业对其信赖度较高。
  • 局限:MOS 粒度较粗。两套高质量的 TTS 系统之间的细微差别可能难以在评分中体现。并且高度依赖主观感受,易受听众背景与经验影响。

TTS 从业者来说,MOS 是一个很好的起点。它提供了系统是否“足够好”的整体视角,也便于不同系统之间的基准对比。

2. MUSHRA (Multiple Stimuli with Hidden Reference and Anchor)

MUSHRA 是国际电信联盟(ITU)提出的更高级评估框架,用于评估中等质量的音频。与 MOS 不同,MUSHRA 使用 0–100 的评分尺度,并要求听众比较同一刺激的多个样本。

每次测试包括:

  • 一个隐藏参考(该样本的高质量版本)。
  • 一个或多个锚点(低质或降级版本,用于设定参照/校准刻度)。
  • 待测的 text to speech 系统。

听众为每个版本打分,从而勾勒出更细致的性能画像。

  • 优点:MUSHRA 对细微差异极为敏感,尤其适合比较质量接近的 text to speech 系统。参考与锚点的设置有助于听众校准判断。
  • 局限:实施更为复杂。设置锚点、参考和多个样本需要精心设计,同时也假设听众经过足够训练,能理解评分任务。

对于 text to speech 从业者而言,MUSHRA 常被用作微调模型或评估渐进改进的首选方案。

3. PESQ / POLQA

MOS 和 MUSHRA 依赖人工听众,而 PESQ(感知语音质量评估)及其继任者 POLQA(感知客观听觉质量分析)则是算法度量。它们模拟人耳与大脑对音频的感知,从而可在无需人工小组的情况下进行自动化测试。

PESQ 和 POLQA 最初为语音通话和编解码器设计,尤其适合大规模或重复性评估,在不便开展人工研究的场景中尤为有用。

  • 优点:快速、可重复且客观。结果不受听众偏见或疲劳影响。
  • 局限:由于设计初衷为电话通信,它们不一定能充分捕捉自然度或表现力——而这恰是 text to speech 的关键维度。

在实践中,PESQ/POLQA 常与主观测试(如 MOS 或 MUSHRA)结合使用,既兼顾可扩展性,又保有人工验证的准确性。

4. ABX Testing

ABX 测试是一种简单却有效的偏好评估方法。会向听众呈现三个样本:

听众需要判断 X 更像 A 还是更像 B。

  • 优点:ABX 非常适合对两个系统进行直接比较。直观易行,在将新模型与基线比较时效果良好。
  • 局限:ABX 无法提供绝对质量评分,只能说明听众是否偏好某个系统而非另一个。

text to speech 研究中,ABX 常用于产品开发中的 A/B 测试,帮助开发者了解用户是否能察觉到新的改动。

MUSHRA vs. MOS for Text to Speech

选择 MUSHRA 还是 MOS,是 text to speech 评估中最关键的权衡之一。两种方法都很常用,但侧重点不同:

  • MOS 适用于更宏观的基准测试。公司若想拿自家的 text to speech 系统和竞品对比,或展示整体质量随时间的提升,MOS 简单、高效,且业内广泛认可。
  • 而 MUSHRA 更适合细致分析。借助锚点和参照,它能引导听众更留意音频质量的细微差异。这对开发与研究尤为有价值,特别是在韵律、音高或清晰度的微小改进至关重要的场景。

实际操作中:许多从业者在早期阶段用 MOS 来建立基线;当各系统性能逐渐接近时,再改用 MUSHRA 做深入细测。这种分层思路既务实又精准。

语音合成从业者的最佳实践

想从 text to speech 评估中拿到可靠、可落地的结果:

  1. 方法组合:用 MOS 做基准测试,用 MUSHRA 做微调,用 PESQ/POLQA 做大规模评估,用 ABX 做偏好测试。
  2. 招募多样化的评审小组:听众感知会因口音、年龄和听音经验而异。多元样本能让结果更贴近真实受众。
  3. 提供上下文:把 text to speech 放到真实使用场景里评估(例如有声书与导航系统)。一个场景看重的点,换到另一个场景未必重要。
  4. 以用户为先:归根结底,衡量质量的最佳标准,是人们能否舒舒服服地把 text to speech 用于学习、工作和日常生活。

为什么 Speechify 将语音合成质量放在首位

Speechify,我们深知声音质量决定一个工具是昙花一现的尝试,还是成为日常依赖。因此我们采用多层次评估策略,结合 MOS、MUSHRA、PESQ/POLQA 和 ABX,从多个维度衡量性能。

我们的流程确保每个新的 AI 语音模型不只是技术上过硬,更要让真实用户听着舒适、自然、还有吸引力。无论是帮助有 dyslexia 的学生跟上课堂进度,还是让专业人士通过 audiobooks 实现多任务处理,或支持使用多语种语音的全球学习者,Speechify 对质量的坚持,都是用户放心依赖的底气。

这一承诺映射着我们的使命:让 text to speech 技术更包容、更可靠,并达到世界级水准。

衡量语音合成中真正重要的指标

衡量 text to speech 质量既是科学,也是艺术。主观方法如 MOS 和 MUSHRA 能捕捉人的主观感受;客观方法如 PESQ 和 POLQA 则提供可规模化的洞见。ABX 测试补充了基于偏好的对比,在产品开发中至关重要。

围绕 MUSHRA 与 MOS 的讨论说明,单一测试并不够全面。对从业者而言,最佳策略是组合多种方法,用多元用户验证结果,并始终把现实世界的 accessibility 纳入考量。

在像 Speechify 这样的领先质量评估与创新平台推动下,text to speech 的未来不止听得清,还更自然、更易用,面向所有人。

享受最先进的 AI 语音、无限文件支持和全天候服务

免费试用
tts banner for blog

分享这篇文章

Cliff Weitzman

Cliff Weitzman

Speechify 首席执行官兼创始人

Cliff Weitzman 是一位阅读障碍倡导者,也是 Speechify 首席执行官兼创始人。Speechify 是全球排名第一的文字转语音应用,累计收获逾 100,000 条五星好评,并在 App Store 的“新闻与杂志”分类中位居第一。2017 年,因致力于提升互联网对学习障碍人群的可及性,Weitzman 入选福布斯“30 位 30 岁以下精英”(Forbes 30 Under 30)榜单。其事迹曾被 EdSurge、Inc.、PC Mag、Entrepreneur、Mashable 等主流媒体报道。

speechify logo

关于 Speechify

#1 文字转语音阅读器

Speechify 是全球领先的 文字转语音 平台,拥有超过 5000 万用户,并在其 iOSAndroidChrome 扩展网页版应用Mac 桌面 应用上获得了超过 50 万条五星好评。2025 年,Apple 授予 Speechify 备受瞩目的 Apple 设计奖,并在 WWDC 上称其为“帮助人们更好生活的重要资源”。Speechify 提供 1000 多种自然语音,支持 60 多种语言,用户遍布近 200 个国家。名人语音包括 Snoop DoggMr. BeastGwyneth Paltrow。对于创作者和企业,Speechify Studio 提供了包括 AI 语音生成器AI 语音克隆AI 配音AI 语音变声器 在内的高级工具。Speechify 还通过其高质量且经济高效的 文字转语音 API 为领先产品提供支持。Speechify 曾被 《华尔街日报》CNBC《福布斯》TechCrunch 等主流媒体报道,是全球最大的文字转语音服务提供商。访问 speechify.com/newsspeechify.com/blogspeechify.com/press 了解更多信息。