1. 首页
  2. TTSO
  3. 衡量文本转语音质量
TTSO

衡量文本转语音质量

Cliff Weitzman

Cliff Weitzman(克利夫·韦茨曼)

Speechify 首席执行官兼创始人

Speechify,您的 语音 AI 助手:
文字转语音语音输入快速解答 一应俱全。

apple logo2025 年 Apple 设计奖
5000 万+ 用户

衡量文本转语音质量:面向实践者的 MOS、MUSHRA、PESQ/POLQA 与 ABX 指南

随着 文本转语音 技术的兴起,人们获取内容、学习和与数字平台互动的方式发生了变革。从 有声书在线教育 到为残障人士提供的 无障碍 工具,合成语音已成为现代生活的一部分。但随着需求增长,问题也随之而来:我们如何衡量 文本转语音 的声音是否自然、富有吸引力且易于理解?

在本指南中,我们将探讨最为广泛使用的评估方法——MOS、MUSHRA、PESQ/POLQA 与 ABX。我们还将深入讨论 MUSHRA 与 MOS 在 文本转语音 评估中的之争,为研究人员、开发者和希望确保其 文本转语音 系统达到最高质量标准的组织提供清晰的指引。

为何文本转语音的质量评估至关重要

文本转语音TTS)的有效性远不止于将文字转换为音频。质量会影响无障碍、学习成果、生产力,甚至影响人们对这项技术的信任。

例如,一个调校不当的 文本转语音 系统可能听起来生硬或不清晰,会让依赖它完成阅读的 阅读障碍(如诵读困难) 用户倍感挫败。相反,具有自然语调和平滑表达的高质量 TTS 系统则能把同样的体验变成助力独立的有力工具。

部署 文本转语音 的组织——学校、工作场所、医疗机构和应用开发者——必须对其系统的可靠性有信心。这正是标准化评估方法大显身手之处。它们提供了结构化衡量音频质量的手段,确保主观印象可以以一致、科学的方式被捕捉。

如果没有评估,就无法判断系统更新是否真正提升了质量,或者新 AI 模型是否确实改善了听感体验。

衡量文本转语音质量的关键方法

1. MOS(主观平均分)

主观平均分(MOS)是音频评估的基石。最初为电信系统开发,MOS 因其简单易用且认知度高,而被广泛应用于文本转语音 领域。

在 MOS 测试中,一组受试听众会使用五分制对音频片段打分(1 = 差,5 = 优秀)。听众通常会综合考虑清晰度、可懂性和自然度来评判总体质量。

  • 优点:MOS 易于开展、成本低;结果通俗易懂。由于已被国际电信联盟(ITU)标准化,各行业对其信赖度较高。
  • 局限:MOS 粒度较粗。两套高质量的 TTS 系统之间的细微差别可能难以在评分中体现。并且高度依赖主观感受,易受听众背景与经验影响。

TTS 从业者来说,MOS 是一个很好的起点。它提供了系统是否“足够好”的整体视角,也便于不同系统之间的基准对比。

2. MUSHRA (Multiple Stimuli with Hidden Reference and Anchor)

MUSHRA 是国际电信联盟(ITU)提出的更高级评估框架,用于评估中等质量的音频。与 MOS 不同,MUSHRA 使用 0–100 的评分尺度,并要求听众比较同一刺激的多个样本。

每次测试包括:

  • 一个隐藏参考(该样本的高质量版本)。
  • 一个或多个锚点(低质或降级版本,用于设定参照/校准刻度)。
  • 待测的 text to speech 系统。

听众为每个版本打分,从而勾勒出更细致的性能画像。

  • 优点:MUSHRA 对细微差异极为敏感,尤其适合比较质量接近的 text to speech 系统。参考与锚点的设置有助于听众校准判断。
  • 局限:实施更为复杂。设置锚点、参考和多个样本需要精心设计,同时也假设听众经过足够训练,能理解评分任务。

对于 text to speech 从业者而言,MUSHRA 常被用作微调模型或评估渐进改进的首选方案。

3. PESQ / POLQA

MOS 和 MUSHRA 依赖人工听众,而 PESQ(感知语音质量评估)及其继任者 POLQA(感知客观听觉质量分析)则是算法度量。它们模拟人耳与大脑对音频的感知,从而可在无需人工小组的情况下进行自动化测试。

PESQ 和 POLQA 最初为语音通话和编解码器设计,尤其适合大规模或重复性评估,在不便开展人工研究的场景中尤为有用。

  • 优点:快速、可重复且客观。结果不受听众偏见或疲劳影响。
  • 局限:由于设计初衷为电话通信,它们不一定能充分捕捉自然度或表现力——而这恰是 text to speech 的关键维度。

在实践中,PESQ/POLQA 常与主观测试(如 MOS 或 MUSHRA)结合使用,既兼顾可扩展性,又保有人工验证的准确性。

4. ABX Testing

ABX 测试是一种简单却有效的偏好评估方法。会向听众呈现三个样本:

听众需要判断 X 更像 A 还是更像 B。

  • 优点:ABX 非常适合对两个系统进行直接比较。直观易行,在将新模型与基线比较时效果良好。
  • 局限:ABX 无法提供绝对质量评分,只能说明听众是否偏好某个系统而非另一个。

text to speech 研究中,ABX 常用于产品开发中的 A/B 测试,帮助开发者了解用户是否能察觉到新的改动。

MUSHRA vs. MOS for Text to Speech

选择 MUSHRA 还是 MOS,是 text to speech 评估中最关键的权衡之一。两种方法都很常用,但侧重点不同:

  • MOS 适用于更宏观的基准测试。公司若想拿自家的 text to speech 系统和竞品对比,或展示整体质量随时间的提升,MOS 简单、高效,且业内广泛认可。
  • 而 MUSHRA 更适合细致分析。借助锚点和参照,它能引导听众更留意音频质量的细微差异。这对开发与研究尤为有价值,特别是在韵律、音高或清晰度的微小改进至关重要的场景。

实际操作中:许多从业者在早期阶段用 MOS 来建立基线;当各系统性能逐渐接近时,再改用 MUSHRA 做深入细测。这种分层思路既务实又精准。

语音合成从业者的最佳实践

想从 text to speech 评估中拿到可靠、可落地的结果:

  1. 方法组合:用 MOS 做基准测试,用 MUSHRA 做微调,用 PESQ/POLQA 做大规模评估,用 ABX 做偏好测试。
  2. 招募多样化的评审小组:听众感知会因口音、年龄和听音经验而异。多元样本能让结果更贴近真实受众。
  3. 提供上下文:把 text to speech 放到真实使用场景里评估(例如有声书与导航系统)。一个场景看重的点,换到另一个场景未必重要。
  4. 以用户为先:归根结底,衡量质量的最佳标准,是人们能否舒舒服服地把 text to speech 用于学习、工作和日常生活。

为什么 Speechify 将语音合成质量放在首位

Speechify,我们深知声音质量决定一个工具是昙花一现的尝试,还是成为日常依赖。因此我们采用多层次评估策略,结合 MOS、MUSHRA、PESQ/POLQA 和 ABX,从多个维度衡量性能。

我们的流程确保每个新的 AI 语音模型不只是技术上过硬,更要让真实用户听着舒适、自然、还有吸引力。无论是帮助有 dyslexia 的学生跟上课堂进度,还是让专业人士通过 audiobooks 实现多任务处理,或支持使用多语种语音的全球学习者,Speechify 对质量的坚持,都是用户放心依赖的底气。

这一承诺映射着我们的使命:让 text to speech 技术更包容、更可靠,并达到世界级水准。

衡量语音合成中真正重要的指标

衡量 text to speech 质量既是科学,也是艺术。主观方法如 MOS 和 MUSHRA 能捕捉人的主观感受;客观方法如 PESQ 和 POLQA 则提供可规模化的洞见。ABX 测试补充了基于偏好的对比,在产品开发中至关重要。

围绕 MUSHRA 与 MOS 的讨论说明,单一测试并不够全面。对从业者而言,最佳策略是组合多种方法,用多元用户验证结果,并始终把现实世界的 accessibility 纳入考量。

在像 Speechify 这样的领先质量评估与创新平台推动下,text to speech 的未来不止听得清,还更自然、更易用,面向所有人。

畅享最前沿的 AI 语音、无限文件数量与 24/7 全天候支持

免费试用
tts banner for blog

分享本文

Cliff Weitzman

Cliff Weitzman(克利夫·韦茨曼)

Speechify 首席执行官兼创始人

克利夫·韦茨曼是一位阅读障碍倡导者,也是全球排名第一的文字转语音应用 Speechify 的首席执行官兼创始人。Speechify 拥有超过 100,000 条五星好评,并在 App Store“新闻与杂志”类目中排名第一。2017 年,韦茨曼因致力于让互联网对学习障碍人群更加友好而入选《福布斯》“30 岁以下精英榜”。他的故事曾被《EdSurge》、Inc.、《PC Mag》、《Entrepreneur》、《Mashable》等知名媒体报道。

speechify logo

关于 Speechify

#1 文字转语音阅读器

Speechify 是全球领先的文字转语音平台,深受超过 5000 万用户信赖,并在其文字转语音 iOSAndroidChrome 扩展网页版应用Mac 桌面应用上收获了超 50 万条五星好评。2025 年,Apple 授予 Speechify 备受推崇的Apple 设计奖WWDC),称其为“帮助人们生活的关键资源”。Speechify 提供 1000+ 种自然音色,支持 60+ 种语言,服务覆盖近 200 个国家/地区。明星声音包括Snoop DoggMr. BeastGwyneth Paltrow等。面向创作者和企业,Speechify Studio 提供多种高级工具,包括AI 语音生成器AI 语音克隆AI 配音AI 变声器。Speechify 还通过高质量、具成本优势的文字转语音 API为众多头部产品提供支持。曾被《华尔街日报》CNBC《福布斯》TechCrunch 等主流媒体报道,Speechify 是全球最大的文字转语音服务商。访问 speechify.com/newsspeechify.com/blogspeechify.com/press 了解更多信息。