1. 首頁
  2. TTSO
  3. 衡量文字轉語音的品質
TTSO

衡量文字轉語音的品質

Cliff Weitzman

Cliff Weitzman

Speechify 的執行長/創辦人

#1 文字轉語音工具。
讓 Speechify 為您朗讀。

apple logo2025 Apple 設計大獎
超過 5000 萬用戶

Measuring Text to Speech Quality: The Practitioner’s Guide to MOS, MUSHRA, PESQ/POLQA & ABX

The rise of text to speech technology has transformed how people consume content, learn, and interact with digital platforms. From audiobooks and e-learning to accessibility tools for people with disabilities, synthetic voices are now a daily part of modern life. But as demand grows, so does the challenge: how do we measure whether text to speech voices sound natural, engaging, and easy to understand?

In this guide, we’ll explore the most widely used evaluation methods—MOS, MUSHRA, PESQ/POLQA, and ABX. We’ll also dive into the ongoing discussion of MUSHRA vs. MOS for text to speech evaluation, providing clarity for researchers, developers, and organizations that want to ensure their text to speech systems meet the highest quality standards.

為何評估文字轉語音的品質很重要

The effectiveness of text to speech (TTS) goes far beyond simply converting words into audio. Quality impacts accessibility, learning outcomes, productivity, and even trust in the technology.

For example, a poorly tuned text to speech system might sound robotic or unclear, causing frustration for users with dyslexia who rely on it for reading assignments. In contrast, a high-quality TTS system with natural intonation and smooth delivery can transform the same experience into an empowering tool for independence.

Organizations that deploy text to speech—schools, workplaces, healthcare providers, and app developers—must be confident that their systems are reliable. That’s where standardized evaluation methods come in. They provide a structured way to measure audio quality, ensuring that subjective impressions can be captured in a consistent, scientific manner.

Without evaluation, it’s impossible to know if system updates actually improve quality, or if new AI models genuinely enhance the listening experience.

評估文字轉語音品質的主要方法

1. MOS (平均主觀評分)

The Mean Opinion Score (MOS) is a cornerstone of audio evaluation. Originally developed for telecommunication systems, MOS has been widely adopted in text to speech because of its simplicity and familiarity.

In a MOS test, a group of human listeners rates audio clips on a five-point scale, where 1 = Bad and 5 = Excellent. Listeners are asked to consider overall quality, which typically includes clarity, intelligibility, and naturalness.

  • Strengths: MOS is easy to set up, inexpensive, and produces results that are widely understood. Because it’s standardized by the International Telecommunication Union (ITU), it’s also trusted across industries.
  • Limitations: MOS is coarse-grained. Subtle differences between two high-quality TTS systems may not show up in listener ratings. It also depends heavily on subjective impressions, which can vary by listener background and experience.

For TTS practitioners, MOS is a great starting point. It gives a big-picture view of whether a system sounds “good enough” and allows benchmarking across systems.

2. MUSHRA (Multiple Stimuli with Hidden Reference and Anchor)

MUSHRA 是 ITU 提出的進階評估架構,用來評估中階音訊品質。與 MOS 不同,MUSHRA 採用 0–100 的評分尺度,並要聆聽者把同一段刺激的多個樣本互相比對。

每次測試包含:

  • 一個隱藏參考(該樣本的高品質版本)。
  • 一個或多個錨點(低品質或退化版本,用來作為比較基準)。
  • 待測的 text to speech 系統。

聆聽者會為每個版本打分,從而得出更細緻的效能全貌。

  • 優點:MUSHRA 對細微差異特別敏感,特別適合比較品質接近的 text to speech 系統。加入參考與錨點有助於校準聆聽者的判斷。
  • 限制:操作較為複雜。錨點、參考與多個樣本的設計需格外謹慎,且假設聆聽者受過訓練並理解評分任務。

對於 text to speech 從業者而言,MUSHRA 常是微調模型或評估漸進式改進時的首選方法。

3. PESQ / POLQA

MOS 與 MUSHRA 依賴真人聆聽者,而 PESQ(Perceptual Evaluation of Speech Quality)及其後繼者 POLQA(Perceptual Objective Listening Quality Analysis)則為演算法衡量。它們模擬人耳與大腦對音訊的感知,因此無需召集聽測小組就能自動化測試。

PESQ 與 POLQA 最初為語音通話與編解碼器而設計,適用於大規模或需反覆評估的情境,當人工研究不切實際時特別有用。

  • 優點:快速、可重複性高且客觀。結果不受聆聽者偏見或疲勞影響。
  • 限制:原本針對電話語音設計,未必能充分捕捉自然度或表現力——這兩者都是 text to speech 的關鍵面向。

在實務上,PESQ/POLQA 常與主觀測試(如 MOS 或 MUSHRA)並用,以同時兼顧可擴展性與經人工驗證的準確性。

4. ABX Testing

ABX 測試是一種簡單卻相當有力的偏好評估法。會呈現三個樣本給聆聽者:

聆聽者必須判斷 X 聽起來比較像 A 還是 B。

  • 優點:ABX 非常適合兩個系統之間的直接比較。直觀、易於執行,適合拿來做新模型的基準測試。
  • 限制:ABX 不提供絕對品質評分,只能顯示聆聽者是否偏好哪一個系統。

text to speech 研究中,ABX 常用於開發階段的 A/B 測試,幫助開發者判定改動是否被使用者察覺。

MUSHRA vs. MOS for Text to Speech

text to speech 評估領域,MUSHRA 與 MOS 之間的取捨是關鍵考量之一。兩者都很常見,但用途不同:

  • MOS 適合高階基準比對。若公司想將其 text to speech 系統與競品比較,或呈現整體品質隨時間的提升,MOS 簡單、好用且廣受認可。
  • MUSHRA 則適合更細緻的分析。透過錨點與參考,促使聆聽者更仔細地辨別音訊品質差異;對於開發與研究中,例如在韻律、音高或清晰度等方面的小幅改進,特別有價值。

實務上,許多業界人士會先用 MOS 打底做基準;當系統表現拉近後,再改以 MUSHRA 做更細的檢測。這種分層做法能讓評估既務實又精準。

語音合成從業者的最佳做法

要從 text to speech 評估中獲得可靠、可付諸行動的結論:

  1. 方法並用:MOS 打基準、MUSHRA 做微調,PESQ/POLQA 看擴充性,ABX 做偏好測試。
  2. 招募多元評審:聽感會受口音、年齡與聽覺經驗影響。多元樣本才能讓結果更貼近真實使用者。
  3. 加上情境:在真實使用情境下評估 text to speech(例如有聲書 vs. 導航系統)。在一種場景很關鍵的要素,換個場景可能就沒那麼要緊。
  4. 回到使用者驗證:歸根究柢,最好的品質標準是使用者是否能舒舒服服地把 text to speech 系統用在學習、工作與日常。

為何 Speechify 把語音合成的品質擺在第一位

Speechify,我們深知,聲音品質決定一個工具只是被試用一下,還是能成為日常倚賴。因此,我們採用多層次評估策略,整合 MOS、MUSHRA、PESQ/POLQA 與 ABX,從各個面向檢視效能。

我們的流程確保每個新的 AI 語音模型不只技術紮實,對真實使用者也要聽起來自然、舒服、且有吸引力。無論是幫助有閱讀障礙 的學生跟上課業、讓專業人士透過 有聲書 一心多用,或以多語語音支援全球學習者,Speechify 對品質的承諾,讓大家用得安心。

這份專注反映了我們的使命:讓 text to speech 技術更具包容性、值得信賴,並達到世界級水準。

衡量語音合成中真正重要的事

衡量 text to speech 品質,既是科學,也是藝術。主觀方法如 MOS 與 MUSHRA 能捕捉人的主觀感受;客觀方法如 PESQ 與 POLQA 則提供可規模化的洞見。ABX 測試補上了產品開發中關鍵的偏好比較這一塊。

MUSHRA 與 MOS 之爭凸顯沒有任何單一測試能包辦一切。對業界而言,最穩當的做法是方法並用、用多元使用者驗證結果,並時時把真實世界的 無障礙性 放在心上。

有像 Speechify 這樣在品質評估與創新上領先的平台,語音合成的未來不只聽得懂,更要聽得自然、兼具包容性,為所有人而生。

享受最先進的 AI 聲音、無限檔案和 24/7 支援

免費試用
tts banner for blog

分享這篇文章

Cliff Weitzman

Cliff Weitzman

Speechify 的執行長/創辦人

Cliff Weitzman 是一位閱讀障礙倡導者,也是 Speechify 的執行長和創辦人,這是全球排名第一的文字轉語音應用程式,擁有超過 100,000 個五星評價,並在 App Store 的新聞與雜誌類別中名列第一。2017 年,Weitzman 因其在提升學習障礙者網路可及性方面的工作,被列入福布斯 30 歲以下 30 人榜單。Cliff Weitzman 曾被 EdSurge、Inc.、PC Mag、Entrepreneur、Mashable 等知名媒體報導。

speechify logo

關於 Speechify

#1 文字轉語音工具

Speechify 是全球領先的 文字轉語音 平台,擁有超過 5,000 萬用戶信賴,並在其 iOSAndroidChrome 擴展網頁應用Mac 桌面 應用中獲得超過 50 萬個五星評價。2025 年,Apple 將 Speechify 授予了備受矚目的 Apple 設計大獎,並在 WWDC 上稱其為「幫助人們更好生活的重要資源」。Speechify 提供超過 1,000 種自然語音,支持 60 多種語言,並在近 200 個國家使用。名人語音包括 Snoop DoggMr. BeastGwyneth Paltrow。對於創作者和企業,Speechify Studio 提供高級工具,包括 AI 語音生成器AI 語音克隆AI 配音AI 語音變換器。Speechify 還通過其高品質且具成本效益的 文字轉語音 API 為領先產品提供支持。Speechify 曾被報導於 華爾街日報CNBC福布斯TechCrunch 等主要媒體,是全球最大的文字轉語音提供商。訪問 speechify.com/newsspeechify.com/blogspeechify.com/press 了解更多。