評估文字轉語音品質

評估文字轉語音品質：實務指南—MOS、MUSHRA、PESQ/POLQA 與 ABX

隨著文字轉語音技術改變了人們消費內容、學習與數位平台互動的方式。從有聲書與線上學習到為身心障礙者提供的無障礙工具，合成語音已成為現代生活的一部分。但隨著需求增加，挑戰也跟著而來：我們如何衡量文字轉語音聲音是否自然、具吸引力且易於理解？

在本指南中，我們將探討最常用的評估方法——MOS、MUSHRA、PESQ/POLQA 與 ABX。我們也會深入比較 MUSHRA 與 MOS 在文字轉語音評估上的差異，為研究人員、開發者與希望確保其文字轉語音系統達到最高品質標準的組織提供明確指引。

為何評估文字轉語音的品質很重要

文字轉語音（TTS）的效能遠不僅是把文字變成聲音。品質會影響無障礙、學習成果、生產力，甚至大眾對技術的信任。

例如，一個調校不當的文字轉語音系統可能聽起來機械或不清晰，讓仰賴它完成閱讀的閱讀困難（失讀症）使用者感到挫折。反之，具自然語調與流暢輸出的高品質 TTS 系統能把相同體驗化為促進自主的有力工具。

部署文字轉語音的組織——學校、職場、醫療機構與應用開發者——必須有把握系統可靠。標準化的評估方法提供了有系統地衡量音訊品質的途徑，確保主觀印象能以一致且科學的方式被捕捉。

缺乏評估，就無從得知系統更新是否真正提升了品質，或新 AI 模型是否確實改善了聆聽體驗。

評估文字轉語音品質的關鍵方法

1. MOS（平均意見分數）

平均意見分數（MOS）是音訊評估的基石。最初為電信系統開發，MOS 因其簡便與通用性而被廣泛應用於文字轉語音。

在 MOS 測試中，一組真人聽眾會以五分制為音檔評分，1 分 = 差，5 分 = 優。聽眾需綜合評估整體品質，通常包含清晰度、可理解度與自然度。

優點：MOS 易於設置、成本低，且結果易於解讀並廣受認可。由於國際電信聯盟（ITU）有標準化規範，它在各行業中也具有可信度。
限制：MOS 偏粗略。兩個高品質 TTS 系統之間的細微差異可能難以在聽眾評分中顯現。它亦高度仰賴主觀感受，且可能受聽眾背景與經驗影響。

對於 TTS 實務工作者而言，MOS 是不錯的起點。它可大致判斷系統是否「夠好」，並能在不同系統間進行基準比較。

2. MUSHRA（含隱藏參考與錨點的多重刺激評估）

MUSHRA 是國際電信聯盟（ITU）提出的更進階的評估框架，用於評估中等音訊品質。與 MOS 不同，MUSHRA 採用 0–100 的刻度，並要求聆聽者比較同一刺激的多個樣本。

每個測試會包含：

一個隱藏的參考（該樣本的高品質版本）。
一個或多個錨點（低品質或劣化版本，用來校準評分尺度）。
待測的 text to speech 系統。

聆聽者會為每個版本評分，得以產生更細緻的表現概況。

優點：MUSHRA 對細微差異非常敏感，特別適合比較品質相近的 text to speech 系統。引入參考與錨點有助於聆聽者校準判斷。
限制：在執行上較為繁複。錨點、參考與多個樣本的設定需要謹慎設計，且假設聆聽者已受過足夠訓練，能理解評分任務。

對於 text to speech 從業者而言，MUSHRA 常是微調模型或評估漸進式改進時的首選方法。

3. PESQ / POLQA

雖然 MOS 與 MUSHRA 倚賴人類聆聽者，PESQ（語音品質知覺評估）及其後繼者 POLQA（知覺客觀聆聽品質分析）則為演算法式指標。它們模擬人耳與大腦對音訊的感知，可在無需人類評審的情況下進行自動化測試。

PESQ 與 POLQA 最初為語音通話與編解碼器而設計，適合用於大規模或重複性評估；當進行人工研究不切實際時特別實用。

優點：速度快、可重複且具客觀性。結果不受聆聽者偏見或疲勞影響。
限制：由於它們為電信領域而設計，未必能完整掌握自然度或表現力——這兩項在 text to speech 中是重要維度。

實務上，PESQ/POLQA 常與主觀測試（如 MOS 或 MUSHRA）搭配使用，既提供可擴展性，又兼具經人類驗證的準確性。

4. ABX 測試

ABX 測試是一種簡單卻強大的偏好評估方法。聆聽者會被提供三個樣本：

A（text to speech 系統 1）
B（text to speech 系統 2）
X（與 A 或 B 相符）

聆聽者必須判斷 X 聽起來比較像 A 還是 B。

優點：ABX 非常適合在兩個系統間做直接比較。直觀、好上手，特別適合用來將新模型與基準比較。
限制：ABX 不提供絕對品質評分，只能顯示聆聽者是否偏好某一系統。

在 text to speech 研究中，ABX 常用於產品開發期間的 A/B 測試；當開發者想知道使用者是否能察覺新變更時，特別合適。

MUSHRA 與 MOS 在語音合成評估上的比較

MUSHRA 與 MOS 的討論，是 text to speech 評估中的一大關鍵考量。兩種方法皆被廣泛使用，但目的不同：

MOS 最適合用於高階基準評測。若公司想要將其 text to speech 系統與競品比較，或展示隨時間的整體品質進步，MOS 簡單好用、成效顯著，且廣受認可。
另一方面，MUSHRA 更適合精細分析。藉由設置錨點與參考，它能引導聽者更仔細分辨音訊品質的差異。這對研發尤其關鍵，因為在韻律、音高或清晰度上的些微提升，往往大有幫助。

實務上：許多從業者在早期階段使用 MOS 建立基準，當系統表現相近時再改用 MUSHRA 進行細部測試。這種分層作法能兼顧實用與精準。

語音合成從業者的最佳做法

為了從 text to speech 評估中獲得可靠且可落地的結果：

結合多種方法：以 MOS 打底、以 MUSHRA 微調，PESQ/POLQA 用於大規模評估，ABX 用於偏好測試。
招募多元評審：聽感會因口音、年齡與聆聽經驗而有別。多元的群體才能確保結果貼近真實使用者。
給足情境：於真實使用情境中評估 text to speech（例如有聲書、導航系統）。在某種情境很重要的要素，換到另一種情境未必同等重要。
用使用者來驗證：最終衡量品質的標準，是大家能否舒舒服服地將 text to speech 系統運用在學習、工作或日常生活。

為何 Speechify 將語音品質置於首位

在 Speechify，我們深知語音品質決定一個工具是只被嘗鮮一次，還是會成為每天倚賴的夥伴。因此，我們採用多層次的評估策略，結合 MOS、MUSHRA、PESQ/POLQA 與 ABX，從各個角度檢視表現。

我們的流程確保每個新的 AI 聲音模型不僅技術上穩健，用起來也舒適、自然又有吸引力。無論是幫助有 dyslexia 的學生在課堂上跟上進度、讓專業人士透過 audiobooks 進行多工，或以多語語音支援全球學習者，Speechify 對品質的承諾，讓使用者可以放心依賴。

這份投入體現我們的使命：讓 text to speech 技術更具包容性、可靠，並達到世界級水準。

衡量語音合成中真正重要的事

衡量 text to speech 品質既是科學也是藝術。像 MOS 與 MUSHRA 這類主觀方法能抓住人耳的感受，而 PESQ 與 POLQA 等客觀方法則提供可規模化的洞見。ABX 測試補上偏好面的比較，是產品開發的關鍵一環。

MUSHRA 與 MOS 的討論顯示，沒有單一測試足以涵蓋所有面向。對從業者而言，最佳策略是結合多種方法、以多元使用者驗證結果，並始終將真實世界的 accessibility 放在心上。

在像 Speechify 這樣在品質評估與創新上領先的平台帶動下，text to speech 的未來不只聽得懂，更將自然順耳、普及可及，並為所有人而生。

Speechify 是全球領先的文字轉語音平台，擁有超過 5,000 萬用戶信賴，並在其 iOS、Android、Chrome 擴展、網頁應用和 Mac 桌面應用中獲得超過 50 萬個五星評價。2025 年，Apple 將 Speechify 授予了備受矚目的 Apple 設計大獎，並在 WWDC 上稱其為「幫助人們更好生活的重要資源」。Speechify 提供超過 1,000 種自然語音，支持 60 多種語言，並在近 200 個國家使用。名人語音包括 Snoop Dogg、Mr. Beast 和 Gwyneth Paltrow。對於創作者和企業，Speechify Studio 提供高級工具，包括 AI 語音生成器、AI 語音克隆、AI 配音和 AI 語音變換器。Speechify 還通過其高品質且具成本效益的文字轉語音 API 為領先產品提供支持。Speechify 曾被報導於 華爾街日報、CNBC、福布斯、TechCrunch 等主要媒體，是全球最大的文字轉語音提供商。訪問 speechify.com/news、speechify.com/blog 和 speechify.com/press 了解更多。

評估文字轉語音品質

Cliff Weitzman

#1 文字轉語音工具。
讓 Speechify 為您朗讀。

評估文字轉語音品質：實務指南—MOS、MUSHRA、PESQ/POLQA 與 ABX

為何評估文字轉語音的品質很重要