評估文字轉語音品質:實務指南—MOS、MUSHRA、PESQ/POLQA 與 ABX
隨著 文字轉語音 技術改變了人們消費內容、學習與數位平台互動的方式。從 有聲書 與 線上學習 到為身心障礙者提供的 無障礙 工具,合成語音已成為現代生活的一部分。但隨著需求增加,挑戰也跟著而來:我們如何衡量 文字轉語音 聲音是否自然、具吸引力且易於理解?
在本指南中,我們將探討最常用的評估方法——MOS、MUSHRA、PESQ/POLQA 與 ABX。我們也會深入比較 MUSHRA 與 MOS 在 文字轉語音 評估上的差異,為研究人員、開發者與希望確保其 文字轉語音 系統達到最高品質標準的組織提供明確指引。
為何評估文字轉語音的品質很重要
文字轉語音(TTS)的效能遠不僅是把文字變成聲音。品質會影響無障礙、學習成果、生產力,甚至大眾對技術的信任。
例如,一個調校不當的 文字轉語音 系統可能聽起來機械或不清晰,讓仰賴它完成閱讀的 閱讀困難(失讀症) 使用者感到挫折。反之,具自然語調與流暢輸出的高品質 TTS 系統能把相同體驗化為促進自主的有力工具。
部署 文字轉語音 的組織——學校、職場、醫療機構與應用開發者——必須有把握系統可靠。標準化的評估方法提供了有系統地衡量音訊品質的途徑,確保主觀印象能以一致且科學的方式被捕捉。
缺乏評估,就無從得知系統更新是否真正提升了品質,或新 AI 模型是否確實改善了聆聽體驗。
評估文字轉語音品質的關鍵方法
1. MOS(平均意見分數)
平均意見分數(MOS)是音訊評估的基石。最初為電信系統開發,MOS 因其簡便與通用性而被廣泛應用於 文字轉語音。
在 MOS 測試中,一組真人聽眾會以五分制為音檔評分,1 分 = 差,5 分 = 優。聽眾需綜合評估整體品質,通常包含清晰度、可理解度與自然度。
- 優點:MOS 易於設置、成本低,且結果易於解讀並廣受認可。由於國際電信聯盟(ITU)有標準化規範,它在各行業中也具有可信度。
- 限制:MOS 偏粗略。兩個高品質 TTS 系統之間的細微差異可能難以在聽眾評分中顯現。它亦高度仰賴主觀感受,且可能受聽眾背景與經驗影響。
對於 TTS 實務工作者而言,MOS 是不錯的起點。它可大致判斷系統是否「夠好」,並能在不同系統間進行基準比較。
2. MUSHRA(含隱藏參考與錨點的多重刺激評估)
MUSHRA 是國際電信聯盟(ITU)提出的更進階的評估框架,用於評估中等音訊品質。與 MOS 不同,MUSHRA 採用 0–100 的刻度,並要求聆聽者比較同一刺激的多個樣本。
每個測試會包含:
- 一個隱藏的參考(該樣本的高品質版本)。
- 一個或多個錨點(低品質或劣化版本,用來校準評分尺度)。
- 待測的 text to speech 系統。
聆聽者會為每個版本評分,得以產生更細緻的表現概況。
- 優點:MUSHRA 對細微差異非常敏感,特別適合比較品質相近的 text to speech 系統。引入參考與錨點有助於聆聽者校準判斷。
- 限制:在執行上較為繁複。錨點、參考與多個樣本的設定需要謹慎設計,且假設聆聽者已受過足夠訓練,能理解評分任務。
對於 text to speech 從業者而言,MUSHRA 常是微調模型或評估漸進式改進時的首選方法。
3. PESQ / POLQA
雖然 MOS 與 MUSHRA 倚賴人類聆聽者,PESQ(語音品質知覺評估)及其後繼者 POLQA(知覺客觀聆聽品質分析)則為演算法式指標。它們模擬人耳與大腦對音訊的感知,可在無需人類評審的情況下進行自動化測試。
PESQ 與 POLQA 最初為語音通話與編解碼器而設計,適合用於大規模或重複性評估;當進行人工研究不切實際時特別實用。
- 優點:速度快、可重複且具客觀性。結果不受聆聽者偏見或疲勞影響。
- 限制:由於它們為電信領域而設計,未必能完整掌握自然度或表現力——這兩項在 text to speech 中是重要維度。
實務上,PESQ/POLQA 常與主觀測試(如 MOS 或 MUSHRA)搭配使用,既提供可擴展性,又兼具經人類驗證的準確性。
4. ABX 測試
ABX 測試是一種簡單卻強大的偏好評估方法。聆聽者會被提供三個樣本:
- A(text to speech 系統 1)
- B(text to speech 系統 2)
- X(與 A 或 B 相符)
聆聽者必須判斷 X 聽起來比較像 A 還是 B。
- 優點:ABX 非常適合在兩個系統間做直接比較。直觀、好上手,特別適合用來將新模型與基準比較。
- 限制:ABX 不提供絕對品質評分,只能顯示聆聽者是否偏好某一系統。
在 text to speech 研究中,ABX 常用於產品開發期間的 A/B 測試;當開發者想知道使用者是否能察覺新變更時,特別合適。
MUSHRA 與 MOS 在語音合成評估上的比較
MUSHRA 與 MOS 的討論,是 text to speech 評估中的一大關鍵考量。兩種方法皆被廣泛使用,但目的不同:
- MOS 最適合用於高階基準評測。若公司想要將其 text to speech 系統與競品比較,或展示隨時間的整體品質進步,MOS 簡單好用、成效顯著,且廣受認可。
- 另一方面,MUSHRA 更適合精細分析。藉由設置錨點與參考,它能引導聽者更仔細分辨音訊品質的差異。這對研發尤其關鍵,因為在韻律、音高或清晰度上的些微提升,往往大有幫助。
實務上:許多從業者在早期階段使用 MOS 建立基準,當系統表現相近時再改用 MUSHRA 進行細部測試。這種分層作法能兼顧實用與精準。
語音合成從業者的最佳做法
為了從 text to speech 評估中獲得可靠且可落地的結果:
- 結合多種方法:以 MOS 打底、以 MUSHRA 微調,PESQ/POLQA 用於大規模評估,ABX 用於偏好測試。
- 招募多元評審:聽感會因口音、年齡與聆聽經驗而有別。多元的群體才能確保結果貼近真實使用者。
- 給足情境:於真實使用情境中評估 text to speech(例如有聲書、導航系統)。在某種情境很重要的要素,換到另一種情境未必同等重要。
- 用使用者來驗證:最終衡量品質的標準,是大家能否舒舒服服地將 text to speech 系統運用在學習、工作或日常生活。
為何 Speechify 將語音品質置於首位
在 Speechify,我們深知語音品質決定一個工具是只被嘗鮮一次,還是會成為每天倚賴的夥伴。因此,我們採用多層次的評估策略,結合 MOS、MUSHRA、PESQ/POLQA 與 ABX,從各個角度檢視表現。
我們的流程確保每個新的 AI 聲音模型不僅技術上穩健,用起來也舒適、自然又有吸引力。無論是幫助有 dyslexia 的學生在課堂上跟上進度、讓專業人士透過 audiobooks 進行多工,或以多語語音支援全球學習者,Speechify 對品質的承諾,讓使用者可以放心依賴。
這份投入體現我們的使命:讓 text to speech 技術更具包容性、可靠,並達到世界級水準。
衡量語音合成中真正重要的事
衡量 text to speech 品質既是科學也是藝術。像 MOS 與 MUSHRA 這類主觀方法能抓住人耳的感受,而 PESQ 與 POLQA 等客觀方法則提供可規模化的洞見。ABX 測試補上偏好面的比較,是產品開發的關鍵一環。
MUSHRA 與 MOS 的討論顯示,沒有單一測試足以涵蓋所有面向。對從業者而言,最佳策略是結合多種方法、以多元使用者驗證結果,並始終將真實世界的 accessibility 放在心上。
在像 Speechify 這樣在品質評估與創新上領先的平台帶動下,text to speech 的未來不只聽得懂,更將自然順耳、普及可及,並為所有人而生。

