音声合成（Text to Speech）の品質を測る

音声合成（Text to Speech）品質の測定：MOS、MUSHRA、PESQ/POLQA、ABXの実践ガイド

text to speech（音声合成）技術の台頭により、コンテンツの消費や学習、デジタルプラットフォームとのやり取りのしかたが変わりました。オーディオブックやeラーニング、アクセシビリティ支援ツールなど、合成音声は現代生活の一部になっています。一方で需要が高まるにつれ、「text to speechの音声が自然で魅力的で、かつ理解しやすいかをどう測ればよいのか」という課題も浮かび上がります。

本ガイドでは、最も広く使われている評価手法—MOS、MUSHRA、PESQ/POLQA、ABX—を解説します。また、text to speech評価におけるMUSHRAとMOSの比較についても掘り下げて、研究者・開発者・組織が自分たちのTTSシステムが高い品質基準を満たしているか判断できるよう、道筋を示します。

なぜ音声合成の品質評価が重要か

text to speech（TTS）の有効性は、単に文字を音声に変換することにとどまりません。品質はアクセシビリティ、学習成果、生産性、さらには技術への信頼感にも影響します。

例えば、調整が不十分なtext to speechシステムはロボットのように聞こえたり、聞き取りづらかったりして、読み上げに頼るディスレクシアの方にとって大きなストレスになりかねません。対照的に、自然なイントネーションと滑らかな発声を備えた高品質なTTSは、その体験を自立を後押しする強力なツールへと変えられます。

学校、職場、医療機関、アプリ開発者など、text to speechを導入する組織は、まずそのシステムが信頼に足ることを確かめる必要があります。そこで標準化された評価手法が力を発揮します。これらは、主観的な印象を一貫性のある科学的手続きで捉えるための枠組みを提供します。

評価がなければ、システムの更新が本当に品質を改善しているのか、新しいAIモデルが聴取体験を実際に向上させているのかを見極めようがありません。

音声合成品質を測る主要な手法

1. MOS（Mean Opinion Score）

Mean Opinion Score（MOS）は音声評価の基礎となる指標です。もともとは電気通信システム向けに開発されましたが、その手軽さと分かりやすさからtext to speechで広く採用されています。

MOSテストでは、複数の聴取者が音声クリップを5段階で評価します。1＝悪い、5＝非常に良い、が一般的な基準です。聴取者は通常、明瞭さ、聞き取りやすさ、自然さなどを含む総合的な品質を踏まえて評価します。

長所：MOSは実施が容易で低コスト、かつ結果が広く理解されやすい指標です。国際電気通信連合（ITU）によって標準化されているため、業界を超えて信頼されています。
限界：MOSは粒度の粗い指標です。高品質なTTSシステム同士の微妙な差がスコアに出にくいことがあります。また、聴取者の背景や経験によって主観的な印象が大きく左右されます。

TTSの実務者にとって、MOSは優れた出発点です。システムが「十分に良いか」を大局的に把握でき、システム間のベンチマークにも使えます。

2. MUSHRA（Multiple Stimuli with Hidden Reference and Anchor）

MUSHRAはITUが策定した、中程度の音質を精密に評価するための高度な評価フレームワークです。MOSと異なり、MUSHRAは0～100のスケールを用い、同一刺激の複数サンプルを並べて比較することを前提とします。

各テストには次の要素が含まれます：

隠しリファレンス（高品質な参照サンプル）。
1つ以上のアンカー（評価の基準づくりのための低品質・劣化版）。
評価対象のテキスト読み上げシステム。

参加者が各バージョンにスコアを付けることで、性能をより細かく把握できます。

長所：MUSHRAは微細な差にも敏感で、品質が拮抗するテキスト読み上げシステムの比較に特に有効です。リファレンスとアンカーにより、評価者のキャリブレーションが行えます。
制約：実施がやや複雑です。アンカーやリファレンス、複数サンプルの設定には慎重な設計が必要で、タスクを正しく理解するためのトレーニングが評価者に求められる場合もあります。

テキスト読み上げの現場では、MUSHRAはモデルの微調整や段階的な改良の評価に、よく用いられます。

3. PESQ / POLQA

MOSやMUSHRAが人間の評価に依存するのに対し、PESQ（Perceptual Evaluation of Speech Quality）および後継のPOLQA（Perceptual Objective Listening Quality Analysis）はアルゴリズムベースの客観指標です。人の耳と脳の知覚をモデル化し、被験者パネルなしで自動評価を可能にします。

もともと音声通話やコーデック向けに設計されたPESQ/POLQAは、大規模・反復評価の場面で、主観評価が現実的でない場合に有用です。

長所：高速かつ再現性が高く、客観的です。結果は評価者のバイアスや疲労に左右されません。
制約：通話用途に設計されているため、自然さや表現力といったテキスト読み上げで重要な側面を、必ずしも捉えきれない場合があります。

実務では、PESQ/POLQAはMOSやMUSHRAのような主観テストとよく併用され、これによりスケール性と人手による裏取りの両立が図れます。

4. ABX テスト

ABXテストは、嗜好評価に有効なシンプルで強力な手法です。参加者には3つのサンプルが提示されます：

A（テキスト読み上げシステム1）
B（テキスト読み上げシステム2）
X（AまたはBのどちらかに一致）

参加者はXがAに近いかBに近いかを判定します。

長所：ABXは2つのシステムの直接比較に優れています。直感的で実施しやすく、新しいモデルをベースラインと比較する際に有効です。
制約：ABXは絶対的な品質指標にはなりません。どちらが好まれるかを示すだけです。

テキスト読み上げの分野では、ABXはプロダクト開発時のA/Bテストで、変更がユーザーに知覚されるかどうかを確かめる目的でよく使われます。

テキスト読み上げにおけるMUSHRAとMOSの比較

MUSHRAとMOSのどちらを使うかは、テキスト読み上げ評価における重要な論点のひとつです。両手法は広く使われていますが、狙いどころが異なります：

MOSは大局的なベンチマークに最適です。企業が自社のtext to speechシステムを競合と比べたり、経時的な全体品質の伸びを示したい場合に、MOSは簡潔で効率的、しかも広く知られています。
一方でMUSHRAは、より精密な分析に向いています。アンカーやリファレンスを用いることで、リスナーは音声品質の違いを意識的に聞き分けることになります。これにより、プロソディ、ピッチ、明瞭さなどの小さな改善が物を言う開発や研究で特に有用です。

実務では、多くの実務者が初期段階でMOSを使ってベースラインを取り、システムの性能が拮抗してきたら詳細テストのためにMUSHRAへ切り替えます。この段階的アプローチにより、評価は実用的で正確になります。

音声合成（Text to Speech）実務者のベストプラクティス

信頼性が高く実用に足る結果を得るためのtext to speech評価：

手法を組み合わせる：ベンチマークにはMOS、微調整にはMUSHRA、スケーラビリティ評価にはPESQ/POLQA、好みの比較にはABXを活用する。
多様なリスナーを集める：知覚はアクセント、年齢、聴取経験で変わります。多様なグループほど、結果は現実のユーザー層をよく反映します。
文脈を設定する：text to speechが実際に使われる状況（例：オーディオブックとナビゲーション）で評価してください。シナリオによって重視すべき要素は変わります。
実ユーザーで検証する：最終的に品質を測るいちばんの指標は、人々が学習、仕事、日常生活でtext to speechシステムを気持ちよく使えるかどうかです。

なぜSpeechifyはText to Speechの品質を重視するのか

Speechifyは、音声の品質が「一度試して終わるツール」と「日常的に頼りにされるツール」を分けることを理解しています。だからこそ私たちは、MOS、MUSHRA、PESQ/POLQA、ABXを組み合わせた多層的な評価戦略を用い、多角的に性能を測っています。

私たちのプロセスは、新しいAI音声モデルが技術的に優れているだけでなく、実際のユーザーにとって心地よく自然で、魅力的であることを保証します。たとえば、dyslexiaの学生が学校で遅れずに学べるよう支援したり、audiobooksでプロがながら作業できるようにしたり、多言語音声で世界中の学習者を支援したりと、Speechifyの品質へのこだわりはユーザーが体験を安心して信頼できることを意味します。

この献身は私たちのミッションを体現しています：text to speech技術を包括的で信頼でき、世界水準にすること。

Text to Speechで本当に大切なものを測る

品質を測ることは科学であると同時に芸術でもあります。主観的手法であるMOSやMUSHRAは人間の印象をとらえ、PESQやPOLQAのような客観的手法は大規模にも適用できる知見を提供します。ABXテストは製品開発で重要な「好み」の比較を補完します。

MUSHRAとMOSの議論は、単一のテストだけでは不十分だという示唆です。実務者にとって最良の戦略は、手法を組み合わせ、多様なユーザー層で結果を検証し、常に実世界のaccessibilityを念頭に置くことです。

Speechifyのようなプラットフォームが品質評価とイノベーションで先導することで、text to speechの未来は、ただ聞こえるだけでなく、自然で、アクセシブルで、誰もが使えるものになります。

Speechifyは、世界をリードするテキスト読み上げプラットフォームで、5,000万以上のユーザーに信頼され、50万件以上の5つ星レビューを獲得しています。対応アプリはiOS、Android、Chrome拡張機能、ウェブアプリ、そしてMacデスクトップアプリです。2025年には、Appleから権威あるApple Design AwardをWWDCで受賞し、「人々の生活を支える重要なリソース」と評価されました。Speechifyは60以上の言語で1,000以上の自然な音声を提供し、約200カ国で利用されています。有名人の声にはSnoop Dogg、Mr. Beast、Gwyneth Paltrowなどがあります。クリエイターや企業向けには、Speechify Studioが提供する高度なツール、例えばAI音声生成、AI音声クローン、AI吹き替え、そしてAI音声チェンジャーなどを利用できます。また、Speechifyは高品質でコスト効率の高いテキスト読み上げAPIを通じて主要な製品を支えています。The Wall Street Journal、CNBC、Forbes、TechCrunchなどの主要メディアにも取り上げられ、Speechifyは世界最大のテキスト読み上げプロバイダーです。詳細はspeechify.com/news、speechify.com/blog、またはspeechify.com/pressをご覧ください。

音声合成（Text to Speech）の品質を測る

クリフ・ワイツマン

#1 テキスト読み上げリーダー。
Speechifyにお任せください。

音声合成（Text to Speech）品質の測定：MOS、MUSHRA、PESQ/POLQA、ABXの実践ガイド

なぜ音声合成の品質評価が重要か