Speechify AIリサーチラボ研究者のPFluxTTS論文がICASSP 2026で採択

Speechifyは本日、SpeechifyAIリサーチラボ研究者Vikentii Pankovによる論文「PFluxTTS：ハイブリッドフローマッチングTTSによる堅牢なクロスリンガル音声クローンと推論時モデルフュージョン」が、IEEE国際音響・音声・信号処理会議（ICASSP）2026に採択されたことを発表しました。

本研究ではPFluxTTSを紹介しています。これは、テキスト読み上げシステムで、音声クローンや多言語プロンプトでの実運用を見据えて設計されています。論文では、フローマッチングベースの音声生成における3つの長年の課題――安定性と自然さのトレードオフ、多言語環境で話者識別を維持する難しさ、低レート音響特徴量から全帯域オーディオを再構成する際の波形忠実度の制限――に取り組む手法を説明しています。

この論文のプレプリントはarXivで公開されており、プロジェクトウェブサイトでは音声デモも聴くことができます。

ICASSP 2026での採択はSpeechifyの研究方針にどんな意味があるのか？

ICASSPは音声、オーディオ、信号処理分野の主要な国際会議のひとつであり、採択は最先端技術への貢献が専門家の査読により認められたことを意味します。Speechifyの広範な戦略にとって、今回の採択はSpeechifyが基礎研究への投資を重視する「音声ファーストAI企業」であるという立場を裏付けるものです。

Speechifyでは、テキスト読み上げ、音声認識、音声変換といったワークフローを通じて、長時間リスニング、高速再生、音声入力、ドキュメントベースの音声インタラクションなど、実際のユーザー体験を支える音声テクノロジーを構築・改良しています。Speechifyの研究者が主要国際会議で論文を発表することは、今後数年間で音声システムがどのように構築・評価されるかを形作る最先端研究に携わっていることを明確に示すものです。

PFluxTTSとは？どのような課題を解決しているのか？

PFluxTTSは、2つのモデルスタイルを1つの推論過程で組み合わせたハイブリッドフローマッチングテキスト読み上げシステムとして説明されています。論文によると、一方は発話長ガイドに基づく経路で、アライメントの安定性を高め、単語飛ばしのような問題を抑えます。もう一方はアライメントフリー経路で、流暢さや自然さの知覚向上に寄与します。PFluxTTSは推論時のベクトル場融合を通じて両者を統合し、生成過程中に2つのモデルのガイドを組み合わせることで、どちらか一方だけを選ぶよりも柔軟な生成を実現しています。

これは、短いデモでは良く聞こえても、実際のワークフローではノイズ混入や多言語、会話的プロンプトで破綻してしまうことが多くの音声プロダクト開発現場で問題となっているため、非常に重要です。本番環境の音声システムでは、多様なコンテンツや録音条件において、明瞭さ、話者同一性、タイミングの安定性が求められます。

PFluxTTSはクロスリンガル音声クローンの信頼性をどのように向上させるのか？

クロスリンガル音声クローンは難しい課題です。なぜなら話者同一性は単一の静的ベクトルで表しきれるものではないからです。実際の話者特性は時間や音韻コンテキスト、録音条件によって変化します。論文では、固定次元の話者埋め込みでは、プロンプト言語がターゲット言語と異なる際に重要となる時間変動する音色の手がかりが失われる可能性があると指摘しています。

PFluxTTSはこの課題に対し、FLUXベースのデコーダ内で一連の音声プロンプト埋め込みに基づいて条件付けする手法で対応しています。これにより、文字起こしなしでも言語をまたいで話者特性が保たれやすくなっています。

その結果、プロンプトが一方の言語、合成音声が別の言語であっても、また、野外などスタジオ外の条件でも話者らしさを保つことができるシステムとなっています。

「推論時モデルフュージョン」とは平易な日本語で言うと？

多くのシステムはどちらか一方のモデル系を選び、その弱点と付き合う必要がありますが、PFluxTTSは生成時にハイブリッドアプローチを採用しています。論文では、独立に訓練された2つのベクトル場を単一のODE積分内で融合する方法を説明しており、アライメント初期は長さガイドの経路で安定化させ、後半にはアライメントフリー経路で流暢さや自然さを引き出す構成です。

ひと言で言えば、「まずは安全かつ安定的に始めて、最後は表現豊かで自然な仕上がりを目指す」仕組みであり、チームが大規模に音声モデルを展開する際によく直面する「安定か自然か」どちらかを選ばざるをえないという妥協を和らげる、現場志向のアプローチです。

PFluxTTSは音質や48kHz再構成にどう対応しているのか？

多くのTTSパイプラインは、メルスペクトログラム特徴量を、高周波成分を十分に表現しきれない解像度で生成し、その後の音声再構成をボコーダに委ねる構成になっています。本論文では、低レートなメル特徴から48kHz波形を再構成するため、超解像アプローチを組み込んだ改良版PeriodWaveボコーダを導入しています。

ユーザーや開発者にとっては、広帯域での再構成は、より明瞭な歯擦音、きれいなトランジェント、よりリアルな高周波の質感として実感でき、特にプロのナレーションや長時間再生ではアーティファクトが時間とともに目立つため、こうした点が重要になります。

論文はどのような性能を報告しているか？

arXivのアブストラクトによると、クロスリンガルな野外データにおいて、PFluxTTSは掲載されている複数のオープンソースベースラインを上回り、ナチュラルさでは主要なベースラインに匹敵しつつ、明瞭度指標を改善し、報告された条件下では主要な商用リファレンスよりも高い話者類似度を達成したとされています。

Speechifyは、研究者、開発者、パートナーに対し、一般公開されているプレプリントや音声デモを通じて、本研究の成果を実際のクロスリンガルプロンプト条件下で直接聴感・比較検証することを推奨しています。

論文やデモの閲覧・引用場所は？

PFluxTTSのプレプリントはarXiv（識別子2602.04160）で公開されており、プロジェクトサイトでは論文要約や音声サンプルも掲載されています。

この研究はSpeechifyのVoice AIの未来にどう関係するのか？

ボイスAIは「目新しいデモ」から日常のインフラへと移り変わりつつあり、それに伴って要求水準も高まっています。システムは長時間の安定稼働、多言語プロンプト対応、話者同一性の保持、予測可能な遅延や明瞭度を、現実の利用環境の中で提供する必要があります。

Speechifyの研究方針は、そうした実運用上の要件と足並みをそろえています。PFluxTTSのような研究は、安定性と自然さを両立するハイブリッド構造、言語を超えた強力な音声クローン、最終的な音質まで重視するエンドツーエンドパイプラインといった、現代の音声研究トレンドを体現しています。

Speechifyは、実践的なボイスAIを前進させる研究投資を今後も継続し、トップカンファレンスへの論文発表と、その成果をユーザー向けの製品品質や、開発者向けの信頼性の高い音声インフラとして展開していきます。

Speechifyについて

Speechifyは、音声を活用して人々の「読む」「書く」「理解する」をサポートする音声ファーストAI企業です。世界中の5,000万人以上のユーザーに支持され、SpeechifyはAI読み上げ、AIライティング、AIポッドキャスト、AIノートテイキング、AI会議、AI生産性向上を、消費者・企業のプラットフォームをまたいで提供しています。Speechify独自の音声研究・モデルは60以上の言語でリアルな読み上げを実現し、世界中のナレッジワークやアクセシビリティの利用シーンで活用されています。