Social Proof

音声合成の仕組みとは?

Speechifyは世界で最も人気のあるオーディオリーダーです。書籍、ドキュメント、記事、PDF、メールなど、あらゆる読み物をより速く処理できます。

掲載メディア

forbes logocbs logotime magazine logonew york times logowall street logo
この記事をSpeechifyで聴く!
Speechify

音声合成の仕組みはどのようになっているのでしょうか?AI技術がどのようにして言葉を自然な音声に変えるのか、少しお話しします。

音声合成、つまりコンピュータソフトウェアが画面上の文字を読み上げるという概念は新しいものではありませんが、ここ数年で大きな変革を遂げているようです。

最近の調査によると、音声合成市場は2020年に20億ドルと評価されており、これは進行中のCOVID-19パンデミックの影響も一因です。それだけでなく、2026年までに50億ドルに成長すると予測されており、年平均成長率は14.6%と驚異的です。

この成長の多くは、音声合成ソリューションが視覚障害を持つ多くの人々を支援していることに起因しています。疾病予防管理センターによると、アメリカでは40歳以上の約1200万人が何らかの視覚情報処理の問題を抱えています。そのうち100万人は全盲で、800万人は未矯正の屈折異常による視覚関連の問題を抱えています。この数は2012年の420万人から増加しています。

これらすべては、音声合成技術が長年にわたってその価値を証明してきたことを示しています。Speechifyのような多くのソリューションは、ユーザーのニーズに応じて選べる高品質な音声を複数提供しています。しかし、これらのソリューションはどのように機能し、なぜ多くの音声オプションが利用可能なのでしょうか?これらの質問に答えるには、いくつかの重要なポイントを理解する必要があります。

音声合成の内部構造

音声合成の背後にある実際の音声にたどり着く前に、まずこれらのソリューションがどのように機能するのかを理解することが重要です。

音声合成は人工知能、機械学習、その他の技術を使用して、ページや画面上の文字を音声コンテンツに変換します。これには、ウェブサイトのコンテンツや記事のようなものだけでなく、Microsoft Wordなどのアプリケーションに書かれたテキストも含まれます。

音声コンテンツ自体は、使用しているデバイスによって完全に生成されます。デスクトップやノートパソコンだけでなく、今日市場に出回っているほぼすべてのスマートフォン、タブレット、その他のモバイルデバイスでも音声合成が利用可能です。

ほとんどのソリューションでは、音声合成の処理はデバイス自体でローカルに行われます。これにより、インターネット接続がなくても音声合成が価値を持ちます。

視覚に問題のある人々が書かれたコンテンツにアクセスし理解するのを助けるだけでなく、音声合成は声のピッチや速度を調整できるため便利です。理解を深めるために速度を遅くしたり、コンテンツを早く読み終えるために速度を上げたりすることができます。

音声合成の仕組みを分解する

これらの音声合成ソリューションで使用される実際の声に関しては、最終的には音声合成器という概念に行き着きます。

音声合成器とは?

音声合成は、コンピュータ(または他のデバイス)が選択された声で言葉を読み上げる出力形式です。概念的には、ページ上の言葉を自分で読むことや印刷することとあまり変わりません。コンピュータが要求された情報を出力する方法について話しているのです。ただし、テキストだけでなく、スピーカーやヘッドフォンを通じて聞こえる声で出力されます。

一般的に、音声合成は使用しているソリューションがいくつかの基本的かつ重要なステップを踏むことで機能します。最初のステップは、ページ上のテキストを言葉に変換することです。

ステップ1: 前処理

このプロセスの段階では、音声合成ソリューションが読みたいコンテンツの言葉を分析し、文字(基本的には単なる記号)を言葉に変換します。このプロセスは重要です。なぜなら、書かれた言葉は人々が思っている以上に曖昧なことがあるからです。特定の言葉やフレーズは複数の意味を持つことがあります。同様に、コンピュータは「their」、「there」、「they're」のような言葉の違いを「理解」する必要があります。これらは同じ発音ですが、文の文脈を大きく変える可能性があります。

ここで人工知能と機械学習が活躍します。AIを使うことで、音声合成ソリューションはこの曖昧さを可能な限り排除するように「訓練」されます。この音声合成プロセスの段階は「前処理」と呼ばれ、アプリケーションが実際に何かを読み上げる前に「舞台裏」で行われます。

この段階では、テキスト読み上げソリューションが、同じスペルでも使い方によって発音が異なる単語を区別します。「Read」はその完璧な例です。今晩リラックスするために本を読みたいかもしれませんが、その本を過去に何度も読んだことがあるかもしれません。人間は文脈からこれらの2つのアイデアを簡単に区別できますが、コンピュータ側では人工知能が同様の結果を達成するために使用されます。

この期間中に同様に難しいのは、数字、略語、頭字語などです。ドル記号のような特殊文字も、単なる書かれた言葉よりも「翻訳」するのが難しいです。これが前処理段階が非常に重要である理由です。最終的に読み上げられるすべての内容が、意図された文脈で実際に意味を成すようにするのに役立ちます。

ステップ2: 発音の理解

テキストが分析され、テキスト読み上げソリューションがどの単語を声に出して読むべきか「理解」したら、次のプロセスが始まります。ここで、その単語が音素に変換されます。つまり、テキスト内の単語を適切に発音する方法を学ぶ段階です。

このプロセスは、年々劇的に進化してきました。もし1990年代のテキスト読み上げソリューションを使ったことがあるなら(または1970年代や80年代の古い映画でテキスト読み上げのシーンを見たことがあるなら)、おそらく自然に聞こえないコンピュータの声に遭遇したことでしょう。それはすぐにコンピュータによって生成されたものであると識別でき、何を言っているのか理解できたとしても、ほとんどの単語はおそらく誤って発音されていました。

ステップ3: 音声への変換が始まる

音素が特定されると、テキスト読み上げソリューションはプロセスの最終段階に移ります。それは、その情報を音に変換し、デバイスのスピーカーやヘッドフォンで再生できるようにすることです。

これは、使用しているソリューションによっていくつかの異なる方法で行われます。その一つは、人間の俳優や女優が音素のリストを声に出して読み、その情報をコンピュータとソリューション自体にフィードバックする方法です。そして、特定のテキストブロックがアプリケーションによってスキャンされると、ページ上で見つかった音素を以前に記録された音素と一致させます。それにより、テキストの音声版をこれまで以上に自然な方法で再生することができます。

一部のソリューションでは、コンピュータが自ら声を生成することも可能です。それはほぼ同じ方法で動作しますが、「声」は以前に録音された音声に基づいているのではなく、単に特定の音周波数を適切な順序で生成することによって作成されます。

その意味では、音楽シンセサイザーがミュージシャンに標準的なキーボードをコンピュータに接続して楽器の音を模倣させる方法とあまり変わりません。彼らはピアノを弾くようにキーボードを演奏できますが、ピアノ音楽の代わりに各キーがギターの異なるコードやドラムの音を模倣するかもしれません。それでも、コンピュータが各キーの意図を「理解」し、それを適切な音と組み合わせるという点では同じです。

音声オプションとその先

これらの音声生成テキスト読み上げソリューションに多くの異なる音声オプションがある理由の一部は、それらを作成するのが多くの人が思うほど難しくないからです。AI音声生成器が機能するために必要な音素の種類は、実際には人間の言語全体で非常に一般的です。したがって、俳優や女優がマイクの前に座り、必要なすべての音素を含む短いスクリプトを読み、その情報をソリューション自体にフィードバックするだけで済みます。

AI音声技術は、各音素を個別に認識し、基本的にその録音をその部分の合計に「分解」し、ユーザーがウェブサイトや他の形式のコンテンツを読もうとする際に必要なテキスト読み上げ音声を正確に生成するために必要なものを使用します。

もちろん、この種の自然な音声生成器には、視覚障害者を助けるだけでなく、他にも多くの潜在的な用途があります。過去数年間で、ソーシャルメディアネットワークのTikTokのようなもののおかげで、AI音声と音声生成に対する一般の関心が非常に高まっています。

TikTokは実際にAI音声生成を採用した大手ブランドの一つであり、ユーザーがビデオを録画し、そのビデオにテキストを重ね、その内容を音声合成で読み上げることができます。これは、TikTokに投稿されたコンテンツにさらなる没入感を加える楽しい方法であり、時間が経つにつれてますます人気が高まるでしょう。

テキスト読み上げの未来が到来

最終的に、音声テキスト読み上げは、私たちにできることを可能にするための貴重なツールです。視覚に問題がある人々が、他の人々と同じコンテンツを自分の条件で楽しみ、理解できるようにします。ブログ記事、記事、ドキュメント、ホワイトペーパー、その他の印刷されたコンテンツを、簡単に消費できる音声体験に変えることができ、自宅だけでなく通勤中やジムにいるときなど、どこでも楽しむことができます。

私たちの生活をより生産的にするだけでなく、上記のようなさまざまな重要な問題を解決するのにも役立ちます。これらすべてを考慮すると、音声合成とAI音声が特にここ数年で非常に人気を集めている理由がよくわかります。

テキスト読み上げの音声についてもっと知りたい方や、このソリューションがどのように生活に役立つかを知りたい方は、ぜひお試しください - 今すぐ無料でSpeechifyを試してみてください

Speechifyは、App Storeで最も自然な音声とユーザー体験を提供し、多くのカスタムボイスを備えたナンバーワンのアプリです。

Speechifyは、個人ユーザーグループ、またはあらゆる規模の企業向けAPIとして利用可能です。

Tyler Weitzman

タイラー・ワイツマン

タイラー・ワイツマンは、世界で最も人気のあるテキスト読み上げアプリ「Speechify」の共同創設者であり、人工知能部門の責任者兼社長です。100,000件以上の5つ星レビューを獲得しています。スタンフォード大学で数学の学士号と人工知能専攻のコンピュータサイエンス修士号を取得しました。Inc. Magazineによってトップ50の起業家に選ばれ、Business Insider、TechCrunch、LifeHacker、CBSなどのメディアで取り上げられています。修士論文では人工知能とテキスト読み上げに焦点を当て、「CloneBot: Personalized Dialogue-Response Predictions」というタイトルの最終論文を執筆しました。