音声合成の短い歴史

音声合成、つまり人間の声を人工的に生成する技術は、過去70年間で大きく進化しました。現在、テキスト読み上げサービスを使って本を聴いたり、勉強したり、自分の書いた文章を校正したりしている方もいるでしょう。テキスト読み上げサービスは、さまざまな職業の人々の生活をより便利にしています。

ここでは、テキスト読み上げ処理がどのように機能するのか、そしてこの支援技術がどのように変化してきたのかを見ていきます。

はじめに

1700年代、ロシアの教授クリスチャン・クラッツェンシュタインは、人間の声を模倣する音響共鳴器を作成しました。20年後、ニューヨーク万国博覧会でホーマー・ダドリーが人工的に人間の声を生成する方法を示したとき、VODER（Voice Operating Demonstrator）は大きな話題を呼びました。この装置は操作が難しく、ダドリーは足で基本周波数を制御しなければなりませんでした。

1800年代初頭、チャールズ・ウィートストンは最初の機械的音声合成装置を開発しました。これが音声合成技術の急速な進化の始まりとなりました。

良いテキスト読み上げプログラムを定義するのは難しいかもしれませんが、多くのことと同様に、聞けばわかります。高品質なテキスト読み上げプログラムは、自然な音声とリアルな抑揚やトーンを提供します。

テキスト読み上げ技術は、視覚障害者や他の障害を持つ人々が必要な情報を得て、仕事で成功し、他者とコミュニケーションを取るのを助けます。このソフトウェアは、学生や多くの読書を必要とする人々が移動中に情報を人間の音声で聴くことを可能にします。合成音声は、より短時間で多くのことを成し遂げるのに役立ち、ビデオゲームの制作から言語処理の違いを持つ人々の支援まで、さまざまな場面で有用です。

1950年代と60年代

1950年代後半、最初の音声合成システムが開発されました。これらのシステムはコンピュータベースでした。1961年、ベル研究所の物理学者ジョン・ラリー・ケリー・ジュニアは、IBMコンピュータを使用して音声を合成しました。彼のボコーダー（音声記録合成器）は「デイジー・ベル」という曲を再現しました。

ケリーがボコーダーを完成させていた頃、『2001年宇宙の旅』の著者アーサー・C・クラークは、彼のデモを映画の脚本に使用しました。このシーンでは、HAL 9000コンピュータが「デイジー・ベル」を歌います。

1966年、線形予測符号化が登場しました。この形式の音声符号化は、板倉文忠と斎藤修三によって開発が始まりました。ビシュヌ・S・アタルとマンフレッド・R・シュレーダーも線形予測符号化の開発に貢献しました。

1970年代

1975年、板倉によって線スペクトル対法が開発されました。この高圧縮音声符号化法は、音声分析と合成についての理解を深め、弱点を見つけて改善する手助けをしました。

この年、MUSAもリリースされました。この独立型音声合成システムはアルゴリズムを使用してイタリア語を読み上げました。3年後にリリースされたバージョンはイタリア語で歌うことができました。

70年代には、人間の声道に基づいた最初の調音合成器が開発されました。最初に知られた合成器は、トム・ベア、ポール・マーメルスタイン、フィリップ・ルービンによってハスキンズ研究所で開発されました。この3人は、60年代と70年代にベル研究所で作成された声道モデルの情報を使用しました。

1976年、クルツワイル視覚障害者用読書機が導入されました。これらのデバイスは一般の人々には高価すぎましたが、図書館は視覚障害者が本を聴くために提供していました。

線形予測符号化は、シンセサイザーチップの出発点となりました。テキサス・インスツルメンツのLPC音声チップと70年代後半のスピーク＆スペル玩具は、シンセサイザーチップ技術を使用していました。これらの玩具は、当時一般的だったロボットのような音声とは異なり、正確なイントネーションを持つ人間の音声合成の例でした。この10年間には、音声を合成する能力を持つ多くの携帯電子機器が人気を博し、視覚障害者用のテレセンソリーシステムズのSpeech+計算機や、音声を合成できるチェスコンピュータであるFidelity Voice Chess Challengerが1979年にリリースされました。

1980年代

1980年代、音声合成はビデオゲームの世界に衝撃を与え始めました。1980年にサン電子がリリースしたシューティングスタイルのアーケードゲーム「ストラトボックス」がその一例です。「万引き少女」は、音声合成機能を持つ最初のパーソナルコンピュータゲームでした。また、1980年にはミルトンという電子ゲームも発売されました。これはミルトン・ブラッドリー社の初の人間の声を合成する能力を持つ電子ゲームでした。

1983年、独立型の音響機械式音声機械であるDECtalkが登場しました。DECtalkは単語の音声表記を理解し、珍しい単語の発音をカスタマイズすることができました。これらの音声表記にはトーンインジケーターも含めることができ、DECtalkは音声成分を発音する際にそれを使用しました。これにより、DECtalkは歌うことができました。

1980年代後半、スティーブ・ジョブズはNeXTを創設しました。これはトリリウム・サウンド・リサーチによって開発されたシステムです。NeXTは成功しませんでしたが、ジョブズは最終的にこのプログラムを90年代にAppleと統合しました。

1990年代

初期の音声合成システムは非常にロボット的な音がしましたが、80年代後半から90年代初頭にかけてそれが変わり始めました。柔らかい子音により、話す機械は電子的な鋭さを失い、より人間らしい音を出すことができるようになりました。1990年、AT&Tベル研究所のアン・サーダルは女性の音声合成器の声を開発しました。エンジニアたちは90年代を通じて、より自然な音声を作るために努力しました。

1999年、マイクロソフトはNarratorをリリースしました。これは現在、すべてのMicrosoft Windowsに含まれているスクリーンリーダーソリューションです。

2000年代

2000年代、音声合成は標準化の難しさに直面しました。音声は非常に個別的であるため、世界中の人々が音素、二重音素、イントネーション、トーン、パターン再生、抑揚の適切な発音に合意するのは困難です。

90年代にはフォルマント合成音声の品質も問題視されるようになりました。研究者たちは、ラボで使用される合成音声の再生システムの品質が、ユーザーが持つ機器よりもはるかに進んでいることに気づきました。音声合成を考えると、多くの人はスティーブン・ホーキングの音声合成器を思い浮かべます。これは人間のトーンがほとんどないロボット的な音声を提供しました。

2005年、研究者たちはついに合意に達し、共通の音声データセットを使用し始めました。これにより、高度な音声合成システムを作成する際に同じ基本理念から作業することが可能になりました。

2007年の研究では、聞き手が話者が笑顔で話しているかどうかを判断できることが示されました。研究者たちはこの情報を活用して、より自然な音声認識と音声合成ソフトウェアを作成する方法を模索し続けています。

2010年代

今日、音声信号を使用する音声合成製品は、SiriからAlexaまで至る所に存在します。電子音声合成器は生活を楽にするだけでなく、より楽しくもします。移動中に小説を聴くためにTTSシステムを使用したり、外国語を学ぶのを簡単にするアプリを使用したりする際、日常的にテキスト音声技術を使用して神経ネットワークを活性化している可能性があります。

未来

今後数年で、音声合成技術は脳のモデルを作成し、私たちがどのようにして心の中で音声データを記録するかをよりよく理解することに焦点を当てる可能性があります。音声技術はまた、感情が音声において果たす役割をよりよく理解し、この情報を使用してAI音声を実際の人間と区別できないように作成するでしょう。

最新の音声合成技術：Speechify

初期の音声合成技術からの移行を学ぶと、科学がどれほど進歩したかを想像するのは驚くべきことです。今日では、Speechifyのようなアプリが、あらゆるテキストを音声ファイルに変換するのを簡単にしています。ボタンを押すだけで（またはアプリをタップするだけで）、Speechifyはウェブサイト、ドキュメント、テキストの画像を自然な音声に変換します。Speechifyのライブラリはすべてのデバイスで同期され、移動中でも学び続け、作業を続けるのが簡単です。AppleのApp StoreとAndroidの Google PlayでSpeechifyアプリをチェックしてください。

よくある質問

テキスト音声変換を発明したのは誰ですか？

英語のテキスト音声変換は梅田典子によって発明されました。このシステムは1968年に日本の電子技術研究所で開発されました。

テキスト音声変換の目的は何ですか？

多くの人々がテキスト読み上げ技術を利用しています。音声形式で情報を得ることを好む人々にとって、TTS技術は、長時間本の前に座ることなく、必要な情報を簡単に得ることができます。忙しいプロフェッショナルも、TTS技術を利用して、コンピュータ画面の前に座れないときでも仕事を把握しています。多くの種類のTTS技術は、もともと視覚障害者のために開発されましたが、視覚に困難を抱える人々が必要な情報を得るための素晴らしい方法であり続けています。

音声を合成する方法は？

録音された音声の断片は、さまざまな単位でデータベースに保存されます。ソフトウェアはユニット選択を通じて音声ファイルを準備します。そこから、声が作成されます。一般的に、プログラムの出力範囲が広いほど、ユーザーに明瞭な音声を提供するのが難しくなります。

Speechify は、世界をリードするテキスト読み上げプラットフォームであり、5,000万を超えるユーザーに利用され、iOSiOS、Android、Chrome拡張機能、Webアプリ、そしてMacデスクトップアプリで50万件以上の5つ星レビューを獲得しています。2025年には、Appleから権威あるApple デザインアワードをWWDCで受賞し、「人々の暮らしを支える重要なリソース」と評されました。Speechifyは、60言語以上・1,000以上の自然な音声を提供し、ほぼ200か国で利用されています。有名人の音声にはSnoop Doggやグウィネス・パルトロウなども含まれます。クリエイターや企業向けに、Speechify Studio では高度なツールを提供し、AIボイスジェネレーター、AIボイスクローン、AI吹き替え、そしてAIボイスチェンジャーも利用できます。また、Speechifyは高品質でコストパフォーマンスに優れたテキスト読み上げAPIで、主要なプロダクトも支えています。これまでにウォール・ストリート・ジャーナル、CNBC、Forbes、TechCrunchなどの主要メディアにも取り上げられています。Speechifyは世界最大のテキスト読み上げプロバイダーです。詳しくはspeechify.com/news、speechify.com/blog、speechify.com/pressをご覧ください。