Social Proof

Google Cloud Text to Speech APIについて知っておくべきこと

私たちは、Speechifyの最も自然で人気のあるAI音声を世界中の開発者に直接提供するテキスト読み上げAPIの開発を発表できることを嬉しく思います。

私たちの テキスト読み上げリーダーをお探しですか?

掲載メディア

forbes logocbs logotime magazine logonew york times logowall street logo
この記事をSpeechifyで聴く!
Speechify

生成AIと人工知能は大きく進化してきました。テキスト読み上げは比較的古い概念で、しばらく前から存在しています。ここには多くのことがあり、分類する必要があります。初心者でもプロでも、GoogleのText to Speech APIについての全体的な理解が得られるはずです。

生成AIと人工知能は大きく進化してきました。テキスト読み上げは比較的古い概念で、しばらく前から存在しています。ここには多くのことがあり、分類する必要があります。初心者でもプロでも、GoogleのText to Speech APIについての全体的な理解が得られるはずです。

さて、どんなトピックに入る前に、基本的なルールを確立することが必要です。いくつかの用語を定義し、しっかりとした基盤を築きましょう。

ここで2つの技術、テキスト読み上げとAPIを分け、Google Cloudの役割を見てみましょう。

編集者注: 最高のテキスト読み上げAPIをお探しですか?Speechifyのよく文書化され、使いやすいテキスト読み上げAPIをチェックしてください。

テキスト読み上げ

このトピックについて詳しく書いてきました。私のテキスト読み上げとは何かブログや音声合成の究極ガイドを読んで、このトピックをしっかりと理解してください。これらはより深く掘り下げていますが、今は飛ばしても構いません。数文で要約します。

テキスト読み上げは、音声合成と呼ばれる技術に依存して、言葉をAI生成の音声に変換します。この技術の利用例は豊富です。ディスレクシアや視力の悪い人々を助けることから、効率を追求する人々まで、多岐にわたります。

API

APIはアプリケーションプログラミングインターフェースの略です。これは単に2つのアプリケーション間の橋渡しをします。もし音声コンテンツを持つアプリを開発していて、テキスト読み上げ機能が必要なら、自分でその機能を構築するか、既存のテキスト読み上げAPIに接続することができます。

アプリの構築に集中し、第三者のAPIを橋渡しとして利用し、テキスト読み上げ機能をインポートしてテキストを合成します。

Google Cloud API

ここでGoogle Cloudが登場します。Googleは強力なテキスト読み上げAPIを開発し、さまざまな料金体系で開発者に提供しています。カスタムアプリやウェブアプリを構築し、テキスト読み上げ機能が必要な開発者は、GoogleのTTS機能を利用してそのギャップを埋めることができます。TTSはテキスト読み上げの略です。

Google Cloud Consoleでクイックスタートを見つけてください https://cloud.google.com/。チュートリアルを見つけたり、サービスアカウントを管理したり、WaveNetの声にアクセスしたりできます。

Google Cloud自体はGoogleが提供するクラウドプラットフォームで、多くのモジュール式サービスを提供しています。1つ、複数、またはすべてのサービスを選んで使用することができます。各APIの認証のためにアクセスキーを作成するだけです。ほとんどのサービスにはコストがかかりますが、無料の閾値があるかもしれません。

Googleは2014年にDeepMindを買収し、そのテキスト読み上げ技術とニューラルネットワーク開発に取り組んでいます。したがって、DeepMindに出会ったら、それは今やGoogle DeepMindであり、すべて同じものです。

しっかりとした理解が得られたので、Google Cloud Text to Speech APIについて深く掘り下げてみましょう。

Google Text to Speech APIの特徴

Googleは世界的な技術の先駆者でありリーダーであることに疑いの余地はありません。TTS APIに関しては、世界クラスの機能が期待でき、それが進化し続けています。

高忠実度の音声

Googleのテキスト読み上げの声は業界で最高のものの一つです。非常に人間らしく、自然なイントネーションで聞こえます。TTSはまだ初期段階にあり、人間が話しているように音声を合成できる者がこの競争に勝つでしょう。

声の選択

Googleは最も広範な声の選択を主張しており、あなたのプロジェクトが他の1000のプロジェクトや競合他社のアプリと同じように聞こえる必要はありません。

自分の声を作成

これは声のクローン技術に近いです。自分や他の人の声を録音して、許可を得てカスタムボイスを作成できます。このサンプルを使用して、すべてのテキストを読み上げる声にすることができます。

ニューラルボイス

ニューラルボイスは、豊富なボイスの中で最高の品質を提供します。これらのボイスを国際化することで、国際的なオーディエンスを拡大することができます。

スタジオボイス

スタジオボイスは、非常にプロフェッショナルで、従来の方法で録音されたかのように聞こえる高品質なボイスです。

ボイストーニング

ボイスを選んで、スピードやピッチなどを調整し、トーンやボイスをカスタマイズできます。

Google Text to Speech APIの料金はどれくらいですか?

すべてはボイスの品質とテキストの長さに依存します。より自然な音声を求めるほど、費用は高くなります。ただし、ここでの「高い」は相対的なものです。高品質なボイスでも比較的安価です。

ボイスタイプ月ごとの無料使用量無料使用量を超えた場合
Neural2ボイス0から100万バイト100万バイトごとに$16
Polyglotボイス0から100万バイト100万バイトごとに$16
スタジオボイス0から100,000バイト100万バイトごとに$160
スタンダードボイス0から400万文字100万文字ごとに$4
Wavenetボイス0から100万文字100万文字ごとに$16

文字とバイトの違いは何ですか?

ご覧の通り、価格はボイスの品質によって大きく異なります。テキストを音声に変換するためのオーディオエンコーディングと処理は、レベルごとに異なります。例えば、低価格のスタンダードボイスは、文字数で計算されます。

つまり、プロジェクトに400万文字がある場合、スタンダードボイスを使用してそれらの文字を音声に変換するのに$16かかります。

一方、スタジオボイスはより多くの処理能力を必要とし、バイト単位で課金されます。例えば、日本語のような言語では、1文字が複数のバイトで構成されることがあります。

したがって、最も正確な価格を知るためには、使用する言語と各文字の平均バイト数を理解し、それに応じて見積もることが重要です。

Google Cloud Platform Text to Speech APIプロジェクトの設定方法

  1. Google Cloudアカウントを作成するか、このページでログイン
  2. 新しいプロジェクトを作成し、適切に名前を付ける
  3. 支払い方法を追加。使用した分だけ課金されます。
  4. 次にプロジェクトを選択し、支払いアカウントと関連付けます。
  5. Text-to-Speech APIを有効化します。ページ上部の検索バーで「speech」と入力します。
  6. 表示された結果からCloud Text-to-Speech APIを選択します。
  7. 開発環境の認証を設定します。手順については、Text-to-Speechの認証設定を参照してください。

プロジェクトにリンクせずにText-to-Speechを試すこともできます:

  1. 「TRY THIS API」オプションを選択します。
  2. プロジェクトでText-to-Speech APIを使用するには、「ENABLE」をクリックします。

さらに詳しい情報は、Google Cloudドキュメントをご覧ください。

Text to Speech APIの無効化方法

Text-to-Speech APIを無効化するには、Google Cloud Platformダッシュボードにアクセスし、APIボックス内の「APIの概要に移動」リンクをクリックします。Text-to-Speech APIを見つけてクリックし、ページ上部の「DISABLE API」ボタンを選択します。

Google Text to Speech APIの開始方法

プロジェクトの設定が完了したら、コマンドラインを使用して開始できます。

gcloud init

ローカル認証を作成

gcloud auth application-default login

クライアントライブラリをインストールできます。この例では、Node.jsを見てみましょう。

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech APIがサポートする言語:

  1. Go
  2. Java
  3. Node.js
  4. C++
  5. C#
  6. PHP
  7. Python
  8. Ruby
  9. TypeScript
  10. Terraform
  11. YAML

Google Cloud APIはどのように機能するのか?

すべてはシンプルなAPIコールから始まります。テキストをトランスクリプトコールで送信すると、音声ファイルが返ってきます。リクエストに特定の要件を指定することができます。声や言語を選択し、テキストを音声に変換するAPIが音声ファイルを返送します。

テキストから音声へのクライアントライブラリのインストールと使用方法を学ぶことができます こちら。コードサンプルはNode.js用ですが、PythonからPHPまでお好きなものを選べます。あなたが使いやすいものを選んでください。

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

以上で完了です。Google Cloud Text to Speech APIを設定し、最初のリクエストを送信してテキストを音声に変換しました。OGGからMP3まで様々な形式でファイルを取得できます。

Google Text to Speech APIの活用方法

Google Text-to-Speech (TTS) APIは、さまざまな業界で多様なユースケースに対応するソリューションを提供します。一般的なユースケースには以下のものがあります:

  1. 視覚障害者向けのテキスト読み上げ: アプリケーションにTTSを実装し、書かれたコンテンツを音声に変換することで、視覚障害者がデジタル情報にアクセスできるようにします。
  2. 自動電話システム: TTSを利用して、カスタマーサービスや情報ホットラインのインタラクティブ音声応答システムに自然な音声のプロンプトと応答を作成します。
  3. メディアコンテンツのナレーション: 動画、ポッドキャスト、その他のマルチメディアコンテンツに自然な音声のナレーションを生成し、ユーザー体験を向上させます。
  4. 翻訳コンテンツの音声化: 翻訳されたテキストを音声に変換し、言語学習、国際コミュニケーション、さまざまな言語でのコンテンツ消費を促進します。
  5. ディスレクシアユーザーのための読書支援: TTS機能を提供し、ディスレクシアや読書困難を抱える個人が書かれたコンテンツを消費するのを支援します。
  6. アプリケーションでの音声ナビゲーション: ナビゲーションアプリケーションにTTSを統合し、ターンバイターンの方向や位置情報を音声で提供します。
  7. 教育コンテンツの音声化: 教育テキストコンテンツを音声に変換し、理解とエンゲージメントを助けることでeラーニング体験を向上させます。
  8. 生産性アプリのための音声合成: ノート取りやタスク管理アプリなどの生産性ツールにTTSを統合し、音声フィードバックや情報取得を可能にします。
  9. バーチャルアシスタントの自然な音声: 自然な音声のTTSを使用して音声アシスタントを強化し、ユーザーとの対話を改善し、会話形式で情報を提供します。
  10. 聴覚アラートと通知: TTSを使用して、IoTデバイス上での聴覚アラート、通知、またはステータス更新を提供し、ユーザーの認識を向上させます。

Google Cloud TTS APIのベストな代替案

2022年1月の最新情報によると、Google Text-to-Speech APIにはいくつかの代替案があります。これらのサービスの人気や機能はそれ以降変わっている可能性があります。以下に注目すべき代替案をいくつか紹介します:

  1. Speechify Text to Speech API: 私たちは、Speechifyの最も自然で愛されているAI音声を世界中の開発者に直接提供するテキスト読み上げAPIの開発を発表できることを嬉しく思います。今すぐ席を確保してください
  2. Amazon Polly: Amazon Web Services (AWS) によって提供されるPollyは、さまざまな言語と音声で自然な音声合成を提供します。他のAWSサービスとよく統合されます。
  3. Microsoft Azure Speech Service: Azure Speech Serviceは、テキスト読み上げ機能を含み、音声アシスタントやナビゲーションシステムなど、さまざまなアプリケーションをサポートします。
  4. IBM Watson Text to Speech: IBM Watsonは、開発者が書かれたテキストを自然な音声に変換することを可能にするテキスト読み上げサービスを提供しています。
  5. Nuance Communications: Nuanceは、ヘルスケア、自動車、カスタマーサービスなどのアプリケーション向けに、テキスト読み上げを含むさまざまな音声認識ソリューションを提供しています。
  6. CereProc: CereProcは、アクセシビリティ、エンターテインメント、コミュニケーションなどのアプリケーション向けに高品質な合成音声を提供するテキスト読み上げ技術会社です。
  7. iSpeech: iSpeechは、複数の言語と音声をサポートするクラウドベースのテキスト読み上げサービスを提供しています。モバイルアプリやウェブサイトなど、さまざまなアプリケーションに適しています。
  8. ResponsiveVoice: ResponsiveVoiceは、複数の言語をサポートし、さまざまなウェブベースのアプリケーションで使用できるシンプルで手頃なテキスト読み上げAPIです。
  9. Neospeech: Neospeechは、自然な音声に焦点を当てたテキスト読み上げソリューションを提供しています。彼らの技術は、eラーニングやエンターテインメントなどのアプリケーションで使用されています。
  10. ReadSpeaker: ReadSpeakerは、ウェブサイト、eラーニング、アクセシビリティサービスなど、さまざまなアプリケーション向けにオンラインおよびオフラインのテキスト読み上げソリューションを提供しています。
  11. Acapelabox: Acapela Groupは、さまざまな業界のアプリケーション向けに複数の言語と音声をサポートするクラウドベースのテキスト読み上げAPI、Acapelaboxを提供しています。

Google テキスト読み上げAPI よくある質問

Googleには複数の音声レベルがあり、ほとんどのレベルには無料の制限があります。例えば、標準音声は最初の100万バイトまで無料です。それ以降は100万バイトごとに16ドルです。したがって、文字数やバイト数に制限がある場合は無料で利用できます。

https://cloud.google.com/text-to-speech/ でアカウントを作成し、そこでの手順に従ってください。また、このブログの上部に詳細なプロセスを記載しています。

Google Cloudアカウントにログインし、プロジェクトを作成することでGoogleテキスト読み上げAPIキーを取得できます。プロジェクトを作成したら、APIキーを生成できます。

Google テキスト読み上げAPIのURLは https://cloud.google.com/text-to-speech/ です。

技術的にはGoogle Cloudに無料トライアル期間はありません。Google Cloudには複数のサービスがあり、それぞれのサービスには独自の条件と無料枠があります。

いいえ。Google Cloudのテキスト読み上げAPIはインターネット接続が必要です。

Google Cloudサービスへの認証は、APIキー、OAuth 2.0、またはサービスアカウントを使用して行うことができます。適切な認証方法は、使用ケースやアプリケーションの種類によって異なります。

5つ星で評価します。使いやすく、検索機能が優れており、最もよく使用されています。価格も適正で、全体的に素晴らしい製品です。

Google Text-to-Speech APIは、Pythonを含むさまざまなプログラミング言語用のクライアントライブラリを提供しています。また、RESTful APIリクエストをサポートしており、HTTPリクエストを行うことができる言語と互換性があります。

Google Text-to-Speech APIをAndroidアプリに統合するには、TextToSpeechクラスを使用し、APIリクエストを行います。詳細な手順は、Android開発者向けの公式ドキュメントで確認できます。

JavaScriptアプリケーションにGoogle Text-to-Speech APIを実装するには、APIエンドポイントにHTTPリクエストを行います。適切なAPIリクエストを構築し、JavaScriptコードでレスポンスを処理する必要があります。詳細は公式ドキュメントを参照してください。

Cliff Weitzman

クリフ・ワイツマン

クリフ・ワイツマンはディスレクシアの提唱者であり、世界で最も人気のあるテキスト読み上げアプリ「Speechify」のCEO兼創設者です。このアプリは10万件以上の5つ星レビューを獲得し、App Storeのニュース&雑誌カテゴリーで1位にランクインしています。2017年には、学習障害を持つ人々にインターネットをよりアクセスしやすくする取り組みが評価され、Forbesの30 Under 30に選ばれました。クリフ・ワイツマンは、EdSurge、Inc.、PC Mag、Entrepreneur、Mashableなどの主要メディアで取り上げられています。