Google Cloud 文字轉語音 API 完整解析

生成式 AI 和人工智慧技術發展非常迅速。文字轉語音是較早問世的技術，已應用多年。這之中細節繁多，本篇會逐一拆解，從各角度說明，不論你是新手還是進階用戶，都能全面掌握 Google 文字轉語音 API。

在深入主題前，得先訂一些基本規則，定義相關術語並打好知識基礎。

我們先分開說明兩種技術：文字轉語音與 API，還有 Google Cloud 在其中扮演的角色。

編輯註：還在找最好用的文字轉語音 API 嗎？請參考 Speechify 文件詳盡且好整合的文字轉語音 API。

文字轉語音

我針對這主題寫過不少內容，你可以參考我的什麼是文字轉語音部落格，也能查閱語音合成懶人包深入了解。那些文章更完整，暫時可以先略過，下面我會先做重點說明。

文字轉語音仰賴語音合成技術，把文字變成 AI 語音。應用非常廣泛，例如幫助閱讀障礙（如失讀症）或視力不佳的人，也能協助重視效率的使用者。

API

API 就是應用程式介面，負責連接兩個程式。如果你開發一個內容服務，但需要加入文字轉語音功能，你可以自己開發，也可以直接串接現成的文字轉語音API。

你只要專心做核心產品，其餘就交給第三方 API 來補上文字轉語音功能，把文字轉成語音。

Google Cloud API

這就是 Google Cloud 大顯身手的地方。Google 推出強大又彈性的文字轉語音 API，並提供不同收費方案給開發者。想幫自己網站或 App 加上文字轉語音功能，只要用 Google TTS 技術就能補齊。補充：TTS 是文字轉語音（Text to Speech）的縮寫。

可以前往 Google Cloud Console 看快速入門指南：https://cloud.google.com/，裡面有教學、服務帳號管理、Wavenet 聲音等資源。

Google Cloud 是 Google 提供的雲端平台，內建許多模組化服務，可視需求選用部分或全部。申請時要建立 API 權杖作為認證——這就是兩邊溝通的橋樑。多數服務需付費，但每月都有部分免費額度。

Google 在 2014 年併購 DeepMind，看重的是其文字轉語音技術與神經網路研究成果。所以如果你看到 DeepMind，現在其實就是 Google DeepMind，屬於同一家公司。

基礎打好後，接著就能深入來看 Google Cloud 文字轉語音 API。

Google 文字轉語音 API 功能亮點

Google 是全球科技領頭羊，TTS API 具備許多領先業界、而且持續進化的強大功能。

高保真語音

Google 的文字轉語音語音品質堪稱業界頂尖，自然又逼真。TTS 正在起飛，誰能做出最接近真人的語音，誰就更有優勢。

語音多樣選擇

Google 提供最多語音選項，讓你的專案不用和市面上其他產品「撞聲」，也能降低和競品過於類似的風險。

自訂你的語音

這和聲音複製技術相當接近。你可以錄製自己或他人的聲音（務必取得對方同意），再用這段語音樣本，讓系統用同一種聲線來幫你念出所有文字。

神經語音

神經式語音是眾多選項中品質最高的一級，也支援多國語言，有助於拓展海外市場。

專業錄音室等級聲音

錄音室語音屬於頂級聲音，聽起來就像傳統錄音室找專業配音員錄製一樣自然專業。

聲音調整

你可以先選好聲線，再調整語速、音調等參數，靈活客製語音風格與語氣。

Google 文字轉語音 API 收費多少？

費用取決於語音品質與文字長度。聲音越自然，價格越高。不過以同級高品質語音來看，Google 的價格其實算相當親民。

語音類型	每月免費額度	超過免費額度後
神經2語音	0–100萬位元組	每百萬位元組16美元
多語語音	0–100萬位元組	每百萬位元組16美元
錄音室語音	0–10萬位元組	每百萬位元組160美元
標準語音	0–400萬字元	每百萬字元4美元
Wavenet語音	0–100萬字元	每百萬字元16美元

什麼是字元 & 位元組的差異？

可以看到，不同語音品質的價差很明顯。文字轉語音會用到不同等級的音訊編碼與處理流程。例如標準語音的計費是以字元為單位，相對便宜。

也就是說，如果你的專案有 400 萬字元，選用標準語音時只要 16 美元就能完成整段轉語音。

錄音室語音則需要更高運算量，所以用位元組計價。而像日文等語言，一個字可能會占用多個位元組。

因此要精準估價，就得先搞清楚你使用的是哪種語言，再估算每個字平均佔幾個位元組，才能抓得更準。

如何設定 Google Cloud Platform 文字轉語音 API 專案？

註冊 Google Cloud 帳號，或從這裡登入
建立新專案並取個好記的名稱
新增付款方式，僅依實際用量計費。
選好專案並綁定付款帳戶。
啟用文字轉語音 API，在上方搜尋欄輸入「speech」。
在結果清單中選取 Cloud Text-to-Speech API。
設定開發環境驗證，細節可參考官方的驗證設定教學。

你也可以先不綁專案，直接線上試用文字轉語音：

點選 TRY THIS API。
若要連動專案，則點選 ENABLE 啟用文字轉語音 API。

更多教學請查閱Google Cloud 文件。

如何停用文字轉語音 API

要停用文字轉語音 API，請到雲端平台儀表板，點進 API 概覽，在清單中找到 Text-to-Speech API 後點進去，再按頁面頂端的「DISABLE API」即可。

馬上開始使用 Google 文字轉語音 API

專案設定完成後，就可以用命令列啟動環境。

gcloud init

接著建立本機端驗證：

gcloud auth application-default login

之後即可安裝客戶端函式庫，本例以 Node.js 示範：

npm install --save @google-cloud/text-to-speech

Google Cloud 文字轉語音 API 支援下列語言：

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Google Cloud API 如何運作？

只要送出一個簡單的 API 呼叫就行。把要朗讀的文字當成輸入，API 會回傳語音檔案。你可以指定語音、語言等選項，文字轉語音 API就會直接給你生成好的音檔。

安裝與使用方式請見這裡。下方程式碼以 Node.js 為例，你也能改用 Python、PHP 等語言。

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

流程就是這麼直覺。你已完成 Google Cloud 文字轉語音 API 設定，並送出第一筆請求，把文字轉成語音。音檔支援多種格式，包括 OGG 和MP3。

Google 文字轉語音 API 應用場景舉例

Google 文字轉語音（TTS）API 可靈活運用在許多產業，常見應用包括：

輔助視障用戶：將文字內容轉成語音，協助視障者取得數位資訊。
自動語音系統：TTS 可用來打造互動語音客服、語音熱線等自然對話。
多媒體語音配音：為影片、Podcast 和其他多媒體內容自動產生自然配音。
多語系文字轉語音：把翻譯後的內容唸出來，幫助語言學習與國際多語應用。
協助閱讀障礙：為有閱讀障礙（如失讀症）的人提供語音朗讀輔助。
應用內語音導航：在導航 App 中提供即時語音導覽指示。
教育內容語音化：強化線上學習體驗，把教材文字轉成語音，提升吸收效率。
生產力工具語音：把 TTS 整合到記事、待辦等 App，提供語音回饋與朗讀。
虛擬助理自然語音：讓助理能用自然語音互動，大幅提升使用體驗。
設備語音提示及通知：IoT 設備可用 TTS 發出語音通知或狀態更新，提醒更到位。

Google Cloud TTS API 替代方案推薦

截至 2022 年 1 月，我整理了多套 Google 文字轉語音 API 替代方案。需留意這些服務可能已更新，以下僅列出幾個較知名的選擇：

Speechify 文字轉語音 API：Speechify 文字轉語音 API提供 1,000+ 款自然、富情感 AI 聲音，涵蓋 60 多種語系與口音。立即預約體驗。
Amazon Polly：AWS 旗下的 Polly 支援多語自然語音合成，並可與其他 AWS 服務深度整合。
Microsoft Azure Speech Service：Azure Speech Service 同時提供文字轉語音等能力，支援助理、導航系統等多種情境。
IBM Watson 文字轉語音：IBM Watson 的 TTS 服務，可用不同聲線非常自然地把文字念出來。
Nuance Communications：Nuance 提供醫療、汽車、客服等領域的文字轉語音與語音辨識解決方案。
CereProc：CereProc 是專攻文字轉語音的公司，提供高品質合成語音，適用於無障礙、娛樂與溝通等需求。
iSpeech：iSpeech 的雲端語音服務支援多語言與多種聲線，很適合行動 App 和網站使用。
ResponsiveVoice：ResponsiveVoice 是平價好上手的文字轉語音 API，支援多語，可用在各式網站應用。
Neospeech：Neospeech 提供強調自然人聲的文字轉語音方案，常見於 e-learning、娛樂產業。
ReadSpeaker：ReadSpeaker 提供線上/離線語音朗讀技術，適用於網站、線上教育與各類無障礙服務。
Acapelabox：Acapela Group 的雲端文字轉語音 API——Acapelabox，支援多語與多種聲線，能滿足各行各業需求。

常見問答

Google 提供多種語音等級，幾乎每一層都有免費額度。例如標準語音首百萬位元組免費，之後每百萬位元組 16 美元，所以在額度內等於免費。

只要前往https://cloud.google.com/text-to-speech/註冊即可，詳細步驟本文也有說明。

登入 Google Cloud，建立專案後，就能產生文字轉語音 API 金鑰。

Google 文字轉語音 API 的網址為https://cloud.google.com/text-to-speech/

基本上 Google Cloud 沒有統一的免費試用期，平台中各項服務都有各自的免費方案與條件。

無法離線使用，此 API 必須連上網路才能運作。

Google Cloud（包含文字轉語音）支援 API 金鑰、OAuth 2.0 與服務帳號等驗證方式，實際選哪一種則看你的應用情境與需求。

我會給 5 顆星。操作直覺、搜尋功能超好用，價格也合理，是很值得推薦的產品！

Google 文字轉語音 API 提供多種語言的客戶端函式庫，包括 Python，也能透過 RESTful API，由任何可發送 HTTP 請求的語言存取。

在 Android 上可搭配 TextToSpeech 類別與 API 請求來整合文字轉語音，詳細步驟請參考官方 Android 文件。

在 JavaScript 中可以對 API 端點發送 HTTP 請求，流程是組好請求、接收回應並處理音訊，細節可見官方文件。

Speechify 是全球領先的文字轉語音平台，擁有超過 5,000 萬用戶信賴，並在其 iOS、Android、Chrome 擴展、網頁應用和 Mac 桌面應用中獲得超過 50 萬個五星評價。2025 年，Apple 將 Speechify 授予了備受矚目的 Apple 設計大獎，並在 WWDC 上稱其為「幫助人們更好生活的重要資源」。Speechify 提供超過 1,000 種自然語音，支持 60 多種語言，並在近 200 個國家使用。名人語音包括 Snoop Dogg、Mr. Beast 和 Gwyneth Paltrow。對於創作者和企業，Speechify Studio 提供高級工具，包括 AI 語音生成器、AI 語音克隆、AI 配音和 AI 語音變換器。Speechify 還通過其高品質且具成本效益的文字轉語音 API 為領先產品提供支持。Speechify 曾被報導於 華爾街日報、CNBC、福布斯、TechCrunch 等主要媒體，是全球最大的文字轉語音提供商。訪問 speechify.com/news、speechify.com/blog 和 speechify.com/press 了解更多。

Google Cloud 文字轉語音 API 完整解析

Cliff Weitzman

Speechify API 提供 300ms 延遲、
高品質人聲以及 50+ 種語言

文字轉語音

API

Google Cloud API

Google 文字轉語音 API 功能亮點

高保真語音

語音多樣選擇

自訂你的語音

神經語音

專業錄音室等級聲音

聲音調整

Google 文字轉語音 API 收費多少？

什麼是字元 & 位元組的差異？

如何設定 Google Cloud Platform 文字轉語音 API 專案？

如何停用文字轉語音 API

馬上開始使用 Google 文字轉語音 API

Google Cloud 文字轉語音 API 支援下列語言：

Google Cloud API 如何運作？

Google 文字轉語音 API 應用場景舉例

Google Cloud TTS API 替代方案推薦

常見問答

分享這篇文章

Cliff Weitzman

關於 Speechify

Recommended Posts

最新部落格

為什麼 Speechify 要自行打造語音模型，而不是使用第三方 API

適用開發者的語音 AI API 與 Speechify API 優勢

什麼是前沿語音 AI 研究實驗室

Google Cloud 文字轉語音 API 完整解析

Cliff Weitzman

Speechify API 提供 300ms 延遲、高品質人聲以及 50+ 種語言

文字轉語音

API

Google Cloud API

Google 文字轉語音 API 功能亮點

高保真語音

語音多樣選擇

自訂你的語音

神經語音

專業錄音室等級聲音

聲音調整

Google 文字轉語音 API 收費多少？

什麼是字元 & 位元組的差異？

如何設定 Google Cloud Platform 文字轉語音 API 專案？

如何停用文字轉語音 API

馬上開始使用 Google 文字轉語音 API

Google Cloud 文字轉語音 API 支援下列語言：

Google Cloud API 如何運作？

Google 文字轉語音 API 應用場景舉例

Google Cloud TTS API 替代方案推薦

常見問答

分享這篇文章

Cliff Weitzman

關於 Speechify

Recommended Posts

最新部落格

為什麼 Speechify 要自行打造語音模型，而不是使用第三方 API

適用開發者的語音 AI API 與 Speechify API 優勢

什麼是前沿語音 AI 研究實驗室

Speechify API 提供 300ms 延遲、
高品質人聲以及 50+ 種語言