生成式 AI 和人工智慧技術發展非常迅速。文字轉語音是較早問世的技術,已應用多年。這之中細節繁多,本篇會逐一拆解,從各角度說明,不論你是新手還是進階用戶,都能全面掌握 Google 文字轉語音 API。
在深入主題前,得先訂一些基本規則,定義相關術語並打好知識基礎。
我們先分開說明兩種技術:文字轉語音與 API,還有 Google Cloud 在其中扮演的角色。
編輯註:還在找最好用的文字轉語音 API 嗎?請參考 Speechify 文件詳盡且好整合的文字轉語音 API。
文字轉語音
我針對這主題寫過不少內容,你可以參考我的什麼是文字轉語音部落格,也能查閱語音合成懶人包深入了解。那些文章更完整,暫時可以先略過,下面我會先做重點說明。
文字轉語音仰賴語音合成技術,把文字變成 AI 語音。應用非常廣泛,例如幫助閱讀障礙(如失讀症)或視力不佳的人,也能協助重視效率的使用者。
API
API 就是應用程式介面,負責連接兩個程式。如果你開發一個內容服務,但需要加入文字轉語音功能,你可以自己開發,也可以直接串接現成的文字轉語音API。
你只要專心做核心產品,其餘就交給第三方 API 來補上文字轉語音功能,把文字轉成語音。
Google Cloud API
這就是 Google Cloud 大顯身手的地方。Google 推出強大又彈性的文字轉語音 API,並提供不同收費方案給開發者。想幫自己網站或 App 加上文字轉語音功能,只要用 Google TTS 技術就能補齊。補充:TTS 是文字轉語音(Text to Speech)的縮寫。
可以前往 Google Cloud Console 看快速入門指南:https://cloud.google.com/,裡面有教學、服務帳號管理、Wavenet 聲音等資源。
Google Cloud 是 Google 提供的雲端平台,內建許多模組化服務,可視需求選用部分或全部。申請時要建立 API 權杖作為認證——這就是兩邊溝通的橋樑。多數服務需付費,但每月都有部分免費額度。
Google 在 2014 年併購 DeepMind,看重的是其文字轉語音技術與神經網路研究成果。所以如果你看到 DeepMind,現在其實就是 Google DeepMind,屬於同一家公司。
基礎打好後,接著就能深入來看 Google Cloud 文字轉語音 API。
Google 文字轉語音 API 功能亮點
Google 是全球科技領頭羊,TTS API 具備許多領先業界、而且持續進化的強大功能。
高保真語音
Google 的文字轉語音語音品質堪稱業界頂尖,自然又逼真。TTS 正在起飛,誰能做出最接近真人的語音,誰就更有優勢。
語音多樣選擇
Google 提供最多語音選項,讓你的專案不用和市面上其他產品「撞聲」,也能降低和競品過於類似的風險。
自訂你的語音
這和聲音複製技術相當接近。你可以錄製自己或他人的聲音(務必取得對方同意),再用這段語音樣本,讓系統用同一種聲線來幫你念出所有文字。
神經語音
神經式語音是眾多選項中品質最高的一級,也支援多國語言,有助於拓展海外市場。
專業錄音室等級聲音
錄音室語音屬於頂級聲音,聽起來就像傳統錄音室找專業配音員錄製一樣自然專業。
聲音調整
你可以先選好聲線,再調整語速、音調等參數,靈活客製語音風格與語氣。
Google 文字轉語音 API 收費多少?
費用取決於語音品質與文字長度。聲音越自然,價格越高。不過以同級高品質語音來看,Google 的價格其實算相當親民。
| 語音類型 | 每月免費額度 | 超過免費額度後 |
| 神經2語音 | 0–100萬位元組 | 每百萬位元組16美元 |
| 多語語音 | 0–100萬位元組 | 每百萬位元組16美元 |
| 錄音室語音 | 0–10萬位元組 | 每百萬位元組160美元 |
| 標準語音 | 0–400萬字元 | 每百萬字元4美元 |
| Wavenet語音 | 0–100萬字元 | 每百萬字元16美元 |
什麼是字元 & 位元組的差異?
可以看到,不同語音品質的價差很明顯。文字轉語音會用到不同等級的音訊編碼與處理流程。例如標準語音的計費是以字元為單位,相對便宜。
也就是說,如果你的專案有 400 萬字元,選用標準語音時只要 16 美元就能完成整段轉語音。
錄音室語音則需要更高運算量,所以用位元組計價。而像日文等語言,一個字可能會占用多個位元組。
因此要精準估價,就得先搞清楚你使用的是哪種語言,再估算每個字平均佔幾個位元組,才能抓得更準。
如何設定 Google Cloud Platform 文字轉語音 API 專案?
- 註冊 Google Cloud 帳號,或從這裡登入
- 建立新專案並取個好記的名稱
- 新增付款方式,僅依實際用量計費。
- 選好專案並綁定付款帳戶。
- 啟用文字轉語音 API,在上方搜尋欄輸入「speech」。
- 在結果清單中選取 Cloud Text-to-Speech API。
- 設定開發環境驗證,細節可參考官方的驗證設定教學。
你也可以先不綁專案,直接線上試用文字轉語音:
- 點選 TRY THIS API。
- 若要連動專案,則點選 ENABLE 啟用文字轉語音 API。
更多教學請查閱Google Cloud 文件。
如何停用文字轉語音 API
要停用文字轉語音 API,請到雲端平台儀表板,點進 API 概覽,在清單中找到 Text-to-Speech API 後點進去,再按頁面頂端的「DISABLE API」即可。
馬上開始使用 Google 文字轉語音 API
專案設定完成後,就可以用命令列啟動環境。
gcloud init接著建立本機端驗證:
gcloud auth application-default login之後即可安裝客戶端函式庫,本例以 Node.js 示範:
npm install --save @google-cloud/text-to-speechGoogle Cloud 文字轉語音 API 支援下列語言:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Google Cloud API 如何運作?
只要送出一個簡單的 API 呼叫就行。把要朗讀的文字當成輸入,API 會回傳語音檔案。你可以指定語音、語言等選項,文字轉語音 API就會直接給你生成好的音檔。
安裝與使用方式請見這裡。下方程式碼以 Node.js 為例,你也能改用 Python、PHP 等語言。
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);流程就是這麼直覺。你已完成 Google Cloud 文字轉語音 API 設定,並送出第一筆請求,把文字轉成語音。音檔支援多種格式,包括 OGG 和MP3。
Google 文字轉語音 API 應用場景舉例
Google 文字轉語音(TTS)API 可靈活運用在許多產業,常見應用包括:
- 輔助視障用戶:將文字內容轉成語音,協助視障者取得數位資訊。
- 自動語音系統:TTS 可用來打造互動語音客服、語音熱線等自然對話。
- 多媒體語音配音:為影片、Podcast 和其他多媒體內容自動產生自然配音。
- 多語系文字轉語音:把翻譯後的內容唸出來,幫助語言學習與國際多語應用。
- 協助閱讀障礙:為有閱讀障礙(如失讀症)的人提供語音朗讀輔助。
- 應用內語音導航:在導航 App 中提供即時語音導覽指示。
- 教育內容語音化:強化線上學習體驗,把教材文字轉成語音,提升吸收效率。
- 生產力工具語音:把 TTS 整合到記事、待辦等 App,提供語音回饋與朗讀。
- 虛擬助理自然語音:讓助理能用自然語音互動,大幅提升使用體驗。
- 設備語音提示及通知:IoT 設備可用 TTS 發出語音通知或狀態更新,提醒更到位。
Google Cloud TTS API 替代方案推薦
截至 2022 年 1 月,我整理了多套 Google 文字轉語音 API 替代方案。需留意這些服務可能已更新,以下僅列出幾個較知名的選擇:
- Speechify 文字轉語音 API:Speechify 文字轉語音 API提供 1,000+ 款自然、富情感 AI 聲音,涵蓋 60 多種語系與口音。立即預約體驗。
- Amazon Polly:AWS 旗下的 Polly 支援多語自然語音合成,並可與其他 AWS 服務深度整合。
- Microsoft Azure Speech Service:Azure Speech Service 同時提供文字轉語音等能力,支援助理、導航系統等多種情境。
- IBM Watson 文字轉語音:IBM Watson 的 TTS 服務,可用不同聲線非常自然地把文字念出來。
- Nuance Communications:Nuance 提供醫療、汽車、客服等領域的文字轉語音與語音辨識解決方案。
- CereProc:CereProc 是專攻文字轉語音的公司,提供高品質合成語音,適用於無障礙、娛樂與溝通等需求。
- iSpeech:iSpeech 的雲端語音服務支援多語言與多種聲線,很適合行動 App 和網站使用。
- ResponsiveVoice:ResponsiveVoice 是平價好上手的文字轉語音 API,支援多語,可用在各式網站應用。
- Neospeech:Neospeech 提供強調自然人聲的文字轉語音方案,常見於 e-learning、娛樂產業。
- ReadSpeaker:ReadSpeaker 提供線上/離線語音朗讀技術,適用於網站、線上教育與各類無障礙服務。
- Acapelabox:Acapela Group 的雲端文字轉語音 API——Acapelabox,支援多語與多種聲線,能滿足各行各業需求。
常見問答
Google 提供多種語音等級,幾乎每一層都有免費額度。例如標準語音首百萬位元組免費,之後每百萬位元組 16 美元,所以在額度內等於免費。
只要前往https://cloud.google.com/text-to-speech/註冊即可,詳細步驟本文也有說明。
登入 Google Cloud,建立專案後,就能產生文字轉語音 API 金鑰。
Google 文字轉語音 API 的網址為https://cloud.google.com/text-to-speech/
基本上 Google Cloud 沒有統一的免費試用期,平台中各項服務都有各自的免費方案與條件。
無法離線使用,此 API 必須連上網路才能運作。
Google Cloud(包含文字轉語音)支援 API 金鑰、OAuth 2.0 與服務帳號等驗證方式,實際選哪一種則看你的應用情境與需求。
我會給 5 顆星。操作直覺、搜尋功能超好用,價格也合理,是很值得推薦的產品!
Google 文字轉語音 API 提供多種語言的客戶端函式庫,包括 Python,也能透過 RESTful API,由任何可發送 HTTP 請求的語言存取。
在 Android 上可搭配 TextToSpeech 類別與 API 請求來整合文字轉語音,詳細步驟請參考官方 Android 文件。
在 JavaScript 中可以對 API 端點發送 HTTP 請求,流程是組好請求、接收回應並處理音訊,細節可見官方文件。

