Google Cloud文本转语音API全解析

生成式AI和人工智能发展迅猛。文本转语音并不新鲜，早已广泛应用。这里信息量很大、分类清晰，我会带你逐步拆解、全面解析。不论你是新手还是老鸟，本指南都能帮你吃透Google 文本转语音API。

在深入展开之前，先把基本规则说清楚。我们先定义几个核心术语，为后续内容打好基础。

我们将两项技术拆开讲：文本转语音、本身的API机制，以及Google Cloud在其中扮演的角色。

编辑注：想用行业领先的文本转语音API？不妨试试Speechify文档完善、上手轻松的文本转语音API。

文本转语音

我在这个话题上写过不少深度文章，你可以先看我的什么是文本转语音博文，也可以继续深入了解语音合成获取更多背景。也可以直接略过，我这里会先把关键概念讲清楚。

文本转语音基于“语音合成”技术，将文字转成AI生成的语音。它的应用场景非常广：既能帮助阅读有障碍的人群（如阅读障碍、视力受限），也能大幅提升效率，实用场景数不胜数。

API

API即应用程序编程接口，相当于两个应用之间的“桥梁”。如果你在开发需要语音输出的应用，可以自己做一套文本转语音，也可以直接接入成熟的文本转语音API。

这样你只需专注业务开发，把文本转语音这类能力交给第三方API来完成，就能无缝集成到你的产品里。

Google Cloud API

这正是Google Cloud大显身手的地方。Google推出了功能强大的文本转语音API，并按不同付费档位向开发者开放。需要集成文本转语音的开发者，可以直接调用Google的TTS服务。TTS是Text To Speech（文本转语音）的缩写。

你可以在Google Cloud Console找到快速入口 https://cloud.google.com/，查看教程、管理服务帐号，并体验Wavenet语音等功能。

Google Cloud是Google提供的云平台，包含多种可选的模块化服务。你可以按需启用一种、几种或全部服务。只需创建API访问密钥用于身份验证，大多数服务按量计费，也提供一定的免费额度。

2014年，Google收购DeepMind，用于文本转语音技术与神经网络研发。如今看到DeepMind基本都统一称为Google DeepMind，可视作同一体系。

有了以上铺垫，我们就可以正式进入Google Cloud文本转语音API的深度解析。

Google文本转语音API特性

Google无疑是全球技术领跑者之一。在TTS API方面，你可以用上始终在迭代升级的顶级功能。

高保真语音

Google的文本转语音语音质量位居行业前列，听感自然、语调贴近真人。TTS还处在快速发展期，谁能做出越自然的合成语音，谁就越占优势。

多样语音选择

Google提供极为丰富的语音库，你的项目不必担心千篇一律，也能尽量避免与竞品“撞声”。

自定义个性语音

这个功能和声音克隆非常接近。通过录制你的声音或已获授权的声音，便能定制专属音色来播报文本。

神经网络语音

神经网络语音拥有最佳音质，并支持多语种多口音，方便你触达全球听众。

Studio专业语音

Studio语音属于高端专业线路，听上去更像传统录音棚成品，整体质感非常专业。

语音调优

选好基础语音后，你还可以通过调节语速、音调等参数，进一步微调出理想的音色风格。

Google文本转语音API费用如何？

最终花费取决于语音档次和文本长度。语音越自然，单价通常越高。但整体来看定价相对友好，高质量语音的成本也不算离谱。

语音类型	每月免费额度	超出免费后收费
Neural2语音	0-100万字节	$16/百万字节
Polyglot语音	0-100万字节	$16/百万字节
Studio语音	0-10万字节	$160/百万字节
标准语音	0-400万字符	$4/百万字符
Wavenet语音	0-100万字符	$16/百万字符

字符和字节有何区别

从上表可以看出，价格会因语音质量有明显差异。在文本转语音的流程里，编码和处理的粒度也不同。比如标准语音价格较低，按字符计费。

比如，你的项目文本有400万字符，用标准语音转换成音频，大约需要支付$16。

Studio语音需要更高算力，因此按字节计费。像日语这样的语言，一个字符可能由多个字节组成。

所以要精准预估费用，就需要先弄清楚你的目标语言中，每个字符平均占多少字节，再据此估算。

如何设置Google Cloud平台文本转语音API新项目？

创建Google Cloud账号，或在此登录
新建项目，并为其起个清晰易懂的名字
添加付费方式。采用按量计费。
选中对应项目，并关联到付费账号。
启用文本转语音API。在顶部搜索栏输入“speech”即可找到。
在搜索结果中选择Cloud Text-to-Speech API
为开发环境配置身份认证。详细步骤见官方Text-to-Speech认证文档。

你也可以先不绑定项目，直接在线试用Text-to-Speech：

点击“TRY THIS API”按钮
如果要和项目一起用，再点击“ENABLE”启用Text-to-Speech API

可参考Google Cloud文档获取更详细的指引。

如何停用文本转语音API

如需停用Text-to-Speech API，请打开Google Cloud控制台主页，在API模块中点击“API概览”，找到Text-to-Speech API，进入后点击页面上方的“DISABLE API”按钮即可。

开始使用Google文本转语音API

项目创建和配置完成后，就可以通过命令行开启你的新体验。

gcloud init

在本地完成身份认证

gcloud auth application-default login

接下来安装客户端库。下面以Node.js为例：

npm install --save @google-cloud/text-to-speech

Google Cloud文本转语音API支持以下语言：

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Google Cloud API如何工作？

整体流程非常简单：发起一次API调用，传入文本，就能拿到语音文件。你可以在请求中指定语音类型、语言等参数，API会自动生成并返回对应的音频。

你可以按此处的官方说明安装并使用文本转语音客户端库。本文示例用的是Node.js，其它如Python、PHP等语言也都完全支持。

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

到这里，你已经完成Google Cloud文本转语音API的配置，并成功发起了第一次请求。生成的音频支持多种格式，如OGG、MP3等。

Google文本转语音API常见应用场景

Google Text-to-Speech (TTS) API适用于各行各业、各种场景。典型用例包括：

为视障用户提供文本转语音：在应用中将文字转换为语音，提升数字内容可访问性，方便视障人士获取信息。
自动语音电话系统：借助TTS生成自然的语音提示和应答，用于客户服务热线等语音交互系统。
多媒体内容配音：为视频、播客等内容自动生成拟真语音，显著提升用户体验。
翻译内容语音播报：将翻译后的文字转成语音，方便语言学习、跨境沟通或多语内容消费。
为阅读障碍人群助读：为阅读障碍或识字困难人士提供朗读辅助。
应用内语音导航：在地图等导航App中集成TTS，提供语音引导和位置播报。
教育内容语音输出：在教育App中把教学文本转成语音，帮助理解并提升参与度。
效率工具语音助理：在笔记、任务等效率应用中集成TTS，支持听写或语音播报信息。
虚拟助手自然发声：让语音助手听起来更像真人，优化对话体验。
声音提醒与推送：让物联网设备通过TTS发出实时语音通知和状态提醒。

Google Cloud TTS API最佳替代方案

截至2022年1月，Google文本转语音API已经有不少同类替代品，且功能表现可能持续更新。下面是几款主流选择：

Speechify Text to Speech API: Speechify Text to Speech API拥有1000+真实感、情感丰富 AI语音，覆盖60+语言及方言。立即抢先体验。
Amazon Polly: 由Amazon Web Services (AWS)提供，支持多语言多音色，并可与其它AWS服务无缝衔接。
Microsoft Azure Speech Service: 集成语音识别和朗读等能力，适用于语音助手、导航等众多场景。
IBM Watson Text to Speech: 可将书面文字转换成自然语音，并提供多种发音选项。
Nuance Communications: Nuance同时提供语音识别和文本转语音能力，广泛应用于医疗、车载、客服等领域。
CereProc: CereProc是一家专注文本转语音的公司，合成语音表现出色，常用于无障碍、娱乐、通信等应用。
iSpeech: iSpeech提供云端TTS服务，支持多语言多音色，兼容移动端和Web端。
ResponsiveVoice: ResponsiveVoice是一款简单易用的TTS API，支持多语种，适合各种Web应用集成。
Neospeech: Neospeech主打自然语音，在在线教育、娱乐等场景中应用广泛。
ReadSpeaker: ReadSpeaker支持在线和离线TTS，适用于网站、在线学习和无障碍场景。
Acapelabox: Acapela Group推出的Acapelabox是一款云端TTS API，支持多语言和多种音色，覆盖各类行业应用。

常见问题

Google针对不同语音档位通常提供一定免费额度。标准语音前100万字节免费，之后按$16/百万字节计费。所以在免费范围内（按字节或字符）使用是免费的。

先注册账号：https://cloud.google.com/text-to-speech/，然后按页面指引一步步操作。具体流程本文前文已有详细说明。

登录你的Google Cloud账号，新建项目后即可生成API密钥，用于调用文本转语音等服务。

Google文本转语音API的官网地址为https://cloud.google.com/text-to-speech/

严格来说没有统一的“通用试用期”。Google Cloud由多项服务组成，各自有不同的免费层和使用条款。

不能。Google Cloud文本转语音API是云端服务，必须联网才能使用。

Google Cloud服务（包括文本转语音API）支持API密钥、OAuth 2.0和服务帐号等多种验证方式。具体用哪种，取决于你的使用场景和应用类型。

我会打5星。平台易用、搜索体验好、覆盖面广，价格也算合理，整体产品体验相当不错。

Google文本转语音API为多种编程语言提供客户端库（如Python），同时也支持RESTful API调用，任何能发起HTTP请求的语言都可以对接。

在Android中集成文本转语音功能，一般通过TextToSpeech类配合API请求实现。具体实现步骤可参考Android官方文档。

在JavaScript应用中使用Google文本转语音API，可以按照官方文档说明构造请求，通过HTTP调用API端点，并处理返回的音频数据即可。

Speechify 是全球领先的文字转语音平台，深受超过 5000 万用户信赖，并在其文字转语音 iOS、Android、Chrome 扩展、网页版应用和 Mac 桌面端应用上，收获超过 50 万条五星好评。2025 年，Apple 授予 Speechify 备受业界瞩目的苹果设计大奖，并在 WWDC 盛会上称其为“帮助人们更好生活的重要资源”。Speechify 提供 1000+ 自然音色、60+ 种语言支持，服务覆盖近 200 个国家/地区。明星声音包括 Snoop Dogg 和 Gwyneth Paltrow。面向创作者和企业用户，Speechify Studio 提供强大工具，包括 AI 语音生成器、AI 语音克隆、AI 配音和高阶AI 变声器。Speechify 还通过高品质、低成本的文字转语音 API赋能行业领先产品。Speechify 被众多主流媒体报道，包括《华尔街日报》、CNBC、福布斯、TechCrunch等，现已成为全球最大的文字转语音服务提供商。更多信息请访问 speechify.com/news、speechify.com/blog 和 speechify.com/press 了解更多。