1. 首页
  2. API
  3. Google Cloud文本转语音API全解析
Updated on API

Google Cloud文本转语音API全解析

Cliff Weitzman

Cliff Weitzman

Speechify 首席执行官兼创始人

Speechify API 实现 300ms 级延迟、人声级音质及 50+ 种语言支持

apple logo2025 年苹果设计大奖
5000 万+ 用户

生成式AI和人工智能发展迅猛。 文本转语音并不新鲜,早已广泛应用。这里信息量很大、分类清晰,我会带你逐步拆解、全面解析。不论你是新手还是老鸟,本指南都能帮你吃透Google 文本转语音API。

在深入展开之前,先把基本规则说清楚。我们先定义几个核心术语,为后续内容打好基础。

我们将两项技术拆开讲:文本转语音、本身的API机制,以及Google Cloud在其中扮演的角色。

编辑注:想用行业领先的文本转语音API?不妨试试Speechify文档完善、上手轻松的文本转语音API

文本转语音

我在这个话题上写过不少深度文章,你可以先看我的 什么是文本转语音 博文,也可以继续深入了解 语音合成 获取更多背景。也可以直接略过,我这里会先把关键概念讲清楚。

文本转语音基于“语音合成”技术,将文字转成AI生成的语音。它的应用场景非常广:既能帮助阅读有障碍的人群(如阅读障碍、视力受限),也能大幅提升效率,实用场景数不胜数。

API

API即应用程序编程接口,相当于两个应用之间的“桥梁”。如果你在开发需要语音输出的应用,可以自己做一套文本转语音,也可以直接接入成熟的文本转语音API

这样你只需专注业务开发,把文本转语音这类能力交给第三方API来完成,就能无缝集成到你的产品里。

Google Cloud API

这正是Google Cloud大显身手的地方。Google推出了功能强大的文本转语音API,并按不同付费档位向开发者开放。需要集成文本转语音的开发者,可以直接调用Google的TTS服务。TTS是Text To Speech(文本转语音)的缩写。

你可以在Google Cloud Console找到快速入口 https://cloud.google.com/,查看教程、管理服务帐号,并体验Wavenet语音等功能。

Google Cloud是Google提供的云平台,包含多种可选的模块化服务。你可以按需启用一种、几种或全部服务。只需创建API访问密钥用于身份验证,大多数服务按量计费,也提供一定的免费额度。

2014年,Google收购DeepMind,用于文本转语音技术与神经网络研发。如今看到DeepMind基本都统一称为Google DeepMind,可视作同一体系。

有了以上铺垫,我们就可以正式进入Google Cloud文本转语音API的深度解析。

Google文本转语音API特性

Google无疑是全球技术领跑者之一。在TTS API方面,你可以用上始终在迭代升级的顶级功能。

高保真语音

Google的文本转语音语音质量位居行业前列,听感自然、语调贴近真人。TTS还处在快速发展期,谁能做出越自然的合成语音,谁就越占优势。

多样语音选择

Google提供极为丰富的语音库,你的项目不必担心千篇一律,也能尽量避免与竞品“撞声”。

自定义个性语音

这个功能和声音克隆非常接近。通过录制你的声音或已获授权的声音,便能定制专属音色来播报文本。

神经网络语音

神经网络语音拥有最佳音质,并支持多语种多口音,方便你触达全球听众。

Studio专业语音

Studio语音属于高端专业线路,听上去更像传统录音棚成品,整体质感非常专业。

语音调优

选好基础语音后,你还可以通过调节语速、音调等参数,进一步微调出理想的音色风格。

Google文本转语音API费用如何?

最终花费取决于语音档次和文本长度。语音越自然,单价通常越高。但整体来看定价相对友好,高质量语音的成本也不算离谱。

语音类型每月免费额度超出免费后收费
Neural2语音0-100万字节$16/百万字节
Polyglot语音0-100万字节$16/百万字节
Studio语音0-10万字节$160/百万字节
标准语音0-400万字符$4/百万字符
Wavenet语音0-100万字符$16/百万字符

字符和字节有何区别

从上表可以看出,价格会因语音质量有明显差异。在文本转语音的流程里,编码和处理的粒度也不同。比如标准语音价格较低,按字符计费。

比如,你的项目文本有400万字符,用标准语音转换成音频,大约需要支付$16。

Studio语音需要更高算力,因此按字节计费。像日语这样的语言,一个字符可能由多个字节组成。

所以要精准预估费用,就需要先弄清楚你的目标语言中,每个字符平均占多少字节,再据此估算。

如何设置Google Cloud平台文本转语音API新项目?

  1. 创建Google Cloud账号,或在此登录
  2. 新建项目,并为其起个清晰易懂的名字
  3. 添加付费方式。采用按量计费。
  4. 选中对应项目,并关联到付费账号。
  5. 启用文本转语音API。在顶部搜索栏输入“speech”即可找到。
  6. 在搜索结果中选择Cloud Text-to-Speech API
  7. 为开发环境配置身份认证。详细步骤见官方Text-to-Speech认证文档。

你也可以先不绑定项目,直接在线试用Text-to-Speech:

  1. 点击“TRY THIS API”按钮
  2. 如果要和项目一起用,再点击“ENABLE”启用Text-to-Speech API

可参考Google Cloud文档获取更详细的指引。

如何停用文本转语音API

如需停用Text-to-Speech API,请打开Google Cloud控制台主页,在API模块中点击“API概览”,找到Text-to-Speech API,进入后点击页面上方的“DISABLE API”按钮即可。

开始使用Google文本转语音API

项目创建和配置完成后,就可以通过命令行开启你的新体验。

gcloud init

在本地完成身份认证

gcloud auth application-default login

接下来安装客户端库。下面以Node.js为例:

npm install --save @google-cloud/text-to-speech

Google Cloud文本转语音API支持以下语言:

  1. Go
  2. Java
  3. Node.js
  4. C++
  5. C#
  6. PHP
  7. Python
  8. Ruby
  9. TypeScript
  10. Terraform
  11. YAML

Google Cloud API如何工作?

整体流程非常简单:发起一次API调用,传入文本,就能拿到语音文件。你可以在请求中指定语音类型、语言等参数,API会自动生成并返回对应的音频。

你可以按此处的官方说明安装并使用文本转语音客户端库。本文示例用的是Node.js,其它如Python、PHP等语言也都完全支持。

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

到这里,你已经完成Google Cloud文本转语音API的配置,并成功发起了第一次请求。生成的音频支持多种格式,如OGG、MP3等。

Google文本转语音API常见应用场景

Google Text-to-Speech (TTS) API适用于各行各业、各种场景。典型用例包括:

  1. 为视障用户提供文本转语音: 在应用中将文字转换为语音,提升数字内容可访问性,方便视障人士获取信息。
  2. 自动语音电话系统: 借助TTS生成自然的语音提示和应答,用于客户服务热线等语音交互系统。
  3. 多媒体内容配音: 为视频、播客等内容自动生成拟真语音,显著提升用户体验。
  4. 翻译内容语音播报: 将翻译后的文字转成语音,方便语言学习、跨境沟通或多语内容消费。
  5. 为阅读障碍人群助读: 为阅读障碍或识字困难人士提供朗读辅助。
  6. 应用内语音导航: 在地图等导航App中集成TTS,提供语音引导和位置播报。
  7. 教育内容语音输出: 在教育App中把教学文本转成语音,帮助理解并提升参与度。
  8. 效率工具语音助理: 在笔记、任务等效率应用中集成TTS,支持听写或语音播报信息。
  9. 虚拟助手自然发声: 让语音助手听起来更像真人,优化对话体验。
  10. 声音提醒与推送: 让物联网设备通过TTS发出实时语音通知和状态提醒。

Google Cloud TTS API最佳替代方案

截至2022年1月,Google文本转语音API已经有不少同类替代品,且功能表现可能持续更新。下面是几款主流选择:

  1. Speechify Text to Speech API: Speechify Text to Speech API拥有1000+真实感、情感丰富 AI语音,覆盖60+语言及方言。立即抢先体验
  2. Amazon Polly: 由Amazon Web Services (AWS)提供,支持多语言多音色,并可与其它AWS服务无缝衔接。
  3. Microsoft Azure Speech Service: 集成语音识别和朗读等能力,适用于语音助手、导航等众多场景。
  4. IBM Watson Text to Speech: 可将书面文字转换成自然语音,并提供多种发音选项。
  5. Nuance Communications: Nuance同时提供语音识别和文本转语音能力,广泛应用于医疗、车载、客服等领域。
  6. CereProc: CereProc是一家专注文本转语音的公司,合成语音表现出色,常用于无障碍、娱乐、通信等应用。
  7. iSpeech: iSpeech提供云端TTS服务,支持多语言多音色,兼容移动端和Web端。
  8. ResponsiveVoice: ResponsiveVoice是一款简单易用的TTS API,支持多语种,适合各种Web应用集成。
  9. Neospeech: Neospeech主打自然语音,在在线教育、娱乐等场景中应用广泛。
  10. ReadSpeaker: ReadSpeaker支持在线和离线TTS,适用于网站、在线学习和无障碍场景。
  11. Acapelabox: Acapela Group推出的Acapelabox是一款云端TTS API,支持多语言和多种音色,覆盖各类行业应用。

常见问题

Google针对不同语音档位通常提供一定免费额度。标准语音前100万字节免费,之后按$16/百万字节计费。所以在免费范围内(按字节或字符)使用是免费的。

先注册账号:https://cloud.google.com/text-to-speech/,然后按页面指引一步步操作。具体流程本文前文已有详细说明。

登录你的Google Cloud账号,新建项目后即可生成API密钥,用于调用文本转语音等服务。

Google文本转语音API的官网地址为https://cloud.google.com/text-to-speech/

严格来说没有统一的“通用试用期”。Google Cloud由多项服务组成,各自有不同的免费层和使用条款。

不能。Google Cloud文本转语音API是云端服务,必须联网才能使用。

Google Cloud服务(包括文本转语音API)支持API密钥、OAuth 2.0和服务帐号等多种验证方式。具体用哪种,取决于你的使用场景和应用类型。

我会打5星。平台易用、搜索体验好、覆盖面广,价格也算合理,整体产品体验相当不错。

Google文本转语音API为多种编程语言提供客户端库(如Python),同时也支持RESTful API调用,任何能发起HTTP请求的语言都可以对接。

在Android中集成文本转语音功能,一般通过TextToSpeech类配合API请求实现。具体实现步骤可参考Android官方文档。

在JavaScript应用中使用Google文本转语音API,可以按照官方文档说明构造请求,通过HTTP调用API端点,并处理返回的音频数据即可。

通过 API 快速接入 Speechify 的高级语音服务,弹性扩展,开发者友好

获取 API 访问权限
api access banner

分享此文

Cliff Weitzman

Cliff Weitzman

Speechify 首席执行官兼创始人

Cliff Weitzman 是一位阅读障碍倡导者,也是 Speechify 首席执行官兼创始人。Speechify 是全球排名第一的文字转语音应用,累计收获逾 100,000 条五星好评,并在 App Store 的“新闻与杂志”分类中位居第一。2017 年,因致力于提升互联网对学习障碍人群的可及性,Weitzman 入选福布斯“30 位 30 岁以下精英”(Forbes 30 Under 30)榜单。其事迹曾被 EdSurge、Inc.、PC Mag、Entrepreneur、Mashable 等主流媒体报道。

speechify logo

关于 Speechify

No.1 文字转语音阅读器

Speechify 是全球领先的文字转语音平台,深受超过 5000 万用户信赖,并在其文字转语音 iOSAndroidChrome 扩展网页版应用Mac 桌面端应用上,收获超过 50 万条五星好评。2025 年,Apple 授予 Speechify 备受业界瞩目的 苹果设计大奖,并在 WWDC 盛会上称其为“帮助人们更好生活的重要资源”。Speechify 提供 1000+ 自然音色、60+ 种语言支持,服务覆盖近 200 个国家/地区。明星声音包括 Snoop DoggGwyneth Paltrow。面向创作者和企业用户,Speechify Studio 提供强大工具,包括 AI 语音生成器AI 语音克隆AI 配音和高阶AI 变声器。Speechify 还通过高品质、低成本的文字转语音 API赋能行业领先产品。Speechify 被众多主流媒体报道,包括《华尔街日报》CNBC福布斯TechCrunch等,现已成为全球最大的文字转语音服务提供商。更多信息请访问 speechify.com/newsspeechify.com/blogspeechify.com/press 了解更多。