关于 Google Cloud 文字转语音 API 的一切

生成式 AI 和人工智能已经取得了长足的进步。文字转语音是一个相对较老的概念，已经存在了一段时间。这里有很多内容需要解读和分类，我将从各个角度进行分析。无论你是初学者还是专家，这都应该能为你带来对 Google 文字转语音 API 的全面了解。

在深入探讨任何主题之前，我们必须先建立基本规则。让我们定义一些术语并建立我们的基础，以便我们可以稳固地依靠它。

让我们在这里区分两种技术：文字转语音和 API，以及 Google Cloud 的角色。

编辑注：在寻找领先的文字转语音 API 吗？查看 Speechify 的文档齐全且易于使用的文字转语音 API。

文字转语音

我已经广泛撰写了关于这个主题的文章，你可以阅读我的什么是文字转语音博客，还可以阅读语音合成的终极指南来深入了解这个主题。这些内容更为深入，你可以暂时跳过。我将在几句话中总结它们。

文字转语音依赖于一种称为语音合成的技术，将文字转换为 AI 生成的语音。其应用场景非常丰富。从帮助有阅读障碍的人，如阅读障碍和视力不佳，到那些追求效率的人。

API

API 代表应用程序编程接口。它简单地充当两个应用程序之间的桥梁。如果你正在开发一个包含音频内容并需要文字转语音功能的应用程序，那么你需要自己构建文字转语音功能，或者你可以简单地连接到现有的文字转语音 API。

你可以专注于构建你的应用程序，并依赖第三方 API 作为桥梁，将文字转语音功能导入以合成你的文本。

Google Cloud API

这就是 Google Cloud 发挥作用的地方。Google 开发了一个强大的文字转语音 API，并以各种收费结构提供给开发者。任何希望构建需要文字转语音功能的自定义应用程序或网络应用程序的开发者都可以通过使用 Google 的 TTS 功能来弥合这一差距。是的，TTS 是文字转语音的缩写。

在 Google Cloud 控制台找到快速入门 https://cloud.google.com/。你可以找到教程，管理你的服务账户，访问 WaveNet 声音等。

Google Cloud 本身是 Google 提供的云平台，提供一系列模块化服务。你可以选择使用其中的一项、几项或所有服务。你所需要做的就是为每个 API 创建访问密钥进行身份验证——桥梁。大多数服务都是收费的，尽管可能有一个免费门槛。

Google 在 2014 年收购了 DeepMind 以获取其文字转语音技术和神经网络开发工作。因此，如果你遇到 DeepMind，现在它是 Google DeepMind，它们是一体的。

现在我们有了一个坚实的理解，让我们深入探讨 Google Cloud 文字转语音 API。

Google 文字转语音 API 功能

Google 是全球科技先锋和领导者，这一点毋庸置疑。谈到 TTS API，你可以期待找到不断发展的世界级功能。

高保真语音

Google 的文字转语音声音是业内最好的之一。它们听起来非常像人声，并具有自然的语调。TTS 处于最初阶段，能够最好地合成音频以听起来像人类在说话的人将赢得这场比赛。

多样化的声音选择

Google 声称拥有最广泛的声音选择，因此你的项目不必听起来和其他 1000 个项目一样，或者更糟糕的是，和竞争对手的应用程序一样。

创建自己的声音

这涉及到声音克隆技术。你可以通过录制你自己或其他人（经过他们的许可）来创建自定义声音。然后你可以使用这个样本作为朗读所有文本的声音。

神经网络声音

神经语音在众多语音选择中提供了最佳质量。您还可以将这些语音国际化，以扩大您的国际受众。

录音棚语音

录音棚语音是更高端的语音，听起来非常专业，仿佛是通过传统方法录制的。

语音调节

选择一个语音，然后调整速度、音调等，以便您可以自定义语音的音色。

Google 文字转语音 API 的费用是多少？

这取决于语音质量和文本长度。您希望语音听起来越自然，费用就越高。不过，这里的“昂贵”是相对的。即使是高质量的语音，费用也相对便宜。

语音类型	每月免费	超过免费使用量后
Neural2 语音	0 到 1 百万字节	每百万字节 $16
Polyglot 语音	0 到 1 百万字节	每百万字节 $16
录音棚语音	0 到 100,000 字节	每百万字节 $160
标准语音	0 到 4 百万字符	每百万字符 $4
Wavenet 语音	0 到 1 百万字符	每百万字符 $16

字符与字节的区别是什么

如您所见，定价因语音质量而异。将文本转换为语音所需的音频编码和处理在不同层级之间有所不同。对于较低层级，例如标准语音，定价较低，并按字符计算。

这意味着，如果您的项目有 4 百万字符，使用标准字符转换为语音将花费 $16。

另一方面，录音棚语音需要更高的处理能力，并按字节收费。在某些语言中，例如日语，一个字符可能由多个字节组成。

因此，为了获得最准确的定价，了解您所使用的语言以及每个字符的平均字节数是很重要的，并据此进行估算。

如何设置您的 Google Cloud Platform 文字转语音 API 项目？

创建 Google Cloud 账户或在此页面登录
创建一个新项目并为其命名
添加付款方式。您只需为使用的部分付费。
然后选择您的项目并将其与一个付款账户关联。
激活文字转语音 API。转到页面顶部的搜索产品和资源栏，输入“speech”。
从显示的结果中选择 Cloud 文字转语音 API
为您的开发环境设置身份验证。有关说明，请参阅文字转语音的身份验证设置。

您还可以在不将其链接到项目的情况下尝试文字转语音：

选择“尝试此 API”选项。
要启用项目使用文字转语音 API，请点击“启用”。

查看 Google Cloud 文档以获得更多帮助。

如何禁用文字转语音 API

要停用文字转语音 API，请转到您的 Google Cloud Platform 仪表板，并在 API 框中点击“转到 API 概览”链接。找到文字转语音 API，然后点击它，接着选择页面顶部的“禁用 API”按钮。

开始使用 Google 文字转语音 API

现在您已设置好项目，可以使用命令行开始。

gcloud init

创建本地身份验证

gcloud auth application-default login

现在您可以安装客户端库。在此示例中，我们将查看 Node.js

npm install --save @google-cloud/text-to-speech

Google Cloud 文字转语音 API 支持以下语言：

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Google Cloud API 如何运作？

一切始于一个简单的 API 调用。您将文本发送到转录调用中，然后您将收到一份语音文件。您可以在请求中提出具体要求。选择一个声音、一种语言等，然后文本转语音 API 将把音频文件返回给您。

您可以在这里学习如何安装和使用文本转语音客户端库。我们的代码示例将使用 Node.js。但您可以选择其他任何语言，从 Python 到 PHP，随您所愿。

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

就是这样。您已设置 Google Cloud 文本转语音 API 并发送了第一个请求以将文本转换为语音。您可以以多种格式获取文件；从 OGG 到 MP3。

Google 文本转语音 API 的几种使用方式

Google 文本转语音 (TTS) API 为不同行业的各种用例提供了多功能的解决方案。一些常见的用例包括：

为视障用户提供文本转语音：在应用程序中实现 TTS，将书面内容转换为口语，使数字信息对视障用户可访问。
自动电话系统：利用 TTS 为客户服务或信息热线的交互式语音响应系统创建自然的提示和响应。
媒体内容的配音：为视频、播客或其他多媒体内容生成自然的配音，以提升用户体验。
翻译内容的文本转语音：将翻译后的文本转换为口语，以促进语言学习、国际交流或多语言内容消费。
为阅读障碍用户提供阅读辅助：提供 TTS 功能，帮助有阅读障碍或阅读困难的个人消费书面内容。
应用程序中的语音导航：将 TTS 集成到导航应用程序中，以语音方式提供逐向导航或基于位置的信息。
教育内容的文本转语音：通过将教育文本内容转换为口语来增强电子学习体验，帮助理解和参与。
生产力应用的语音合成：将 TTS 集成到生产力工具中，如记笔记或任务管理应用，以实现语音反馈或信息检索。
虚拟助手的自然语音：为语音助手提供自然的 TTS，以改善用户互动并以对话方式提供信息。
听觉警报和通知：使用 TTS 提供可听的警报、通知或物联网设备的状态更新，以增强用户意识。

Google Cloud TTS API 的最佳替代方案

截至我在 2022 年 1 月的最新知识更新，有几个 Google 文本转语音 API 的替代方案。请记住，这些服务的受欢迎程度和功能可能已发生变化。以下是一些值得注意的替代方案：

Speechify 文字转语音 API：我们很高兴推出一款文字转语音 API，将 Speechify 最自然、最受欢迎的 AI 声音直接带给全球开发者。立即预定您的席位。
Amazon Polly：由亚马逊网络服务（AWS）提供，Polly 提供多种语言和声音的自然语音合成，并与其他 AWS 服务良好集成。
Microsoft Azure 语音服务：Azure 语音服务包括文字转语音功能，支持多种应用，包括语音助手、导航系统等。
IBM Watson 文字转语音：IBM Watson 提供文字转语音服务，允许开发者使用多种声音将书面文字转换为自然语音。
Nuance Communications：Nuance 提供一系列语音和语音识别解决方案，包括文字转语音，适用于医疗、汽车和客户服务等领域。
CereProc：CereProc 是一家文字转语音技术公司，提供高质量的合成语音，适用于无障碍、娱乐和通信等应用。
iSpeech：iSpeech 提供基于云的文字转语音服务，支持多种语言和声音，适用于移动应用和网站等多种应用。
ResponsiveVoice：ResponsiveVoice 是一个简单且经济实惠的文字转语音 API，支持多种语言，可用于各种基于网络的应用。
Neospeech：Neospeech 提供文字转语音解决方案，专注于自然语音，其技术用于电子学习和娱乐等应用。
ReadSpeaker：ReadSpeaker 提供在线和离线文字转语音解决方案，适用于网站、电子学习和无障碍服务等多种应用。
Acapelabox：Acapela Group 提供基于云的文字转语音 API，Acapelabox，支持多种语言和声音，适用于各行业的应用。

Google 文字转语音 API 常见问题

Google 确实有多个语音层级，几乎每个层级都有免费限制。例如，标准语音在前一百万字节内是免费的，之后每百万字节收费 16 美元。因此，是的，它可以在字符或字节有限的情况下免费使用。

只需在 https://cloud.google.com/text-to-speech/ 创建一个账户并按照步骤操作。此外，我在上面的博客中详细介绍了这个过程。

您可以通过登录您的 Google Cloud 账户并创建一个项目来获取 Google 文字转语音 API 密钥。一旦创建项目，您就可以生成 API 密钥。

Google 文字转语音 API 的网址是 https://cloud.google.com/text-to-speech/

严格来说，Google Cloud 没有免费试用期。Google Cloud 内有多个服务，每个服务都有自己的条款和免费层级。

不可以。Google Cloud 文字转语音 API 需要互联网连接。

Google Cloud 服务的身份验证，包括文字转语音 API，可以使用 API 密钥、OAuth 2.0 或服务账户。适当的身份验证方法取决于使用场景和应用类型。

我会给它打 5 星。它易于使用，搜索功能很棒且使用频率最高。定价合理，总体来说是一个很好的产品。

Google 文字转语音 API 提供了多种编程语言的客户端库，包括 Python。它还支持 RESTful API 请求，使其兼容能够进行 HTTP 请求的语言。

将 Google 文字转语音 API 集成到 Android 应用中需要使用 TextToSpeech 类并进行 API 请求。详细说明可以在 Android 开发者的官方文档中找到。

要在 JavaScript 应用中实现 Google 文字转语音 API，可以向 API 端点发出 HTTP 请求。该过程涉及构建适当的 API 请求并在 JavaScript 代码中处理响应。详情请参阅官方文档。

Speechify 是全球领先的文字转语音平台，深受超过 5000 万用户信赖，并在其文字转语音 iOS、Android、Chrome 扩展、网页版应用和 Mac 桌面端应用上，收获超过 50 万条五星好评。2025 年，Apple 授予 Speechify 备受业界瞩目的苹果设计大奖，并在 WWDC 盛会上称其为“帮助人们更好生活的重要资源”。Speechify 提供 1000+ 自然音色、60+ 种语言支持，服务覆盖近 200 个国家/地区。明星声音包括 Snoop Dogg 和 Gwyneth Paltrow。面向创作者和企业用户，Speechify Studio 提供强大工具，包括 AI 语音生成器、AI 语音克隆、AI 配音和高阶AI 变声器。Speechify 还通过高品质、低成本的文字转语音 API赋能行业领先产品。Speechify 被众多主流媒体报道，包括《华尔街日报》、CNBC、福布斯、TechCrunch等，现已成为全球最大的文字转语音服务提供商。更多信息请访问 speechify.com/news、speechify.com/blog 和 speechify.com/press 了解更多。