文字转语音的简史

语音合成，即人类声音的人工生成，在过去的70年中取得了长足的进步。无论您目前是否使用文字转语音服务来听书、学习或校对自己的书面作品，毫无疑问，文字转语音服务让各行各业的人们的生活变得更加轻松。

在这里，我们将看看文字转语音处理的工作原理，以及这种辅助技术如何随着时间的推移而改变。

介绍

在18世纪，俄罗斯教授克里斯蒂安·克拉岑斯坦创造了模仿人类声音的声学共振器。二十年后，VODER（语音操作演示器）在纽约世界博览会上大放异彩，创作者霍默·达德利向观众展示了如何通过人工手段创造人类语音。该设备操作困难——达德利需要用脚踏板控制基本频率。

在19世纪初，查尔斯·惠斯通开发了第一个机械语音合成器。这开启了发音合成工具和技术的快速演变。

很难确切地说出什么造就了一个好的文字转语音程序，但就像生活中的许多事情一样，当你听到它时，你就知道了。高质量的文字转语音程序提供自然的声音，具有真实的语调和音色。

文字转语音技术可以帮助视力受损和其他残疾人士获取他们在工作中茁壮成长和与他人交流所需的信息。该软件还允许学生和其他需要大量阅读的人在旅途中通过人类语音来听取信息。合成语音让人们在更短的时间内完成更多工作，并且在各种场合中都很有用，从电子游戏创作到帮助有语言处理差异的人。

1950年代和60年代

在1950年代后期，首批语音合成系统被创建。这些系统是基于计算机的。1961年，贝尔实验室的物理学家约翰·拉里·凯利使用IBM计算机合成语音。他的声码器（语音记录合成器）重现了歌曲《雏菊贝尔》。

在凯利完善他的声码器时，《2001太空漫游》的作者阿瑟·克拉克在他的电影剧本中使用了凯利的演示。在场景中，HAL 9000计算机唱起了《雏菊贝尔》。

1966年，线性预测编码问世。这种语音编码形式开始由板田文忠和斋藤修三开发。Bishnu S. Atal和Manfred R. Schroeder也为线性预测编码的发展做出了贡献。

1970年代

1975年，板田开发了线谱对方法。这种高压缩语音编码方法帮助板田更好地了解语音分析和合成，找出薄弱环节并改进它们。

在这一年，MUSA也发布了。这种独立的语音合成系统使用算法来朗读意大利语。三年后发布的版本能够用意大利语唱歌。

在70年代，第一个基于人类声道的发音合成器被开发出来。已知的第一个合成器由汤姆·贝尔、保罗·默梅尔斯坦和菲利普·鲁宾在哈斯金斯实验室开发。三人使用了贝尔实验室在60年代和70年代创建的声道模型的信息。

1976年，库尔茨维尔盲人阅读机问世。虽然这些设备对普通大众来说过于昂贵，但图书馆通常为视力受损的人提供它们来听书。

线性预测编码成为合成器芯片的起点。德州仪器的LPC语音芯片和70年代末的Speak & Spell玩具都使用了合成器芯片技术。这些玩具是具有准确语调的人类语音合成的例子，与当时常见的机器人般的合成声音不同。许多具有语音合成功能的手持电子产品在这一年代变得流行，包括为盲人设计的Telesensory Systems Speech+计算器。Fidelity Voice Chess Challenger，一款能够合成语音的国际象棋计算机，于1979年发布。

1980年代

在20世纪80年代，语音合成开始在电子游戏界掀起波澜。1980年，Sun Electronics发布了射击风格的街机游戏《Stratovox》。而《万引少女》（英文翻译为Shoplifting Girl）是首款具备语音合成功能的个人电脑游戏。电子游戏Milton也在1980年发布，这是Milton Bradley公司首款具备合成真人语音功能的电子游戏。

1983年，独立的声学机械语音机DECtalk问世。DECtalk能够理解单词的音标拼写，从而定制不常见单词的发音。这些音标拼写还可以包含音调指示器，DECtalk在发音时会使用这些指示器。这使得DECtalk能够演唱。

在80年代末，史蒂夫·乔布斯创建了NeXT，这是由Trillium Sound Research开发的系统。虽然NeXT并未成功，但乔布斯最终在90年代将该程序与苹果公司合并。

1990年代

早期的文本到语音合成系统听起来非常机械化，但这种情况在80年代末和90年代初开始改变。较柔和的辅音使得语音机器失去了电子感，听起来更像人声。1990年，AT&T贝尔实验室的Ann Syrdal开发了女性语音合成器。工程师们在90年代努力使语音听起来更自然。

1999年，微软发布了Narrator，这是一种屏幕阅读器解决方案，现在包含在每个微软Windows版本中。

2000年代

在2000年代，语音合成遇到了一些困难，因为开发者在创建合成语音的标准上难以达成一致。由于语音具有高度个性化的特征，全球各地的人们很难就音素、双音素、语调、音调、模式播放和语调的正确发音达成共识。

在90年代，形式合成语音音频的质量也成为一个更大的关注点，因为工程师和研究人员注意到实验室中用于播放合成语音的系统质量通常远远超过用户的设备。提到语音合成，许多人会想到斯蒂芬·霍金的语音合成器，它提供了一个带有少量人声色彩的机械化声音。

2005年，研究人员终于达成了一些共识，开始使用一个通用的语音数据集，使他们在创建高级语音合成系统时能够从相同的基本理念出发。

2007年，一项研究表明，听众可以判断说话者是否在微笑。研究人员正在继续努力，试图利用这些信息来创建更自然的语音识别和语音合成软件。

2010年代

如今，使用语音信号的语音合成产品无处不在，从Siri到Alexa。电子语音合成器不仅让生活更轻松，还让生活更有趣。无论是使用TTS系统在旅途中听小说，还是使用应用程序更轻松地学习外语，您很可能每天都在使用文本到语音技术来激活您的神经网络。

未来

在未来几年，语音合成技术可能会专注于创建大脑模型，以更好地理解我们如何在大脑中记录语音数据。语音技术还将努力更好地理解情感在语音中的作用，并利用这些信息创建AI语音，使其与真人无异。

语音合成技术的最新进展：Speechify

了解早期语音合成技术的转变时，想象科学的进步是令人惊叹的。如今，像Speechify这样的应用程序可以轻松地将任何文本转换为音频文件。只需按下一个按钮（或在应用程序上轻点），Speechify就能将网站、文档和文本图像转换为自然的语音。Speechify的库在所有设备上同步，使您可以轻松地在旅途中继续学习和工作。在苹果的App Store和安卓的Google Play中查看Speechify应用程序。

常见问题

谁发明了文本到语音技术？

英语的文本到语音技术是由Noriko Umeda发明的。该系统于1968年在日本的电气技术实验室开发。

文本到语音技术的目的是什么？

许多人使用文本转语音技术。对于那些喜欢以音频格式获取信息的人来说，TTS技术可以轻松获取工作或学习所需的信息，而无需花费数小时在书本前。忙碌的专业人士也使用TTS技术在无法坐在电脑屏幕前时保持工作进度。许多类型的TTS技术最初是为视力障碍者开发的，而TTS仍然是视力困难者获取所需信息的绝佳方式。

如何合成语音？

录制的语音片段以各种单元存储在数据库中。软件通过单元选择准备音频文件。由此创建出一个声音。通常，程序的输出范围越大，越难为用户提供清晰的语音。

Speechify 是全球领先的文字转语音平台，拥有超过 5000 万用户，并在其 iOS、Android、Chrome 扩展、网页版应用和 Mac 桌面应用上获得了超过 50 万条五星好评。2025 年，Apple 授予 Speechify 备受瞩目的 Apple 设计奖，并在 WWDC 上称其为“帮助人们更好生活的重要资源”。Speechify 提供 1000 多种自然语音，支持 60 多种语言，用户遍布近 200 个国家。名人语音包括 Snoop Dogg、Mr. Beast 和 Gwyneth Paltrow。对于创作者和企业，Speechify Studio 提供了包括 AI 语音生成器、AI 语音克隆、AI 配音和 AI 语音变声器在内的高级工具。Speechify 还通过其高质量且经济高效的文字转语音 API 为领先产品提供支持。Speechify 曾被 《华尔街日报》、CNBC、《福布斯》、TechCrunch 等主流媒体报道，是全球最大的文字转语音服务提供商。访问 speechify.com/news、speechify.com/blog 和 speechify.com/press 了解更多信息。