Social Proof

文本转语音和语音合成的历史是什么?

Speechify是全球第一的音频阅读器。让您更快地阅读书籍、文档、文章、PDF、电子邮件——任何您需要阅读的内容。

精选推荐

forbes logocbs logotime magazine logonew york times logowall street logo
用Speechify收听这篇文章!
Speechify

文本转语音和语音合成的历史是什么?揭开语音合成和文本转语音技术背后的突破性时刻和关键人物。

文本转语音(TTS)和语音合成看似是全新的技术,但实际上它们有着可以追溯到几个世纪的丰富历史。

从最早尝试使用机械装置模仿人类语音,到如今尖端的人工智能和深度学习模型,TTS的发展历程充满了趣味。

在本文中,我们将深入探讨文本转语音和语音合成的历史,并探索未来的激动人心的可能性。

文本转语音和语音合成:从早期发展到现代应用

18世纪和19世纪

文本转语音和语音合成的历史可以追溯到18世纪和19世纪。在此期间,有几次早期的语音合成尝试,全部使用机械装置。1770年代,匈牙利发明家沃尔夫冈·冯·肯佩伦开发了一种名为声学机械语音机的机械装置,旨在模拟人类声道。该模拟装置使用风箱、簧片和管道来产生元音和辅音。

在18世纪末,英国物理学家查尔斯·惠斯通发明了肯佩伦语音机的更机械化版本,他称之为“说话机”。该装置可以再现各种乐器的声音。尽管惠斯通的装置并非专为语音合成设计,但它强化了使用机械装置产生声音的理念。

在19世纪,开发了其他各种装置,包括法伯的“人工语音”机。这些装置使用机械和气动系统的组合来创造语音声音。

20世纪初和首个全电气化语音合成

在20世纪初,语音合成技术随着首个全电气化语音合成系统——由霍默·达德利发明的声码器的出现而变得更加复杂。该系统在新泽西州的贝尔实验室(Bell Labs)开发。

达德利的声码器使用一系列谐振器和滤波器来创建合成语音。专家们在1939-1940年纽约法拉盛草地的世界博览会上展示了名为Voder的声码器。他们通过键盘和脚踏板操作机器以生成语音。

20世纪50年代初至70年代末——合成器的兴起

1951年,达德利的工作启发了哈斯金斯实验室的富兰克林·S·库珀博士开发模式回放系统。该系统通过分析录制的声音,如口语单词或短语,并将其分解为其组成的声波或“光谱图模式”。这些模式随后被存储在磁带上并回放以产生原始声音的合成版本。

1976年,首个商业成功的文本转语音系统由库尔茨威尔阅读机推出。该系统使用连接合成技术,结合预录的音素和单词来产生合成语音。该设备主要设计用于帮助残疾人士,但很快作为阅读辅助工具而广受欢迎。

从1978年开始,德州仪器开始研发可用于电子游戏和其他基于计算机应用的语音合成芯片。该芯片使用连接合成技术,结合录制的语音声音或双音素,以产生类人语音输出。这项技术后来被用于DECtalk,一种为残疾人士提供高质量合成语音的文本转语音系统。

现代文本转语音系统

近年来的关键创新之一是使用神经网络生成合成语音。像谷歌和微软这样的公司开发了高质量的TTS系统,使用深度学习算法分析大量人类语音数据集,生成自然的语音输出。

作为辅助技术形式的TTS的另一个重要发展是使用单元选择和连接合成技术。这些方法通过结合小单位的预录语音,如双音素甚至整个单词,来创建新的句子,从而实现更逼真的输出。这些技术已被用于流行的TTS应用程序,如Speechify、苹果的Siri和亚马逊的Alexa,以及较早的工具如IBM ViaVoice。

语音识别技术近年来也有了显著进步,这使得TTS系统更加复杂。通过使用语音识别算法将人类语音转录为文本,TTS系统可以在合成语音中创建更自然的过渡。

近年来,我们还看到了韵律和语调的整合。这使得语音听起来更自然,具有适当的停顿、重音和语气。韵律对于像英语这样的语言尤为重要,因为重音和语调可以显著影响句子的意义。

深度学习及未来技术

TTS技术的未来充满了令人兴奋的前景。随着人工智能和深度学习的兴起,我们可以期待更加自然的语音输出,能够模仿人类语言的细微差别和语气。

这项技术在虚拟助手和聊天机器人开发中将特别有用。这些系统将变得更加对话化,用户可以以更自然的方式与它们互动。

此外,我们可以期待语音转录领域的进步,也称为文本到音素转换。随着机器在识别和解释人类语言方面的能力提高,语音转文本系统的准确性和效率将不断提升。

最后,我们可以期待文本转语音技术在日常生活中变得更加普及和集成。随着更多设备连接到物联网,我们将能够实时用语音控制它们,使我们的生活更加便捷和高效。

加入Speechify的文本转语音革命

如果您正在寻找一个强大的 文本转语音 服务,能够生成自然、高质量的旁白,那么Speechify就是您的不二之选。

凭借其先进的共振峰合成技术,Speechify创造出逼真、自然的声音,不同于过去的机器人声音。即使是曾尝试过文本转语音技术的著名作家斯蒂芬·霍金,也会对Speechify的能力印象深刻。

使用Speechify非常简单——只需访问官方 网站 或下载移动应用程序,输入您想要的文本。接下来,选择适合您需求的声音,调整速度和音调,完成!Speechify将为您创建出色且自然的旁白,适用于电子学习模块、解释视频、 播客和 演示文稿。您甚至可以创建自己的 自定义声音 用于 YouTube 和其他社交媒体渠道。

不要满足于劣质的TTS服务—— 今天就试试Speechify ,体验文本转语音技术的未来。

常见问题

谁开发了世界上第一台语音合成器?

霍默·达德利于1930年代初在纽约的贝尔实验室设计了世界上第一台语音合成器。

语音合成的目的是什么?

语音合成旨在通过语言处理和基本频率分析从文本输入生成人工语音。

TTS可以通过哪四种方式使用?

TTS可以用于无障碍访问、娱乐、语言学习和语音服务的自动化。

文本转语音有哪些优势?

文本转语音可以提高无障碍性、增强学习效果,并通过让用户以听觉方式获取书面内容来提高生产力。

文本转语音合成发展过程中最令人惊讶的时刻是什么?

文本转语音合成发展过程中最令人惊讶的时刻之一是查尔斯·惠斯通发明机械语音合成器。

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman 是一位阅读障碍倡导者,也是全球排名第一的文字转语音应用Speechify的首席执行官和创始人,该应用在App Store新闻与杂志类中排名第一,拥有超过10万个五星好评。2017年,Weitzman因其在提高学习障碍人士网络可访问性方面的贡献,被评为福布斯30位30岁以下精英之一。Cliff Weitzman曾被EdSurge、Inc.、PC Mag、Entrepreneur、Mashable等知名媒体报道。