Social Proof

文本转语音技术如何运作?

Speechify是全球第一的音频阅读器。让您更快地阅读书籍、文档、文章、PDF、电子邮件——任何您需要阅读的内容。

精选推荐

forbes logocbs logotime magazine logonew york times logowall street logo
用Speechify收听这篇文章!
Speechify

文本转语音技术究竟是如何运作的?我们将探讨一些将文字即时转换为自然语音的人工智能技术。

虽然文本转语音的概念——即计算机软件可以将屏幕上的文字朗读给用户——并不新鲜,但在过去几年中,这项技术似乎经历了一场革命。

根据最近的一项研究,文本转语音市场在2020年的估值高达20亿美元,这部分归因于仍在持续的COVID-19疫情的影响。不仅如此,预计到2026年,其市场价值将增长至50亿美元,年复合增长率达到14.6%。

这很大程度上归功于文本转语音解决方案帮助了许多视力受损的人群。根据疾病控制与预防中心的数据,美国40岁以上的人群中约有1200万人在处理视觉信息时存在某种问题。其中有100万人完全失明,800万人因某种未矫正的屈光不正而存在视力相关问题。这个数字从2012年的420万人增加了。

所有这些都表明,文本转语音技术多年来已经证明了其价值。许多解决方案如Speechify甚至提供多种高质量的语音供用户根据需要选择。但这些解决方案是如何运作的,为什么有这么多语音选项可供选择?要回答这些问题,你需要记住一些重要的事情。

文本转语音的内部运作

在了解文本转语音背后的实际语音之前,首先需要更好地理解这些解决方案是如何运作的。

文本转语音使用人工智能、机器学习和类似的技术子集,将页面或屏幕上的书面文字转换为可以朗读的音频内容。这不仅包括网站内容或类似文章的内容,还包括在Microsoft Word等应用程序中编写的文本。

音频内容完全由所使用的设备生成。除了在台式机和笔记本电脑上工作,文本转语音几乎在今天市场上所有的智能手机、平板电脑或其他移动设备上都可用。

在绝大多数解决方案中,文本转语音处理是在设备本地进行的。这使得即使没有互联网连接,文本转语音也很有价值。

除了让有视觉问题的人能够访问和理解书面内容,文本转语音还很有帮助,因为语音的音调甚至语速都可以控制。如果你想放慢速度以便更好地理解,你可以这样做。同样,如果你想加快语速以更快地浏览内容,你也可以这样做。

文本转语音语音:深入解析

当涉及到这些文本转语音解决方案使用的实际语音时,最终都归结于一个称为语音合成器的概念。

什么是语音合成器?

语音合成是一种输出形式,它让你的计算机(或其他设备)用预先选择的语音朗读文字。从概念上讲,这与自己阅读页面上的文字或打印出来并没有太大区别——你仍然在讨论计算机如何输出请求的信息。只不过它不是通过文字,而是通过你可以通过扬声器或耳机听到的语音来实现。

一般来说,语音合成通过你使用的解决方案遵循一些基本但重要的步骤来实现。第一个步骤涉及将页面上的文字转换为单词。

步骤1:预处理

在这个过程中,文本转语音解决方案会分析你想要阅读的内容中的文字,并将字母——本质上只是符号——转换为单词。这个过程很重要,因为书面文字有时比人们意识到的更具歧义。某些单词甚至短语可能有多种含义。同样,计算机需要能够“理解”像“their”、“there”和“they're”这样的单词之间的区别——这三个单词发音相同,但可以显著改变句子的上下文。

这就是人工智能和机器学习发挥作用的地方。通过AI,文本转语音解决方案可以尽可能地消除这种歧义。文本转语音语音过程的这个阶段称为“预处理”,因为它是在应用程序实际朗读任何内容之前“幕后”进行的。

这也是文本转语音解决方案区分同形异音词的阶段。"Read"就是一个完美的例子,因为你可能今晚想读一本书来放松,尽管你过去已经读过无数次。人类可以根据上下文轻松区分这两种意思——计算机端使用人工智能来实现类似的结果。

同样困难的还有数字、缩写、首字母缩略词等。像美元符号这样的特殊字符也比单纯的文字更难“翻译”。这就是为什么预处理阶段如此重要——它有助于确保最终被朗读的内容在其预期的上下文中是有意义的。

步骤 2:理解发音

一旦文本被分析并且文本转语音解决方案“理解”了哪些词需要被朗读,接下来的过程就开始了。这时,这些词会被转换成音素——本质上是学习如何正确发音文本中的词。

这个过程在多年来发生了显著的变化。如果你曾有机会使用过1990年代的文本转语音解决方案(或者看过1970年代或80年代的老电影中有文本转语音场景),你可能会遇到一个听起来不自然的电脑声音。它很容易被识别为计算机生成的声音,尽管你可以理解它在说什么,但大多数词可能发音不正确。

步骤 3:开始转换为语音

一旦这些音素被识别,文本转语音解决方案就进入了过程的最后部分:将这些信息转换为可以通过设备的扬声器或耳机播放的声音。

这可以通过几种不同的方式实现,具体取决于你使用的解决方案。其中一种方式是让人类演员或女演员大声朗读一系列音素,然后将这些信息反馈到计算机和解决方案中。然后,一旦应用程序扫描了特定的文本块,它可以将页面上找到的音素与之前录制的音素匹配。然后将这两者结合起来,以比以往更自然的方式播放文本的音频版本。

有些解决方案仍然允许计算机自行生成声音。它的操作方式基本相同,只是“声音”不是基于先前录制的音频,而是通过生成特定的声音频率以适当的顺序创建的。

从这个角度来看,它与音乐合成器允许音乐家使用标准键盘连接到计算机来模仿乐器的声音并不完全不同。他们可以像弹钢琴一样弹奏键盘,尽管每个键可能模仿吉他上的不同和弦或鼓的声音。这仍然是计算机“理解”每个按键的意图并将其与适当的声音配对,尽管是在不同的上下文中。

语音选项及其未来

这些文本转语音解决方案中有如此多不同语音选项的部分原因是,它们实际上并不像很多人想象的那样难以创建。AI语音生成器所需的音素类型在语言中实际上相当常见。因此,只需让一位演员或女演员坐在麦克风前,朗读一段包含所有必要音素的短剧本,然后将这些信息反馈到解决方案中即可。

AI语音技术将单独识别每个音素,基本上将录音“分解”为其组成部分,并使用其中任何必要的部分来准确生成用户在阅读网站或其他内容时所需的文本转语音声音。

当然,这种自然语音生成器的潜在用途远不止于帮助视力障碍者。近年来,由于社交媒体网络如TikTok的兴起,公众对AI语音和语音生成产生了浓厚的兴趣。

TikTok实际上是拥抱AI语音生成的较大品牌之一,允许用户录制视频,在这些视频上添加文本,然后通过语音合成朗读这些内容。这是一种为TikTok上发布的内容增加额外沉浸感的有趣方式,随着时间的推移,这种方式只会越来越受欢迎。

文本转语音的未来已到来

最终,语音文本转语音是一种无价的工具,因为它使我们能够做到很多事情。它让有视觉问题的人能够在自己的条件下享受和理解与其他人相同的内容。它可以将任何博客文章、文章、文档、白皮书或其他印刷内容转化为易于消费的音频体验,让你不仅可以在家中享受,还可以在通勤时、健身时等享受。

它不仅让我们的生活更高效,还帮助解决了许多重要问题,如上所述。基于这些原因,不难理解为什么语音合成和AI语音在过去几年中变得如此受欢迎。

如果您想了解更多关于文字转语音的声音,或者想知道这种解决方案如何能改善您的生活,请不要犹豫 - 立即免费试用Speechify

Speechify是 应用商店中排名第一的应用,拥有最自然的语音和用户体验,并提供多种自定义声音。

Speechify 提供多种版本:适用于 个人用户团体,或 适用于各类企业的API

Tyler Weitzman

泰勒·韦茨曼

泰勒·韦茨曼是Speechify的联合创始人、人工智能负责人兼总裁,Speechify是全球排名第一的文字转语音应用,拥有超过10万个五星好评。韦茨曼毕业于斯坦福大学,获得数学学士学位和人工智能方向的计算机科学硕士学位。他被《Inc.》杂志评选为50大企业家之一,并曾被《商业内幕》、《TechCrunch》、《LifeHacker》、《CBS》等媒体报道。韦茨曼的硕士研究专注于人工智能和文字转语音,他的最终论文题为:“CloneBot: 个性化对话响应预测。”