Social Proof

什么是微软VALL-E?

Speechify是全球第一的音频阅读器。让您更快地阅读书籍、文档、文章、PDF、电子邮件——任何您需要阅读的内容。

精选推荐

forbes logocbs logotime magazine logonew york times logowall street logo
用Speechify收听这篇文章!
Speechify

微软VALL-E代表了最新的技术进步,可以实现完全自然的语音合成。以下是对这项技术的详细解析。

语音合成技术近年来取得了巨大进展,尤其是在过去几年中。受人工智能改进的推动,如今的TTS可以提供高质量的朗读,模仿人类的语音。

微软的VALL-E是最新的技术解决方案,可能使语音合成听起来非常逼真。它是基于零样本机器学习的神经编解码语言模型。

如果上句听起来像科幻术语,不用担心。我们将在下文中详细解析VALL-E背后的复杂概念。

微软VALL-E解析

人工智能模型正在快速增强。如今,大家都知道OpenAI的ChatGPT,它可能是我们最接近让AI看起来像真人的技术。你可能也见过由DALL-E引擎生成的AI艺术作品。

除了像OpenAI这样的初创公司,微软等全球公司也是AI领域的重要参与者。

微软的研究人员最近一直在研究语音合成的进步。VALL-E正是这种进步的体现。

这项新AI可能会在TTS领域带来革命性变化,因为它可以基于一个小的音频样本生成听起来像人类的语音。一个三秒钟的声学提示就足够让VALL-E捕捉到特定说话者的模式。

在接收到说话者提示后,AI可以模仿人类的声音,甚至模拟他们的情感语调。同样令人印象深刻的是,VALL-E能够保留未见过的说话者的声学环境。

简单来说,VALL-E模型在说话者相似性方面表现出色。你可以在GitHub上听到它的实际效果,微软在那里分享了音频示例以及对AI的详细解释。

当然,这种技术有很多潜在用途,比如制作播客和有声书。随着VALL-E与生成模型如GPT-3的结合,潜力可能会进一步增长。

但像VALL-E这样的技术也可能被用于更为恶意的目的。

由于VALL-E可以听起来非常像真人,很容易看到恶意行为者如何利用这项技术进行非自愿的、有害的深度伪造等骗局。这种可能性促使微软发布了一份伦理声明。

在声明中,公司倡导特定的语音编辑模型,以确保获得原始说话者的同意。

但围绕VALL-E潜在用途的争议是未来需要考虑的问题。目前,有一个更令人兴奋的问题摆在桌面上:

AI如何仅凭三秒钟的音频样本复制复杂的模式?

不出所料,答案相当复杂。

VALL-E接受了大量的训练数据,包括数千小时的英语语音。这为AI的无缝英语语言语音模拟做好了准备。然而,VALL-E并不是普通的TTS系统——它由尖端的机器学习技术驱动。

我们已经提到过这项技术的名称:零样本神经编解码语言模型。让我们看看这些术语在实践中意味着什么。

理解零样本神经编解码语言模型

从较简单的术语开始,“零样本”指的是一种特定的语音合成引擎技术。它允许基于先前未知的数据生成AI语音。换句话说,计算机可以朗读它从未“见过”的文本。

更令人印象深刻的是,零样本技术允许机器在没有额外训练的情况下生成朗读。基本上,这类似于人类可以用他们已经知道的语言阅读不熟悉的文本。

接下来是复杂的部分,“神经编解码语言模型”需要进一步解析。

语音合成引擎依赖音频编解码器来根据书面文本创建波形。编解码器帮助AI将书写的字母、单词和句子翻译成相应的声音。神经编解码器也有同样的作用,但它基于一个强大的神经网络。

当然,这引出了一个额外的问题:什么是神经网络?

我们将在这里以更广泛的方式解释,而不深入探讨。神经网络试图模仿人类大脑的功能。网络由称为节点的人工神经元组成,这些节点相互连接并组织成层。

这种复杂的结构使所谓的深度学习成为可能,使机器更能开发和适应不熟悉的模式。

神经编码器驱动语言模型,这是 文字转语音 方程的另一部分。

语言模型依靠数据集来理解任何文本输入在实际语言中的上下文。换句话说,这就是机器如何“理解”文本的方式。

在VALL-E的案例中,LibriLight是由Facebook的Meta编制的音频库,作为AI的语言模型基础。

通过Speechify体验尖端的TTS技术

虽然VALL-E尚未向公众开放,但您可以通过Speechify听到先进的 文字转语音 引擎的声音。Speechify是一项TTS服务,可以从几乎任何来源朗读文本。

无论是书面文本、网页内容还是扫描页面,Speechify都能立即朗读。更好的是,该引擎提供的旁白声音听起来很自然。与典型的机器人TTS引擎不同,Speechify听起来更像人声而非机器声。

此外,您可以调整Speechify的朗读方式。选择您喜欢的语言、旁白和阅读速度,按您想要的方式听取任何文本。

如果这一切听起来很令人兴奋,您可以 免费试用Speechify 今天就开始。

常见问题

人们可以使用Vall-E吗?

关于VALL-E可能被滥用的担忧很多。身份盗窃是一个特别令人担忧的可能性。出于这个原因,微软选择不公开VALL-E。

什么是微软AI?

微软AI不是一个特定的产品。相反,该公司的计划是一个AI开发框架。微软AI包括数据科学解决方案、对话AI、机器人技术、机器学习和行业中的其他进步。

什么是语音驱动界面?

语音驱动界面就是通过语音命令进行交互的用户界面。这项技术在智能设备中已经很常见——比如亚马逊的Alexa、苹果的Siri、微软的Cortana或谷歌的Assistant。

什么是机器人?

“机器人”一词指的是任何自动操作的机器。这类机器被设计为人类劳动的替代品。尽管在流行媒体中通常被描绘为类人形,但大多数机器人并不是人形的。事实上,它们甚至可能没有实体形式。例如,如今流行的虚拟助手也算作机器人。

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman 是一位阅读障碍倡导者,也是全球排名第一的文字转语音应用Speechify的首席执行官和创始人,该应用在App Store新闻与杂志类中排名第一,拥有超过10万个五星好评。2017年,Weitzman因其在提高学习障碍人士网络可访问性方面的贡献,被评为福布斯30位30岁以下精英之一。Cliff Weitzman曾被EdSurge、Inc.、PC Mag、Entrepreneur、Mashable等知名媒体报道。