首页
文本转语音
什么是微软VALL-E？

2022年9月27日•文本转语音

什么是微软VALL-E？

Cliff Weitzman

Cliff Weitzman

Speechify 的首席执行官/创始人

#1 文字转语音阅读器。
让Speechify为您朗读。

2025年苹果设计奖

超过5000万用户

用Speechify收听这篇文章！

语音合成技术近年来取得了巨大进展，尤其是在过去几年中。受人工智能改进的推动，如今的TTS可以提供高质量的朗读，模仿人类的语音。

微软的VALL-E是最新的技术解决方案，可能使语音合成听起来非常逼真。它是基于零样本机器学习的神经编解码语言模型。

如果上句听起来像科幻术语，不用担心。我们将在下文中详细解析VALL-E背后的复杂概念。

微软VALL-E解析

人工智能模型正在快速增强。如今，大家都知道OpenAI的ChatGPT，它可能是我们最接近让AI看起来像真人的技术。你可能也见过由DALL-E引擎生成的AI艺术作品。

除了像OpenAI这样的初创公司，微软等全球公司也是AI领域的重要参与者。

微软的研究人员最近一直在研究语音合成的进步。VALL-E正是这种进步的体现。

这项新AI可能会在TTS领域带来革命性变化，因为它可以基于一个小的音频样本生成听起来像人类的语音。一个三秒钟的声学提示就足够让VALL-E捕捉到特定说话者的模式。

在接收到说话者提示后，AI可以模仿人类的声音，甚至模拟他们的情感语调。同样令人印象深刻的是，VALL-E能够保留未见过的说话者的声学环境。

简单来说，VALL-E模型在说话者相似性方面表现出色。你可以在GitHub上听到它的实际效果，微软在那里分享了音频示例以及对AI的详细解释。

当然，这种技术有很多潜在用途，比如制作播客和有声书。随着VALL-E与生成模型如GPT-3的结合，潜力可能会进一步增长。

但像VALL-E这样的技术也可能被用于更为恶意的目的。

由于VALL-E可以听起来非常像真人，很容易看到恶意行为者如何利用这项技术进行非自愿的、有害的深度伪造等骗局。这种可能性促使微软发布了一份伦理声明。

在声明中，公司倡导特定的语音编辑模型，以确保获得原始说话者的同意。

但围绕VALL-E潜在用途的争议是未来需要考虑的问题。目前，有一个更令人兴奋的问题摆在桌面上：

AI如何仅凭三秒钟的音频样本复制复杂的模式？

不出所料，答案相当复杂。

VALL-E接受了大量的训练数据，包括数千小时的英语语音。这为AI的无缝英语语言语音模拟做好了准备。然而，VALL-E并不是普通的TTS系统——它由尖端的机器学习技术驱动。

我们已经提到过这项技术的名称：零样本神经编解码语言模型。让我们看看这些术语在实践中意味着什么。

理解零样本神经编解码语言模型

从较简单的术语开始，“零样本”指的是一种特定的语音合成引擎技术。它允许基于先前未知的数据生成AI语音。换句话说，计算机可以朗读它从未“见过”的文本。

更令人印象深刻的是，零样本技术允许机器在没有额外训练的情况下生成朗读。基本上，这类似于人类可以用他们已经知道的语言阅读不熟悉的文本。

接下来是复杂的部分，“神经编解码语言模型”需要进一步解析。

语音合成引擎依赖音频编解码器来根据书面文本创建波形。编解码器帮助AI将书写的字母、单词和句子翻译成相应的声音。神经编解码器也有同样的作用，但它基于一个强大的神经网络。

当然，这引出了一个额外的问题：什么是神经网络？

我们将在这里以更广泛的方式解释，而不深入探讨。神经网络试图模仿人类大脑的功能。网络由称为节点的人工神经元组成，这些节点相互连接并组织成层。

这种复杂的结构使所谓的深度学习成为可能，使机器更能开发和适应不熟悉的模式。

神经编码器驱动语言模型，这是文字转语音方程的另一部分。

语言模型依靠数据集来理解任何文本输入在实际语言中的上下文。换句话说，这就是机器如何“理解”文本的方式。

在VALL-E的案例中，LibriLight是由Facebook的Meta编制的音频库，作为AI的语言模型基础。

通过Speechify体验尖端的TTS技术

虽然VALL-E尚未向公众开放，但您可以通过Speechify听到先进的文字转语音引擎的声音。Speechify是一项TTS服务，可以从几乎任何来源朗读文本。

无论是书面文本、网页内容还是扫描页面，Speechify都能立即朗读。更好的是，该引擎提供的旁白声音听起来很自然。与典型的机器人TTS引擎不同，Speechify听起来更像人声而非机器声。

此外，您可以调整Speechify的朗读方式。选择您喜欢的语言、旁白和阅读速度，按您想要的方式听取任何文本。

如果这一切听起来很令人兴奋，您可以免费试用Speechify 今天就开始。

常见问题

人们可以使用Vall-E吗？

关于VALL-E可能被滥用的担忧很多。身份盗窃是一个特别令人担忧的可能性。出于这个原因，微软选择不公开VALL-E。

什么是微软AI？

微软AI不是一个特定的产品。相反，该公司的计划是一个AI开发框架。微软AI包括数据科学解决方案、对话AI、机器人技术、机器学习和行业中的其他进步。

什么是语音驱动界面？

语音驱动界面就是通过语音命令进行交互的用户界面。这项技术在智能设备中已经很常见——比如亚马逊的Alexa、苹果的Siri、微软的Cortana或谷歌的Assistant。

什么是机器人？

“机器人”一词指的是任何自动操作的机器。这类机器被设计为人类劳动的替代品。尽管在流行媒体中通常被描绘为类人形，但大多数机器人并不是人形的。事实上，它们甚至可能没有实体形式。例如，如今流行的虚拟助手也算作机器人。

享受最先进的AI语音、无限文件和全天候支持

tts banner for blog

分享这篇文章

Cliff Weitzman

Cliff Weitzman

Speechify 的首席执行官/创始人

Cliff Weitzman 是一位阅读障碍倡导者，同时也是 Speechify 的首席执行官和创始人。Speechify 是全球排名第一的文字转语音应用，拥有超过 10 万条五星好评，并在 App Store 的新闻与杂志类别中名列前茅。2017 年，Weitzman 因其在帮助学习障碍人士更好地使用互联网方面的贡献，被评为福布斯 30 岁以下 30 人榜单之一。Cliff Weitzman 曾被 EdSurge、Inc.、PC Mag、Entrepreneur、Mashable 等知名媒体报道。

关于Speechify

#1 文字转语音阅读器

Speechify 是全球领先的文字转语音平台，受到超过5000万用户的信赖，并在其文字转语音 iOS、Android、Chrome 扩展、网页应用和Mac 桌面应用中获得超过50万条五星好评。2025年，苹果公司授予 Speechify 备受瞩目的苹果设计奖，称其为“帮助人们生活的重要资源”。Speechify 提供超过1000种自然语音，支持60多种语言，用户遍布近200个国家。名人语音包括 Snoop Dogg、Mr. Beast 和 Gwyneth Paltrow。对于创作者和企业，Speechify Studio 提供高级工具，包括 AI 语音生成器、AI 语音克隆、AI 配音，以及其AI 语音变声器。Speechify 还通过其高质量、经济实惠的文字转语音 API 为领先产品提供支持。曾被 华尔街日报、CNBC、福布斯、TechCrunch 等主要新闻媒体报道，Speechify 是全球最大的文字转语音提供商。访问 speechify.com/news、speechify.com/blog 和 speechify.com/press 了解更多信息。

最新博客

post cover

Discord 的 AI 语音

2025年6月2日

post cover image

在线文字转语音免费无限制

2025年5月1日

post cover image

如何使用语音模拟

2025年4月27日