Social Proof

什麼是微軟 VALL-E?

Speechify 是全球第一的音頻閱讀器。讓您更快地閱讀書籍、文件、文章、PDF、電子郵件——任何您需要閱讀的內容。

媒體報導

forbes logocbs logotime magazine logonew york times logowall street logo
使用Speechify收聽這篇文章!
Speechify

微軟 VALL-E 代表了最新的技術進步,能夠實現完全自然的語音合成。以下是這項技術的詳細解析。

語音合成技術在近幾年取得了巨大進展。隨著人工智慧的提升,現今的語音合成技術能夠提供高品質的語音輸出,模仿人類的語音。

微軟的 VALL-E 是最新的技術解決方案,可能使語音合成聽起來異常逼真。它是一種基於零樣本機器學習的神經編解碼語言模型。

如果這句話聽起來像科幻術語,不用擔心。我們將在下面的文章中解析 VALL-E 背後的複雜概念。

微軟 VALL-E 解釋

人工智慧模型正在快速增強。如今,大家都知道 OpenAI 的 ChatGPT,這可能是我們最接近 AI 像真人的技術。而你可能也見過 DALL-E 引擎生成的 AI 藝術作品。

除了像 OpenAI 這樣的初創公司,微軟等全球公司也是 AI 領域的重要參與者。

微軟的研究人員最近一直在研究語音合成技術的進步。VALL-E 正是這方面的代表。

這項新 AI 可能會在語音合成領域帶來革命性變化,因為它可以根據極小的音頻樣本生成類似人類的語音。只需三秒鐘的聲音提示,VALL-E 就能捕捉到特定說話者的語音模式。

在接收到說話者提示後,AI 可以模仿人類的聲音,甚至模擬他們的情感語調。同樣令人印象深刻的是,VALL-E 能夠保留未見過的說話者的聲音環境。

簡而言之,VALL-E 模型在說話者相似性方面表現出色。你可以在 GitHub 上聽到它的實際效果,微軟在那裡分享了音頻示例以及 AI 的詳細解釋。

當然,這樣的技術有很多潛在用途,比如 創建播客和有聲書。隨著 VALL-E 與 GPT-3 等生成模型的結合,潛力可能進一步增長。

但像 VALL-E 這樣的技術也可能被用於更不良的目的。

由於 VALL-E 可以聽起來驚人地像真人,很容易看到惡意行為者如何利用這項技術進行非自願的、有害的深偽詐騙。這樣的可能性促使微軟發佈了一份倫理聲明。

在聲明中,公司倡導特定的語音編輯模型,以確保獲得原始說話者的同意。

但圍繞 VALL-E 潛在用途的爭議是未來需要考慮的問題。目前,有一個更令人興奮的問題擺在桌面上:

AI 如何僅用三秒鐘的音頻作為基準樣本來複製複雜的模式?

不出所料,答案相當複雜。

VALL-E 擁有大量的訓練數據,包括數千小時的英語語音。這使得 AI 能夠無縫地模擬英語語音。然而,VALL-E 並不是普通的語音合成系統——它由尖端的機器學習技術驅動。

我們已經提到過這項技術的名稱:零樣本神經編解碼語言模型。讓我們來看看這些術語在實踐中意味著什麼。

理解零樣本神經編解碼語言模型

從較簡單的術語開始,“零樣本”指的是一種特定的語音合成技術。它允許基於先前未知數據生成 AI 語音。換句話說,電腦可以朗讀它從未“見過”的文本。

更令人印象深刻的是,零樣本技術允許機器在沒有額外訓練的情況下生成語音輸出。基本上,這類似於人類可以閱讀他們已經知道語言的陌生文本。

進入複雜的部分,“神經編解碼語言模型”需要進一步解析。

語音合成引擎依賴音頻編解碼器來根據書面文本創建波形。編解碼器幫助 AI 將書寫的字母、單詞和句子轉換為相應的聲音。神經編解碼器具有相同的目的,但基於強大的神經網絡。

當然,這引發了另一個問題:什麼是神經網絡?

我們將在這裡以更廣泛的方式解釋,而不深入探討。神經網絡試圖模仿人類大腦的運作方式。該網絡由稱為節點的人工神經元組成,這些節點相互連接並組織成層。

這種複雜的結構使所謂的深度學習成為可能,使機器更能夠開發和適應不熟悉的模式。

神經編碼器驅動語言模型,這是此文字轉語音方程式的另一部分。

語言模型依據數據集來理解任何文本輸入的實際語言背景。換句話說,這就是機器如何“理解”文本的方式。

在VALL-E的情況下,由Facebook的Meta編輯的音頻庫LibriLight作為AI的語言模型基礎。

使用Speechify聆聽尖端的TTS技術

雖然VALL-E尚未對公眾開放,但您可以通過Speechify聽到先進的文字轉語音引擎的聲音。Speechify是一項TTS服務,可以從幾乎任何來源朗讀文本。

無論是書面文本、網頁內容還是掃描頁面,Speechify都能立即朗讀。更好的是,該引擎提供的敘述聲音聽起來自然。與典型的機械化TTS引擎不同,Speechify聽起來更像人聲。

此外,您可以調整Speechify的朗讀方式。選擇您喜好的語言、敘述者和朗讀速度,精確地聆聽任何文本。

如果這一切聽起來很吸引人,您可以免費試用Speechify今天就開始。

常見問題

人們可以使用Vall-E嗎?

對於VALL-E可能被濫用的擔憂很多。身份盜竊是一個特別令人擔心的可能性。出於這個原因,微軟選擇不將VALL-E公開。

什麼是微軟AI?

微軟AI不是一個特定的產品。相反,該公司的計劃作為AI開發框架。微軟AI包括數據科學解決方案、對話式AI、機器人技術、機器學習以及行業中的其他進步。

什麼是語音驅動介面?

語音驅動介面顧名思義,就是一種通過語音命令進行互動的用戶介面。這項技術在智能設備中已經很常見——例如亞馬遜的Alexa、蘋果的Siri、微軟的Cortana或谷歌的Assistant。

什麼是機器人?

“機器人”這個詞指的是任何自動運行的機器。這些機器被設計為人力的替代品。儘管在流行媒體中通常被描繪成人形,但大多數機器人並不是人形的。事實上,它們甚至可能沒有實體形式。例如,當今流行的虛擬助手也算作機器人。

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman 是一位閱讀障礙倡導者,也是全球排名第一的文字轉語音應用程式 Speechify 的創辦人兼執行長,該應用程式擁有超過 100,000 則五星評價,並在 App Store 的新聞與雜誌類別中名列第一。2017 年,Weitzman 因其在提升學習障礙者網路可及性方面的貢獻,被列入福布斯 30 歲以下 30 人榜單。Cliff Weitzman 曾被 EdSurge、Inc.、PC Mag、Entrepreneur、Mashable 等知名媒體報導。