媒體報導
文字轉語音和語音合成的歷史是什麼?探索語音合成和文字轉語音技術背後的突破性時刻和關鍵人物。
文字轉語音(TTS)和語音合成看似是全新的技術,但其實它們擁有可以追溯到幾個世紀前的豐富歷史。
從最早利用機械裝置模仿人類語音的嘗試,到今天尖端的人工智慧和深度學習模型,TTS的發展是一段引人入勝的旅程。
在這篇文章中,我們將深入探討文字轉語音和語音合成的歷史,並探索未來的激動人心的可能性。
文字轉語音和語音合成:從早期發展到現代應用
18世紀和19世紀
文字轉語音和語音合成的歷史可以追溯到18世紀和19世紀。在這段時期,有幾次早期的語音合成嘗試,全部使用機械裝置。1770年代,匈牙利發明家沃爾夫岡·馮·肯佩倫開發了一種名為聲學機械語音機的機械裝置,旨在模擬人類聲道。這種類比裝置使用風箱、簧片和管道來產生元音和輔音。
在18世紀末,英國物理學家查爾斯·惠斯通發明了一種更機械化的肯佩倫語音機版本,他稱之為「說話機」。該裝置可以重現各種樂器的聲音。雖然惠斯通的裝置並非專門為語音合成設計,但它強化了使用機械裝置產生聲音的想法。
在19世紀,開發了各種其他裝置,包括法伯的「人工語音」機器。這些裝置使用機械和氣動系統的組合來創造語音聲音。
20世紀初和第一個全電氣化語音合成
在20世紀初,語音合成技術變得更加複雜,隨著荷馬·達德利發明了第一個全電氣化語音合成系統——聲碼器。該系統在新澤西州的貝爾實驗室(Bell Labs)開發。
達德利的聲碼器使用一系列共振器和濾波器來創造合成語音。專家們在1939-1940年紐約法拉盛草地的世界博覽會上展示了這款名為Voder的聲碼器。他們使用鍵盤和腳踏板操作機器以生成語音。
1950年代初至1970年代末——合成器的興起
1951年,達德利的工作啟發了富蘭克林·S·庫珀博士在哈斯金斯實驗室開發的模式回放系統。該系統通過分析錄製的聲音,如口語單詞或短語,並將其分解為其組成的聲波或「光譜圖模式」。這些模式然後存儲在磁帶上並回放以產生原始聲音的合成版本。
1976年,首個商業成功的文字轉語音系統由Kurzweil閱讀機推出。該系統使用連續合成技術,結合預錄的音素和單詞來產生合成語音。該裝置主要設計用於幫助殘障人士,但很快作為閱讀輔助工具而受到歡迎。
從1978年開始,德州儀器開始研發一種可用於電子遊戲和其他基於計算機應用的語音合成芯片。該芯片使用連續合成技術,結合錄製的語音聲音或雙音來產生類似人類的語音輸出。這項技術後來被用於DECtalk,一種為殘障人士提供高品質合成語音的文字轉語音系統。
現代文字轉語音系統
近年來的一項重要創新是使用神經網絡生成合成語音。像谷歌和微軟這樣的公司開發了高品質的TTS系統,使用深度學習算法分析大量人聲數據集並生成自然的語音輸出。
作為輔助技術形式的TTS的另一個關鍵發展是使用單元選擇和連續合成技術。這些方法通過結合小單元的預錄語音,如雙音甚至整個單詞,來創建新的句子,從而實現更真實的輸出。這些技術已被用於流行的TTS應用程序,如Speechify、蘋果的Siri和亞馬遜的Alexa,以及較早的工具如IBM ViaVoice。
語音識別技術在近年來也有了顯著的進步,這使得TTS系統更加先進。通過使用語音識別算法將人類語音轉錄為文本,TTS系統可以在合成語音中創造更自然的過渡。
近年來,我們還看到了韻律和語調的整合。這使得語音聽起來更自然,具有適當的停頓、重音和語調。韻律對於像英語這樣的語言尤為重要,因為重音和語調可以顯著影響句子的意思。
深度學習及未來技術展望
TTS技術的未來充滿了令人興奮的可能性。隨著人工智慧和深度學習的興起,我們可以期待更自然的語音輸出,能夠模仿人類語音的細微差別和語氣。
這項技術在虛擬助理和聊天機器人的開發中將特別有用。這些系統將變得更加對話化,用戶將能夠以更自然的方式與它們互動。
此外,我們可以期待語音轉錄領域的進步,也就是文本到音素的轉換。隨著機器在識別和解釋人類語音方面的能力提高,語音轉文本系統的準確性和效率將不斷改善。
最後,我們可以期待文本轉語音技術在日常生活中變得更加普及和整合。隨著越來越多的設備連接到物聯網,我們將能夠實時用語音控制它們,使生活更加便利和高效。
加入Speechify的文本轉語音革命
如果您正在尋找一個強大的 文本轉語音 服務,能夠產生自然、高品質的旁白,那麼Speechify就是您的不二之選。
憑藉其先進的共振峰合成技術,Speechify創造出逼真、自然的聲音,不同於過去的機械聲音。即使是曾經嘗試過文本轉語音技術的著名作家史蒂芬·霍金也會對Speechify的能力印象深刻。
使用Speechify非常簡單——只需訪問官方 網站 或下載移動應用程式,然後輸入您想要的文本。接下來,選擇適合您需求的聲音,根據需要調整速度和音調,然後完成!Speechify將創造出優秀且自然的旁白,非常適合電子學習模組、解說視頻、 播客和 演示文稿。您甚至可以創建自己的 自定義聲音 用於 YouTube 和其他社交媒體平台。
不要滿足於劣質的TTS服務—— 今天就試試Speechify ,體驗文本轉語音技術的未來。
常見問題
誰開發了世界上第一個語音合成器?
霍默·達德利於1930年代初在紐約的貝爾實驗室設計了世界上第一個語音合成器。
語音合成的目的何在?
語音合成旨在通過語言處理和基本頻率分析從文本輸入生成人工語音。
TTS可以用於哪四種方式?
TTS可以用於無障礙設施、娛樂、語言學習和語音服務的自動化。
文本轉語音有哪些優勢?
文本轉語音可以提高無障礙性、增強學習效果,並通過讓用戶以聽覺方式消化書面內容來提高生產力。
文本轉語音合成發展中最令人驚訝的時刻是什麼?
文本轉語音合成發展中最令人驚訝的時刻之一是查爾斯·惠斯通的機械語音合成器的發明。

Cliff Weitzman
Cliff Weitzman 是一位閱讀障礙倡導者,也是全球排名第一的文字轉語音應用程式 Speechify 的創辦人兼執行長,該應用程式擁有超過 100,000 則五星評價,並在 App Store 的新聞與雜誌類別中名列第一。2017 年,Weitzman 因其在提升學習障礙者網路可及性方面的貢獻,被列入福布斯 30 歲以下 30 人榜單。Cliff Weitzman 曾被 EdSurge、Inc.、PC Mag、Entrepreneur、Mashable 等知名媒體報導。