媒體報導
語音合成技術,也就是我們常說的文字轉語音,這些年來發展迅速。了解更多關於文字轉語音的歷史。
語音合成,即人類語音的人工生成,在過去的70年中取得了長足的進步。無論您目前是否使用文字轉語音服務來聆聽書籍、學習或校對自己的書面作品,毫無疑問,文字轉語音服務已經讓各行各業的人們的生活變得更加輕鬆。
在這裡,我們將看看文字轉語音處理的工作原理,以及這項輔助技術如何隨著時間的推移而改變。
介紹
在18世紀,俄羅斯教授克拉岑斯坦創造了模仿人類聲音的聲學共振器。二十年後,VODER(語音操作演示器)在紐約世界博覽會上引起了轟動,創造者霍默·達德利向觀眾展示了如何通過人工手段創造人類語音。這個裝置很難操作——達德利必須用腳踏板控制基本頻率。
在19世紀初,查爾斯·惠斯通開發了第一台機械語音合成器。這開啟了發音合成工具和技術的快速演變。
很難確定什麼使一個好的文字轉語音程序,但就像生活中的許多事情一樣,當你聽到它時,你就知道了。一個高質量的文字轉語音程序提供自然的聲音,具有真實的語調和音色。
文字轉語音技術可以幫助視障人士和其他殘疾人士獲取他們在工作中茁壯成長和與他人交流所需的信息。該軟件還允許學生和其他需要大量閱讀的人在移動中通過人類語音來聆聽信息。合成語音讓人們能夠在更短的時間內完成更多工作,並且可以在各種環境中使用,從視頻遊戲創作到幫助有語言處理差異的人。
1950年代和60年代
在1950年代末,第一批語音合成系統被創造出來。這些系統是基於計算機的。1961年,貝爾實驗室的物理學家約翰·拉里·凱利使用IBM計算機合成語音。他的聲碼器(語音記錄合成器)重現了歌曲《Daisy Bell》。
在凱利完善他的聲碼器時,《2001太空漫遊》的作者亞瑟·克拉克在他的書的劇本中使用了凱利的演示。在這個場景中,HAL 9000計算機唱了《Daisy Bell》。
1966年,線性預測編碼出現。這種形式的語音編碼開始於板倉文忠和齋藤修的開發。Bishnu S. Atal和Manfred R. Schroeder也對線性預測編碼的開發做出了貢獻。
1970年代
1975年,板倉開發了線譜對方法。這種高壓縮語音編碼方法幫助板倉更深入了解語音分析和合成,找出弱點並改進它們。
在這一年,MUSA也發布了。這個獨立的語音合成系統使用算法來朗讀義大利語。三年後發布的版本能夠用義大利語唱歌。
在70年代,第一台基於人類聲道的發音合成器被開發出來。已知的第一台合成器由湯姆·貝爾、保羅·默梅爾斯坦和菲利普·魯賓在哈斯金斯實驗室開發。這三人使用了貝爾實驗室在60年代和70年代創建的聲道模型的信息。
1976年,庫茲韋爾為盲人設計的閱讀機器問世。雖然這些設備對於普通大眾來說過於昂貴,但圖書館通常會為視障人士提供這些設備來聆聽書籍。
線性預測編碼成為合成器芯片的起點。德州儀器的LPC語音芯片和70年代末的Speak & Spell玩具都使用了合成器芯片技術。這些玩具是具有準確語調的人類語音合成的例子,與當時常見的機器人聲音合成不同。許多具有語音合成功能的手持電子產品在這十年間變得流行,包括為盲人設計的Telesensory Systems Speech+計算器。1979年,能夠合成語音的國際象棋電腦Fidelity Voice Chess Challenger問世。
1980年代
在1980年代,語音合成開始在電子遊戲界掀起波瀾。1980年,Sun Electronics推出了射擊類型的街機遊戲Stratovox。Manbiki Shoujo(英文翻譯為Shoplifting Girl)是第一款具備語音合成功能的個人電腦遊戲。電子遊戲Milton也在1980年推出,這是Milton Bradley公司首款具備合成語音功能的電子遊戲。
1983年,獨立的聲學機械語音機DECtalk問世。DECtalk能理解單詞的語音拼寫,允許對不常見單詞進行自定義發音。這些語音拼寫還可以包含音調指示,DECtalk在發音時會使用這些指示,這使得DECtalk能夠唱歌。
在80年代末,史蒂夫·喬布斯創建了NeXT,一個由Trillium Sound Research開發的系統。雖然NeXT並未成功,但喬布斯最終在90年代將該計劃與蘋果合併。
1990年代
早期的文本轉語音系統聽起來非常機械化,但這種情況在80年代末和90年代初開始改變。較柔和的輔音使得語音機器失去了電子化的感覺,聽起來更像人聲。1990年,Ann Syrdal在AT&T貝爾實驗室開發了一種女性語音合成器聲音。工程師們在90年代努力使聲音聽起來更自然。
1999年,微軟推出了Narrator,一種屏幕閱讀解決方案,現在每個微軟Windows版本中都包含這個功能。
2000年代
在2000年代,語音合成遇到了一些困難,因為開發者在創建合成語音的標準上難以達成共識。由於語音具有高度個人化的特性,全球各地的人們很難就音素、雙音素、語調、音調、模式播放和語調的正確發音達成一致。
在90年代,形式合成語音音頻的質量也成為一個更大的關注點,因為工程師和研究人員注意到實驗室中用於播放合成語音的系統質量往往遠超用戶的設備。提到語音合成,許多人會想到史蒂芬·霍金的語音合成器,它提供了一種機械化的聲音,幾乎沒有人的音調。
2005年,研究人員終於達成了一些共識,開始使用一個通用的語音數據集,這使他們在創建高級語音合成系統時能夠從相同的基本理念出發。
2007年,一項研究顯示聽眾能夠判斷說話者是否在微笑。研究人員正在繼續努力,試圖利用這些信息來創建更自然的語音識別和語音合成軟件。
2010年代
如今,使用語音信號的語音合成產品隨處可見,從Siri到Alexa。電子語音合成器不僅讓生活更輕鬆,也讓生活更有趣。無論您是在使用TTS系統隨時隨地聆聽小說,還是使用應用程式來輕鬆學習外語,您很可能每天都在使用文本轉語音技術來激活您的神經網絡。
未來展望
在未來幾年,語音合成技術可能會專注於創建大腦模型,以更好地理解我們如何在大腦中記錄語音數據。語音技術還將努力更好地理解情感在語音中的作用,並利用這些信息創建AI語音,使其與真人無法區分。
語音合成技術的最新進展:Speechify
了解早期語音合成技術的轉變,讓人驚嘆科學的進步。如今,像Speechify這樣的應用程式讓將任何文本轉換為音頻文件變得輕而易舉。只需按一下按鈕(或在應用程式上輕點),Speechify就能將網站、文件和文本圖像轉換為自然的語音。Speechify的資料庫在所有設備上同步,讓您輕鬆隨時隨地學習和工作。請在Apple的App Store和Android的 Google Play中查看Speechify應用程式。
常見問題
誰發明了文本轉語音技術?
英語的文本轉語音技術由梅田紀子發明。該系統於1968年在日本的電子技術實驗室開發。
文本轉語音的目的何在?
許多人使用文字轉語音技術。對於喜歡以音頻格式獲取信息的人來說,TTS 技術可以輕鬆獲取工作或學習所需的信息,而無需花費數小時在書本前。忙碌的專業人士也使用TTS技術來保持工作進度,即使無法坐在電腦屏幕前。許多類型的 TTS 技術最初是為視力障礙者開發的,對於視力困難的人來說,TTS 仍然是一種獲取所需信息的絕佳方式。
如何合成語音?
錄製的語音片段以各種單位存儲在數據庫中。軟件通過單位選擇準備音頻文件。從那裡,創建一個聲音。通常,程序的輸出範圍越大,程序在提供用戶語音清晰度方面的困難就越大。
泰勒·魏茲曼
泰勒·魏茲曼是 Speechify 的聯合創辦人、人工智慧負責人及總裁,這是全球排名第一的文字轉語音應用程式,擁有超過 100,000 個五星評價。魏茲曼畢業於史丹佛大學,獲得數學學士學位及人工智慧方向的計算機科學碩士學位。他被《Inc.》雜誌評選為 50 大企業家之一,並曾在《Business Insider》、《TechCrunch》、《LifeHacker》、《CBS》等媒體上亮相。魏茲曼的碩士研究專注於人工智慧和文字轉語音,他的最終論文題為:「CloneBot:個性化對話回應預測」。