媒體報導
文字轉語音技術究竟是如何運作的?我們將探討一些能夠即時將文字轉換為自然語音的人工智慧技術。
雖然文字轉語音的概念——也就是說,能夠將電腦螢幕上的文字朗讀給使用者聽的電腦軟體——並不新鮮,但在過去幾年中,這項技術似乎經歷了一場革命。
根據最近的一項研究,文字轉語音市場在2020年的估值高達20億美元,部分原因是持續的COVID-19疫情影響。不僅如此,預計到2026年其價值將增長至50億美元,年均增長率達到14.6%。
這其中很大一部分歸功於文字轉語音解決方案幫助了許多視力受損的人。根據美國疾病控制與預防中心的數據,美國40歲以上的人中約有1200萬人有某種視覺信息處理問題。其中有100萬人完全失明,800萬人因未矯正的屈光不正而有視力相關問題。這一數字從2012年的420萬人增加了。
所有這些都表明,文字轉語音技術多年來已經證明了其價值。許多解決方案如Speechify甚至提供多種高品質的語音供用戶根據需求選擇。但這些解決方案是如何運作的,為什麼有這麼多語音選項可供選擇?要回答這些問題,你需要記住幾個重要的事情。
文字轉語音的內部運作
在了解文字轉語音背後的實際語音之前,首先需要更好地理解這些解決方案的基本運作方式。
文字轉語音使用人工智慧、機器學習和類似的技術子集,將頁面或螢幕上的書面文字轉換為可以朗讀的音頻內容。這不僅包括網站或文章的內容,還包括像Microsoft Word等應用程式中的文字。
音頻內容完全由所使用的設備生成。除了在桌上型和筆記型電腦上運行,文字轉語音幾乎在當今市場上的每一部智慧型手機、平板電腦或其他移動設備上都可用。
在絕大多數解決方案中,文字轉語音處理是在設備本地進行的。即使沒有網際網路連接,文字轉語音仍然有其價值。
除了讓視力有問題的人能夠訪問和理解書面內容外,文字轉語音還有助於控制語音的音調甚至速度。如果你想放慢速度以便更好地理解,你可以這樣做。同樣,如果你想加快語速以更快地瀏覽內容,你也可以這樣做。
文字轉語音語音:深入解析
當談到這些文字轉語音解決方案所使用的實際語音時,最終都歸結於一個稱為語音合成器的概念。
什麼是語音合成器?
語音合成是一種輸出形式,讓你的電腦(或其他設備)用預先選擇的語音朗讀文字。概念上,這與你自己閱讀頁面上的文字或甚至將其打印出來並無太大不同——你仍然在討論電腦如何輸出所請求的信息。只是它不是僅通過文字,而是通過你可以通過揚聲器或耳機聽到的語音來完成。
一般來說,語音合成通過你所使用的解決方案遵循一些基本但重要的步驟來運作。第一步涉及將頁面上的文字轉換為單詞。
步驟1:預處理
在這個過程中,文字轉語音解決方案會分析你想要閱讀的內容中的文字,並將字母——本質上只是符號——轉換為單詞。這個過程很重要,因為書面文字有時比人們意識到的更具歧義。某些單詞甚至短語可以有多種含義。同樣,電腦需要能夠"理解"像"their"、"there"和"they're"這樣的單詞之間的區別——這三個單詞發音相同,但可以顯著改變句子的上下文。
這就是人工智慧和機器學習發揮作用的地方。通過AI,文字轉語音解決方案可以被"訓練"以盡可能消除這種歧義。這個階段的文字轉語音語音過程被稱為"預處理",因為它是在應用程式實際朗讀任何內容之前"在幕後"發生的。
這也是語音合成解決方案能夠區分同形異音詞的階段。"Read" 就是一個完美的例子,因為你可能今晚想讀一本書來放鬆,即使你過去已經讀過無數次。人類可以根據上下文輕鬆區分這兩個概念——在計算方面,人工智慧被用來達到類似的效果。
在這個階段,同樣困難的還有數字、縮寫、首字母縮略詞等。像美元符號這樣的特殊字符也比單純的文字更難"翻譯"。這就是為什麼預處理階段如此重要——它有助於確保最終被朗讀的內容在其預期的上下文中是合理的。
步驟二:理解發音
一旦文本被分析並且語音合成解決方案"理解"了哪些詞需要被朗讀,下一步的過程就開始了。這時,這些詞會被轉換成音素——基本上就是學習如何正確地發音文本中的詞。
這個過程的這一部分在過去幾年中發生了巨大的變化。如果你曾經有機會使用過1990年代的語音合成解決方案(或者看過1970年代或80年代的老電影中有語音合成場景),你可能會遇到一個聽起來不自然的電腦聲音。它很容易被識別為由電腦生成,即使你能理解它在說什麼,大多數詞可能發音不正確。
步驟三:開始轉換為語音
一旦這些音素被識別出來,語音合成解決方案就進入過程的最後部分:將這些信息轉換為可以通過設備的揚聲器或耳機播放的聲音。
這個過程根據你使用的解決方案以幾種不同的方式發生。其中一種方式是讓人類演員或女演員大聲朗讀一系列音素,然後將這些信息反饋回電腦和解決方案本身。然後,一旦應用程序掃描了特定的文本塊,它可以將頁面上找到的音素與先前錄製的音素匹配。然後將這兩者結合起來,以比以往更自然的方式播放文本的音頻版本。
有些解決方案仍然允許電腦自行生成聲音。它的運作方式基本相同,只是"聲音"不是基於先前錄製的音頻,而是通過生成特定的聲頻以適當的順序創建的。
從這個角度來看,這與音樂合成器允許音樂家使用標準鍵盤模仿樂器的聲音的方式並不完全不同。他們可以像彈鋼琴一樣彈奏鍵盤,儘管每個鍵可能模仿吉他上的不同和弦或鼓的聲音。這仍然是電腦"理解"每次按鍵的意圖並將其與適當的聲音配對,儘管是在不同的上下文中。
語音選項及更多
這些語音生成器語音合成解決方案中有如此多不同語音選項的部分原因是,它們實際上並不像許多人想像的那麼難以創建。AI語音生成器所需的音素類型在整個人類語言中實際上相當常見。因此,只需讓一位演員或女演員坐在麥克風前,朗讀一段包含所有必要音素的短劇本,然後將這些信息反饋回解決方案本身。
AI語音技術將單獨識別每個音素,基本上將錄音"分解"為其組成部分,並使用其中任何必要的部分來準確生成用戶在閱讀網站或其他形式內容時所需的語音合成聲音。
當然,這種自然語音生成器的潛在用途遠不止於幫助視力障礙者。過去幾年,由於社交媒體網絡如TikTok,公眾對AI語音和語音生成的興趣大增。
TikTok實際上是擁抱AI語音生成的較大品牌之一,允許用戶錄製視頻,在這些視頻上添加文字,然後讓語音合成朗讀這些內容。這是一種為TikTok上發布的內容增添額外沉浸感的有趣方式,隨著時間的推移,這種方式只會變得越來越受歡迎。
語音合成的未來已經到來
最終,語音合成是一個無價的工具,因為它讓我們能夠做到很多事情。它讓有視力問題的人能夠在自己的條件下享受和理解與其他人相同的內容。它可以將任何博客文章、文章、文件、白皮書或其他印刷內容轉換為易於消化的音頻體驗,讓你不僅可以在家中享受,還可以在通勤時、健身時等享受。
它不僅讓我們的生活更高效,還幫助解決了如上所述的各種重大問題。基於這些原因,不難理解為什麼語音合成和人工智慧語音在過去幾年特別受歡迎。
如果您想了解更多關於文字轉語音的資訊,或者想知道這種解決方案如何能夠改善您的生活,請不要猶豫 - 立即免費試用 Speechify。
Speechify 是 App Store 中評價第一的應用程式,擁有最自然的語音和用戶體驗,並提供多種自訂語音選擇。
泰勒·魏茲曼
泰勒·魏茲曼是 Speechify 的聯合創辦人、人工智慧負責人及總裁,這是全球排名第一的文字轉語音應用程式,擁有超過 100,000 個五星評價。魏茲曼畢業於史丹佛大學,獲得數學學士學位及人工智慧方向的計算機科學碩士學位。他被《Inc.》雜誌評選為 50 大企業家之一,並曾在《Business Insider》、《TechCrunch》、《LifeHacker》、《CBS》等媒體上亮相。魏茲曼的碩士研究專注於人工智慧和文字轉語音,他的最終論文題為:「CloneBot:個性化對話回應預測」。