媒體報導
學習照片文字轉語音的基礎知識—如何在任何移動或桌面設備和操作系統上拍攝頁面並讓其朗讀。
TTS 讀者需求量大且供應充足。但這是否意味著所有 文字轉語音 技術都能提供相同的性能?許多 TTS 屏幕閱讀器可以處理來自 Microsoft Word 文檔、HTML 網頁或其他文本文件中複製粘貼的數字文本。但很少有能將鎖定的數字和實體文本從圖像轉換為自然語音的。那些能做到的使用光學字符識別 (OCR)。
什麼是 OCR?
OCR,即光學字符識別或文本識別,是一種專門用於數據提取的技術。它在商業應用中有許多用途,也在休閒和娛樂中廣泛使用。這種技術通常有兩個組成部分。它有一個硬件部分用於掃描圖像,還有一個軟件部分用於提取和重新利用數據。但軟件部分是最令人興奮和複雜的部分。OCR 軟件可以單獨識別字母和整個單詞,並將它們排列成句子。此外,它使用戶能夠編輯原始鎖定內容,類似於編輯帶有鎖定文本內容的 PDF 文件。
OCR 的工作原理
光學字符識別 (OCR) 是一種技術,可以將不同類型的文檔,如掃描的紙質文檔、PDF 文件或數碼相機拍攝的圖像,轉換為可編輯和可搜索的數據。該過程始於 OCR 軟件分析文檔圖像的結構,檢測包含文本的區域。然後將這些區域分割成行、單詞和字符。每個字符都與一組預定義的模式進行比較,或通過機器學習模型進行訓練,以識別並轉換為機器編碼文本。這種轉換使圖像中的文本可以被編輯、搜索和數字化處理。
結合文字轉語音和 OCR
將光學字符識別與文字轉語音技術結合,創造了一種強大的工具,提升了可及性和效率。OCR 從掃描的文檔、圖像或印刷材料中提取文本,並將其轉換為機器可讀文本。然後,這些文本可以輸入到 TTS 系統中,將書面文字轉換為語音音頻。這種協同作用允許廣泛的應用,例如幫助視障人士“閱讀”印刷材料,將書籍和文檔轉換為有聲書,或提供印刷外文文本的實時音頻翻譯。通過將 OCR 與 TTS 集成,用戶可以更動態地與文本內容互動,使信息對每個人都更易於獲取,無論他們的閱讀能力或視力障礙如何。
文字轉語音 OCR 的用途
結合 OCR 和 TTS 技術在各種情境中開啟了許多可能性,使信息更易於獲取和消化。以下是一些文字轉語音 OCR 的用途:
- 輔助技術為視障人士服務:將書籍、文檔或屏幕上的書面內容轉換為語音,幫助視障或盲人“閱讀”內容。
- 學習和教育:
- 幫助有閱讀障礙的學生:通過將書面文本轉換為音頻,幫助有閱讀障礙或其他閱讀挑戰的學生。
- 多模態學習:允許學習者同時閱讀和聆聽內容,提高理解和記憶。
- 翻譯和語言學習:將書面外語文本轉換為語音,幫助發音和理解。
- 數字內容消費:將書籍、新聞文章和其他印刷文本內容轉換為有聲書或播客,便於隨時隨地消費。
- 文檔可及性:使 PDF、掃描文檔和其他不可編輯格式對需要或偏好音頻內容的人更易於獲取。
- 歷史文檔分析:將舊手稿或檔案文檔轉換為音頻內容,供研究人員或愛好者聆聽歷史文本。
- 商業和生產力:將印刷的非數字報告轉換為語音內容,供忙碌的專業人士使用。
- 校對:幫助作家或編輯通過聆聽紙上內容來識別錯誤。
- 娛樂:將漫畫書、圖畫小說或其他主要視覺媒體轉換為聽覺體驗。
如何從圖片中朗讀文本
並非每位蘋果和安卓手機用戶都知道,他們的應用程式可能具備OCR技術和TTS閱讀器,能夠完成簡單的文字轉語音轉換任務。內建的TTS功能就像是免費的應用程式,可以為您朗讀,或像是從相機讀取文字的免費應用程式,但其質量不如更先進的文字轉語音軟體。以下是如何在安卓和蘋果設備上從圖像中訪問文字閱讀器的方法:
安卓
安卓設備,至少是運行安卓12系統及以上的設備,內建有TTS閱讀器。這是一個有用的工具,用於導航、閱讀小字體等。但您也可以用它來讀取圖片中的文字。以下是設置設備的方法:
- 通過“設置”應用進入“輔助功能”菜單。
- 啟用“選擇朗讀”選項。
- 進入TTS閱讀器的“設置”標籤,開啟“讀取圖像上的文字”選項。
- 返回主屏幕並啟動“相機”應用。
- 將相機對準書本、報紙或其他帶有數字文字的屏幕。
- 在“相機”應用中點擊“選擇朗讀”按鈕,然後點擊一個單詞。
TTS安卓閱讀器將從突出顯示的單詞開始朗讀。您可以像使用文字處理器一樣,通過在屏幕上拖動手指來選擇文本塊。
蘋果
使用iPhone朗讀實體文字需要一個可用的相機、iOS 15及以上版本,並啟用內建的TTS閱讀器。
- 從“設置”菜單中導航到“輔助功能”標籤。
- 點擊“語音內容”功能。
- 啟用“朗讀選擇”和“朗讀屏幕”選項。
- 返回主屏幕並打開相機。
- 將相機對準頁面,等待底部工具欄出現“即時文字”按鈕。
- 點擊按鈕以啟用OCR屏幕閱讀。
- 用兩根手指向下滑動,從頁面頂部開始閱讀。
- 點擊屏幕上的一個單詞或進行選擇,以朗讀特定的單詞、句子或段落。
與安卓設備類似,iPad和iPhone的OCR和TTS功能有限。雖然文字處理的準確性高於平均水平,但由於其機械化的聲音,語音質量令人失望。
Speechify—最佳的TTS與OCR技術
雖然內建的TTS閱讀器和OCR軟體在移動設備上很方便,但其質量和性能不甚理想。幸運的是,您有另一個閱讀文字的應用選擇。Speechify是一個文字轉語音閱讀器,結合了OCR技術和高質量的AI生成語音。其功能超越了默認的移動文字閱讀器,能掃描整本書和實體文件,將實體文字轉換為數字文字。從那裡,複雜的算法生成自然的語音,您可以控制和調整到所需的閱讀速度。Speechify文字轉語音軟體可在以下平台使用:
無論您是從Apple App Store或Google Play Store獲取,還是下載桌面Mac版本或Chrome瀏覽器擴展,一個許可證足以在所有桌面和移動設備上使用Speechify。用戶友好的界面吸引了所有年齡段和技術背景的用戶。Speechify的OCR掃描可用於實時在線閱讀。
Speechify的輔助技術專為有閱讀障礙、視力障礙和多任務處理的用戶設計,功能超越典型的全屏閱讀器。這是您想要將任何數字和實體文字轉換為有聲書、創建播客,並以更少的努力和更大的專注力提高閱讀技能的應用程式。試用免費的Speechify文字轉語音應用,個性化沉浸式閱讀體驗。
Cliff Weitzman
Cliff Weitzman 是一位閱讀障礙倡導者,也是全球排名第一的文字轉語音應用程式 Speechify 的創辦人兼執行長,該應用程式擁有超過 100,000 則五星評價,並在 App Store 的新聞與雜誌類別中名列第一。2017 年,Weitzman 因其在提升學習障礙者網路可及性方面的貢獻,被列入福布斯 30 歲以下 30 人榜單。Cliff Weitzman 曾被 EdSurge、Inc.、PC Mag、Entrepreneur、Mashable 等知名媒體報導。