Social Proof

照片文字轉語音—如何拍攝頁面並讓其朗讀

Speechify 是全球第一的音頻閱讀器。讓您更快地閱讀書籍、文件、文章、PDF、電子郵件——任何您需要閱讀的內容。

媒體報導

forbes logocbs logotime magazine logonew york times logowall street logo
使用Speechify收聽這篇文章!
Speechify

學習照片文字轉語音的基礎知識 - 如何在任何移動或桌面設備和操作系統上拍攝頁面並讓其朗讀。

照片文字轉語音—如何拍攝頁面並讓其朗讀

TTS 閱讀器需求量大且供應充足。但這是否意味著所有文字轉語音技術都能提供相同的性能?許多 TTS 屏幕閱讀器可以處理來自 Microsoft Word 文件、HTML 網頁或其他文本文件中複製粘貼的數字文本。但很少有能將鎖定的數字和實體文本從圖像轉換為自然語音的。那些能做到的使用光學字符識別(OCR)。

什麼是 OCR?

OCR,即光學字符識別或文字識別,是一種專為數據提取而設計的技術。它在商業應用中有許多用途,也在休閒和娛樂中廣泛使用。這種技術通常有兩個組成部分。它有一個硬件部分用於掃描圖像,還有一個軟件部分用於提取和重新利用數據。但軟件部分是最令人興奮和複雜的部分。OCR 軟件可以單獨識別字母和整個單詞,並將它們排列成句子。此外,它還允許用戶編輯原始鎖定內容,類似於編輯帶有鎖定文本內容的 PDF 文件。

OCR 如何運作

實際的處理過程非常有趣。雖然存在其他雙色方法,但 OCR 軟件將實體文件轉換為黑白數字副本。然後,OCR 應用程序分析圖像中的深淺區域,知道深色區域代表字符。根據軟件的複雜程度,它可以同時關注字符、單詞或文本塊。從那裡,軟件使用特徵識別或模式識別算法識別字符。特徵檢測算法使用更複雜的過程,包括線條和曲線關聯以及 ASCII 代碼轉換。無論 OCR 應用程序的算法如何,它還會分析文檔結構以區分文本、表格、圖片和其他元素。這樣,提取的只有文本。這項技術的主要好處是能夠將平裝小說、實體文件和紙質教科書的每一頁轉換為數字機器可讀文本。這種先進的處理技術本身已經非常強大。它可以自動化數據輸入過程並簡化許多行業的工作流程。然而,當與人工智能(AI)和機器學習算法結合時,它提供了更多優勢。AI 驅動的 OCR 可以超越標準文本處理,識別不同的語言、手寫風格等。結合文字轉語音技術,OCR 軟件可以掃描實體文件,處理文本,並允許TTS 閱讀器將該數字文本轉換為語音。

文字轉語音 OCR 的用途

結合 OCR 和 TTS 技術可以在各種情境中使信息更易於獲取和消化。以下是文字轉語音 OCR 的一些用途:

  • 視障人士的輔助技術:將書籍、文件或屏幕上的書面內容轉換為口語,幫助視障或盲人「閱讀」內容。
  • 學習和教育:
    • 幫助閱讀障礙學生:通過將書面文本轉換為音頻,幫助有閱讀障礙的學生。
    • 多模態學習:允許學習者同時閱讀和聆聽內容,提高理解和記憶。
  • 翻譯和語言學習:將書面外語文本轉換為口語,幫助發音和理解。
  • 數字內容消費:將書籍、新聞文章和其他印刷文本內容轉換為有聲書或播客,便於隨時隨地消費。
  • 文件可及性:使 PDF、掃描文件和其他不可編輯格式對需要或偏好音頻內容的人可及。
  • 歷史文件分析:將舊手稿或檔案文件轉換為音頻內容,供研究人員或愛好者聆聽歷史文本。
  • 商業和生產力:將印刷的非數字報告轉換為口語內容,供忙碌的專業人士使用。
  • 校對:幫助作家或編輯通過聆聽紙上內容來識別錯誤。
  • 娛樂:將漫畫書、圖畫小說或其他主要視覺媒體轉換為聽覺體驗。

如何從圖片中朗讀文本

並非每個 Apple 和 Android 移動設備用戶都知道他們的應用程序可能具有 OCR 技術和 TTS 閱讀器,能夠完成簡單的文字轉語音轉換任務。考慮內建的 TTS 功能就像是免費為您朗讀的應用程序,或像是從相機讀取文本的免費應用程序,但其質量不如更先進的文字轉語音軟件。以下是在 Android 和 Apple 設備上從圖像訪問文本閱讀器的方法:

Android

Android 設備,至少是運行 Android 12 OS 及以上版本的設備,內建 TTS 閱讀器。這是一個用於導航、閱讀小字等的實用工具。您還可以用它來閱讀圖片中的文字。以下是設置設備的方法:

  • 通過“設置”應用進入“輔助功能”菜單。
  • 啟用“選擇朗讀”選項。
  • 進入 TTS 閱讀器的“設置”標籤,開啟“讀取圖片上的文字”選項。
  • 返回主屏幕並啟動“相機”應用。
  • 將相機對準書本、報紙或其他帶有數字文字的屏幕。
  • 在“相機”應用中點擊“選擇朗讀”按鈕,然後點擊一個單詞。

TTS Android 閱讀器將從突出顯示的單詞開始朗讀。您可以像使用文字處理器一樣,通過在屏幕上拖動手指來選擇文本塊。

Apple

使用 iPhone 朗讀實體文字需要一個可用的相機、iOS 15 及以上版本,並啟用內建的 TTS 閱讀器。

  • 從“設置”菜單中進入“輔助功能”標籤。
  • 點擊“朗讀內容”功能。
  • 啟用“朗讀選擇”和“朗讀屏幕”選項。
  • 返回主屏幕並打開相機。
  • 將相機對準頁面,等待底部工具欄出現“實時文字”按鈕。
  • 點擊按鈕以啟用 OCR 屏幕閱讀。
  • 用兩根手指向下滑動,從頁面頂部開始閱讀。
  • 在屏幕上點擊一個單詞或進行選擇,以朗讀特定的單詞、句子或段落。

與 Android 設備類似,iPad 和 iPhone 的 OCR 和 TTS 功能有限。雖然文字處理的準確性高於平均水平,但由於聲音的機械性質,語音質量令人失望。

Speechify—最佳 TTS 與 OCR 技術

雖然內建的 TTS 閱讀器和 OCR 軟件在移動設備上很不錯,但它們的質量和性能不太令人滿意。幸運的是,您有另一個閱讀文字的應用選擇。Speechify 是一個 文字轉語音閱讀器,結合了 OCR 技術和高質量的 AI 生成語音。其功能超越了默認的移動文字閱讀器,能掃描整本書和實體文件,將實體文字轉換為數字文字。然後,複雜的算法生成自然的語音,您可以控制和調整到所需的閱讀速度。Speechify 文字轉語音軟件可在以下平台上使用:

無論您是從 Apple App Store 或 Google Play Store 獲取,還是下載桌面 Mac 版本或 Chrome 瀏覽器擴展,一個許可證足以在所有桌面和移動設備上使用 Speechify。用戶友好的界面吸引了所有年齡段和技術背景的人。Speechify OCR 掃描可用於實時在線閱讀。或者,您可以將 PDF 文件、截圖和其他圖像轉換為高比特率的音頻文件,並在離線時以自己的節奏收聽。專為有閱讀障礙、視力障礙和多任務處理者設計,Speechify 的輔助技術不僅僅是典型的全屏閱讀器。這是您想要將任何數字和實體文字轉換為 有聲書、創建播客,並以更少的努力和更大的專注力提高閱讀技能的應用。 試用免費的 Speechify 文字轉語音應用,個性化沉浸式閱讀體驗。SEO 標題:照片文字轉語音——如何拍攝頁面並讓其朗讀 SEO 描述:了解照片文字轉語音的基礎知識——如何拍攝頁面並在任何移動或桌面設備和操作系統上讓其朗讀。

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman 是一位閱讀障礙倡導者,也是全球排名第一的文字轉語音應用程式 Speechify 的創辦人兼執行長,該應用程式擁有超過 100,000 則五星評價,並在 App Store 的新聞與雜誌類別中名列第一。2017 年,Weitzman 因其在提升學習障礙者網路可及性方面的貢獻,被列入福布斯 30 歲以下 30 人榜單。Cliff Weitzman 曾被 EdSurge、Inc.、PC Mag、Entrepreneur、Mashable 等知名媒體報導。