1. ホーム
  2. アクセシビリティ
  3. 写真のテキストを音声に変換—ページを撮影して読み上げる方法
Social Proof

写真のテキストを音声に変換—ページを撮影して読み上げる方法

Speechifyは世界で最も人気のあるオーディオリーダーです。書籍、ドキュメント、記事、PDF、メールなど、あらゆる読み物をより速く処理できます。

掲載メディア

forbes logocbs logotime magazine logonew york times logowall street logo
この記事をSpeechifyで聴く!
Speechify

写真のテキストを音声に変換する基本を学びましょう - ページを撮影して、どのモバイルやデスクトップデバイス、オペレーティングシステムでも読み上げる方法。

TTS リーダーは高い需要があり、供給も豊富です。しかし、それはすべての テキスト読み上げ 技術が同じ性能を発揮することを意味するのでしょうか?多くのTTSスクリーンリーダーは、Microsoft Word文書、HTMLウェブページ、または他のテキストファイルからコピーされた単語を処理できます。しかし、画像からロックされたデジタルおよび物理的なテキストを自然なナレーションに変換できるものは少数です。それを可能にするのが光学文字認識(OCR)です。

OCRとは?

OCR、光学文字認識またはテキスト認識として知られる技術は、専門的なデータ抽出のために設計されています。ビジネス用途が多く、娯楽やエンターテインメントにも広く利用されています。この技術には通常、2つのコンポーネントがあります。画像をスキャンするハードウェア要素と、データを抽出して再利用するソフトウェア要素です。しかし、最も興味深く複雑なのはソフトウェアコンポーネントです。OCRソフトウェアは、個々の文字や単語を特定し、それらを文に配置することができます。さらに、元のロックされたコンテンツを編集可能にし、PDFファイルのロックされたテキストコンテンツを編集するのと同様に扱うことができます。

OCRの仕組み

光学文字認識(OCR)は、スキャンされた紙の文書、PDFファイル、またはデジタルカメラで撮影された画像など、さまざまな種類の文書を編集可能で検索可能なデータに変換する技術です。このプロセスは、OCRソフトウェアが文書画像の構造を分析し、テキストを含む領域を検出することから始まります。次に、これらの領域を行、単語、文字に分割します。各文字は、事前に定義されたパターンセットと比較されるか、機械学習モデルでトレーニングされて識別され、機械でエンコードされたテキストに変換されます。この変換により、画像内のテキストを編集、検索、デジタル処理することが可能になります。

テキスト読み上げとOCRの組み合わせ

光学文字認識とテキスト読み上げ技術を組み合わせることで、アクセシビリティと効率を向上させる強力なツールが生まれます。OCRはスキャンされた文書、画像、または印刷物からテキストを抽出し、機械で読み取れるテキストに変換します。このテキストはTTSシステムに入力され、書かれた言葉を音声に変換します。このシナジーにより、視覚障害者が印刷物を「読む」のを支援したり、本や文書をオーディオブックに変換したり、印刷された外国語のテキストをリアルタイムで音声翻訳するなど、さまざまな用途が可能になります。OCRとTTSを統合することで、ユーザーはテキストコンテンツとより動的に対話でき、読み能力や視覚障害に関係なく、情報をよりアクセスしやすくします。

テキスト読み上げOCRの用途

OCRとTTS技術を組み合わせることで、さまざまなシナリオで情報をよりアクセスしやすく、消費しやすくする多くの可能性が開かれます。以下はテキスト読み上げOCRのいくつかの用途です:

  • 視覚障害者向け支援技術:書籍、文書、または画面からの書かれた内容を音声に変換し、視覚障害者や盲目の方がコンテンツを「読む」のを助けます。
  • 学習と教育:
    • ディスレクシアの学生支援:ディスレクシアや他の読書の課題を持つ学生を、書かれたテキストを音声に変換することで支援します。
    • マルチモーダル学習:学習者がコンテンツを読みながら聞くことができ、理解力と記憶力を向上させます。
  • 翻訳と語学学習:書かれた外国語のテキストを音声に変換し、発音と理解を助けます。
  • デジタルコンテンツの消費:書籍、ニュース記事、その他の印刷されたテキストコンテンツをオーディオブックやポッドキャストに変換し、移動中に消費できます。
  • 文書のアクセシビリティ:PDF、スキャンされた文書、その他の編集不可能な形式を、音声コンテンツを好むまたは必要とする人々にアクセス可能にします。
  • 歴史的文書の分析:古い原稿やアーカイブ文書を音声コンテンツに変換し、歴史的なテキストを聞きたい研究者や愛好家に提供します。
  • ビジネスと生産性:印刷された非デジタルレポートを音声コンテンツに変換し、忙しいプロフェッショナルに提供します。
  • 校正:作家や編集者が紙に書かれたコンテンツの誤りを聞くことで特定するのを助けます。
  • エンターテインメント:コミックブック、グラフィックノベル、または他の主に視覚的なメディアを聴覚体験に変換します。

写真からテキストを読み上げる方法

すべてのAppleやAndroidのモバイルデバイスユーザーが、自分のアプリにOCR技術や簡単なテキスト読み上げ変換タスクを実行できるTTSリーダーがあることを知っているわけではありません。内蔵のTTS機能は、無料で読み上げてくれるアプリのようなもの、またはカメラからテキストを読み取る無料アプリのようなものと考えてください。ただし、その品質はより高度なテキスト読み上げソフトウェアほど良くはありません。ここでは、AndroidおよびAppleデバイスで画像からテキストリーダーにアクセスする方法を紹介します:

Android

Androidデバイス、少なくともAndroid 12 OS以上を実行しているものには、内蔵のTTSリーダーが付属しています。これは、ナビゲーションや小さなフォントの読み取りなどに便利なツールです。しかし、写真からテキストを読み取るためにも使用できます。デバイスを設定する方法は次のとおりです:

  • 「設定」アプリから「アクセシビリティ」メニューに移動します。
  • 「選択して読み上げ」オプションを有効にします。
  • TTSリーダーの「設定」タブに移動し、「画像のテキストを読み上げる」オプションをオンにします。
  • ホーム画面に戻り、「カメラ」アプリを起動します。
  • カメラを本、新聞、またはデジタルテキストのある他の画面に向けます。
  • 「カメラ」アプリで単語をタップする前に「選択して読み上げ」ボタンをタップします。

TTS Androidリーダーは、ハイライトされた単語から読み上げを開始します。ワードプロセッサを使用する場合と同様に、画面上で指をドラッグしてテキストの一部を選択できます。

Apple

iPhoneで物理的なテキストを読み上げるには、動作するカメラ、iOS 15以上、および内蔵のTTSリーダーを有効にする必要があります。

  • 「設定」メニューから「アクセシビリティ」タブに移動します。
  • 「読み上げコンテンツ」機能をタップします。
  • 「選択項目を読み上げる」と「画面を読み上げる」オプションを有効にします。
  • ホーム画面に戻り、カメラをオンにします。
  • カメラをページに向け、下部ツールバーに「ライブテキスト」ボタンが表示されるのを待ちます。
  • ボタンをタップしてOCR画面読み取りを有効にします。
  • 2本の指で下にスワイプしてページの上から読み始めます。
  • 特定の単語、文、または段落を読み上げるために、画面上の単語をタップするか選択します。

Androidデバイスと同様に、iPadやiPhoneには限られたOCRおよびTTS機能があります。ワードプロセッシングの精度は平均以上ですが、音声の品質はロボット的な性質のため、期待外れです。

Speechify—最高のOCR技術を備えたTTS

モバイルデバイスに内蔵されたTTSリーダーやOCRソフトウェアは便利ですが、その品質と性能はあまり印象的ではありません。幸いなことに、代替のテキスト読み上げアプリがあります。Speechifyは、OCR技術と高品質なAI生成音声を組み合わせたテキスト読み上げリーダーです。その機能はデフォルトのモバイルテキストリーダーを超えており、物理的なテキストをデジタルテキストに変換するために本や物理的な文書全体をスキャンできます。そこから、複雑なアルゴリズムが自然な音声を生成し、希望の読み上げ速度に調整できます。Speechifyのテキスト読み上げソフトウェアは、以下のプラットフォームで利用可能です:

Apple App StoreやGoogle Play Storeから入手するか、デスクトップMac版やChromeブラウザ拡張機能をダウンロードするかに関わらず、1つのライセンスでデスクトップとモバイルデバイスのすべてでSpeechifyを使用できます。ユーザーフレンドリーなインターフェースは、あらゆる年齢層や技術的背景に訴求します。SpeechifyのOCRスキャンは、リアルタイムのオンライン読み取りに利用可能です。

ディスレクシア、読書障害、視覚障害を持つユーザーやマルチタスクを行う人々のために設計されたSpeechifyの支援技術は、通常のフルスクリーンリーダー以上のことを行います。デジタルおよび物理的なテキストをオーディオブックに変えたり、ポッドキャストを作成したり、より少ない労力で集中力を高めて読書スキルを向上させたりするためのアプリです。無料のSpeechifyテキスト読み上げアプリを試して、没入型の読書体験を個別に設定してください。

Cliff Weitzman

クリフ・ワイツマン

クリフ・ワイツマンはディスレクシアの提唱者であり、世界で最も人気のあるテキスト読み上げアプリ「Speechify」のCEO兼創設者です。このアプリは10万件以上の5つ星レビューを獲得し、App Storeのニュース&雑誌カテゴリーで1位にランクインしています。2017年には、学習障害を持つ人々にインターネットをよりアクセスしやすくする取り組みが評価され、Forbesの30 Under 30に選ばれました。クリフ・ワイツマンは、EdSurge、Inc.、PC Mag、Entrepreneur、Mashableなどの主要メディアで取り上げられています。