Social Proof

Foto-Text-zu-Sprache—Wie man ein Bild einer Seite aufnimmt und es vorlesen lässt

Speechify ist der weltweit führende Audio-Reader. Bewältigen Sie Bücher, Dokumente, Artikel, PDFs, E-Mails - alles, was Sie lesen - schneller.

Bekannt aus

forbes logocbs logotime magazine logonew york times logowall street logo
Diesen Artikel mit Speechify anhören!
Speechify

Erfahren Sie die Grundlagen der Foto-Text-zu-Sprache-Technologie - Wie man ein Bild einer Seite aufnimmt und es auf jedem mobilen oder Desktop-Gerät und Betriebssystem vorlesen lässt.

Foto-Text-zu-Sprache—Wie man ein Bild einer Seite aufnimmt und es vorlesen lässt

TTS-Leser sind sehr gefragt und reichlich vorhanden. Aber bedeutet das, dass alle Text-zu-Sprache-Technologien die gleiche Leistung erbringen? Viele TTS-Bildschirmleser können digitalen Text aus Microsoft Word-Dokumenten, HTML-Webseiten oder kopierten Wörtern aus anderen Textdateien verarbeiten. Aber nur wenige können gesperrten digitalen und physischen Text aus Bildern in natürlich klingende Erzählungen umwandeln. Diejenigen, die das können, verwenden optische Zeichenerkennung (OCR).

Was ist OCR?

OCR, bekannt als optische Zeichenerkennung oder Texterkennung, ist eine Technologie, die für spezialisierte Datenerfassung entwickelt wurde. Sie hat zahlreiche geschäftliche Anwendungen und wird häufig in Freizeit und Unterhaltung genutzt. Diese Art von Technologie hat normalerweise zwei Komponenten. Es gibt ein Hardware-Element zum Scannen von Bildern und ein Software-Element zur Extraktion und Umnutzung von Daten. Aber die Softwarekomponente ist der spannendste und komplexeste Teil. OCR-Software kann einzelne Buchstaben und ganze Wörter herausfiltern und sie zu Sätzen anordnen. Darüber hinaus ermöglicht sie es Benutzern, den ursprünglichen gesperrten Inhalt zu bearbeiten, ähnlich wie beim Bearbeiten einer PDF-Datei mit gesperrtem Textinhalt.

Wie OCR funktioniert

Die eigentliche Verarbeitung ist faszinierend. Obwohl es andere zweifarbige Methoden gibt, wandelt OCR-Software physische Dokumente in schwarz-weiße digitale Kopien um. Dann analysiert die OCR-App dunkle und helle Bereiche im Bild, wobei sie weiß, dass die dunklen Bereiche Zeichen darstellen. Je nach Komplexität der Software kann sie sich gleichzeitig auf Zeichen, Wörter oder Textblöcke konzentrieren. Von dort aus identifiziert die Software Zeichen mithilfe von Merkmalserkennungs- oder Mustererkennungsalgorithmen. Der Merkmalsdetektionsalgorithmus verwendet einen komplexeren Prozess, der Linien- und Kurvenassoziation und ASCII-Code-Konvertierungen umfasst. Unabhängig vom Algorithmus einer OCR-App analysiert sie auch die Dokumentstruktur, um zwischen Text, Tabellen, Bildern und anderen Elementen zu unterscheiden. So wird nur der Text extrahiert. Der Hauptvorteil dieser Technologie ist die Fähigkeit, Taschenbücher, physische Dokumente und gedruckte Lehrbücher in digitalen maschinenlesbaren Text umzuwandeln. Diese fortschrittliche Verarbeitungstechnik ist bereits für sich genommen leistungsstark. Sie kann Dateneingabeprozesse automatisieren und Arbeitsabläufe in vielen Branchen optimieren. In Kombination mit künstlicher Intelligenz (KI) und maschinellen Lernalgorithmen bietet sie jedoch noch mehr Vorteile. KI-gestützte OCR kann über die Standard-Textverarbeitung hinausgehen und verschiedene Sprachen, Handschriftstile usw. erkennen. In Kombination mit Text-zu-Sprache-Technologie kann OCR-Software physische Dokumente scannen, den Text verarbeiten und einem TTS -Leser ermöglichen, diesen digitalen Text in Sprache umzuwandeln.

Anwendungen für Text-zu-Sprache-OCR

Die Kombination von OCR- und TTS-Technologien eröffnet zahlreiche Möglichkeiten, Informationen in verschiedenen Szenarien zugänglicher und konsumierbarer zu machen. Hier sind einige Anwendungen für Text-zu-Sprache-OCR:

  • Assistive Technologie für Sehbehinderte: Wandelt schriftliche Inhalte aus Büchern, Dokumenten oder Bildschirmen in gesprochene Worte um und hilft sehbehinderten oder blinden Personen, den Inhalt zu "lesen".
  • Lernen und Bildung:
    • Hilfe für dyslexische Schüler: Unterstützt Schüler mit Dyslexie oder anderen Leseschwierigkeiten, indem geschriebener Text in Audio umgewandelt wird.
    • Multimodales Lernen: Ermöglicht es Lernenden, Inhalte sowohl zu lesen als auch zu hören, was das Verständnis und die Behaltensleistung verbessert.
  • Übersetzung und Sprachenlernen: Wandelt geschriebenen Fremdsprachentext in gesprochene Worte um und hilft bei der Aussprache und dem Verständnis.
  • Digitaler Medienkonsum: Wandelt Bücher, Nachrichtenartikel und andere gedruckte Textinhalte in Hörbücher oder Podcasts für den mobilen Konsum um.
  • Dokumentenzugänglichkeit: Macht PDFs, gescannte Dokumente und andere nicht bearbeitbare Formate für Menschen zugänglich, die Audioinhalte bevorzugen oder benötigen.
  • Analyse historischer Dokumente: Wandelt alte Manuskripte oder Archivdokumente in Audioinhalte um, für Forscher oder Enthusiasten, die historische Texte hören möchten.
  • Geschäft und Produktivität: Wandelt gedruckte, nicht-digitale Berichte in gesprochene Inhalte für vielbeschäftigte Fachleute um.
  • Korrekturlesen: Hilft Autoren oder Redakteuren, Fehler in geschriebenen Inhalten auf Papier zu identifizieren, indem sie diese anhören.
  • Unterhaltung: Wandelt Comics, Graphic Novels oder andere hauptsächlich visuelle Medien in ein auditives Erlebnis um.

Wie man Text aus einem Bild vorliest

Nicht jeder Apple- und Android-Mobilgerätbenutzer weiß, dass seine Apps möglicherweise über OCR-Technologie und einen TTS-Leser verfügen, die einfache Text-zu-Sprache-Konvertierungsaufgaben erledigen können. Betrachten Sie die integrierten TTS-Funktionen als Apps, die Ihnen kostenlos vorlesen, oder als eine kostenlose App, die Text von Kameras liest, obwohl ihre Qualität nicht so gut ist wie die fortschrittlicherer Text-zu-Sprache-Software. So greifen Sie auf den Textleser von Bildern auf Android- und Apple-Geräten zu:

Android

Android-Geräte, zumindest diejenigen mit Android 12 OS und höher, verfügen über einen integrierten TTS-Reader. Es ist ein nützliches Werkzeug für die Navigation, das Lesen kleiner Schriftarten usw. Aber Sie können es auch verwenden, um Text aus Bildern zu lesen. So richten Sie Ihr Gerät ein:

  • Gehen Sie über die App „Einstellungen“ zum Menü „Bedienungshilfen“.
  • Aktivieren Sie die Option „Zum Sprechen auswählen“.
  • Gehen Sie zum Tab „Einstellungen“ des TTS-Readers und schalten Sie die Option „Text auf Bildern lesen“ ein.
  • Kehren Sie zum Startbildschirm zurück und starten Sie die „Kamera“-App.
  • Richten Sie die Kamera auf ein Buch, eine Zeitung oder einen anderen Bildschirm mit digitalem Text.
  • Tippen Sie auf die Schaltfläche „Zum Sprechen auswählen“, bevor Sie in der „Kamera“-App auf ein Wort tippen.

Der TTS-Reader für Android beginnt mit dem Vorlesen ab dem hervorgehobenen Wort. Sie können Textabschnitte auswählen, indem Sie Ihren Finger über den Bildschirm ziehen, wie Sie es bei einem Textverarbeitungsprogramm tun würden.

Apple

Um physischen Text mit einem iPhone laut vorzulesen, benötigen Sie eine funktionierende Kamera, iOS 15 oder höher und die Aktivierung des integrierten TTS-Readers.

  • Navigieren Sie über das Menü „Einstellungen“ zum Tab „Bedienungshilfen“.
  • Tippen Sie auf die Funktion „Gesprochener Inhalt“.
  • Aktivieren Sie die Optionen „Auswahl sprechen“ und „Bildschirm sprechen“.
  • Gehen Sie zurück zum Startbildschirm und schalten Sie die Kamera ein.
  • Richten Sie die Kamera auf eine Seite und warten Sie, bis die Schaltfläche „Live Text“ in der unteren Symbolleiste erscheint.
  • Tippen Sie auf die Schaltfläche, um das OCR-Bildschirmlesen zu aktivieren.
  • Wischen Sie mit zwei Fingern nach unten, um vom oberen Rand der Seite zu lesen.
  • Tippen Sie auf ein Wort oder treffen Sie eine Auswahl auf dem Bildschirm, um ein bestimmtes Wort, einen Satz oder einen Absatz laut vorzulesen.

Wie Android-Geräte haben iPads und iPhones begrenzte OCR- und TTS-Fähigkeiten. Während die Genauigkeit der Textverarbeitung überdurchschnittlich ist, ist die Sprachqualität aufgrund ihrer robotischen Natur enttäuschend.

Speechify—Das beste TTS mit OCR-Technologie

Während integrierte TTS-Reader und OCR-Software auf mobilen Geräten schön zu haben sind, sind ihre Qualität und Leistung weniger beeindruckend. Glücklicherweise gibt es eine alternative Lese-App. Speechify ist ein Text-zu-Sprache-Reader, der OCR-Technologie und hochwertige, KI-generierte Stimmen kombiniert. Seine Funktionalität übertrifft die der standardmäßigen mobilen Textleser und kann ganze Bücher und physische Dokumente scannen, um den physischen Text in digitalen Text zu verwandeln. Von dort aus generieren die komplexen Algorithmen natürlich klingende Stimmen, die Sie an Ihre gewünschte Lesegeschwindigkeit anpassen können. Die Speechify Text-zu-Sprache-Software ist auf den folgenden Plattformen verfügbar:

Egal, ob Sie es aus dem Apple App Store oder Google Play Store beziehen oder die Desktop-Mac-Version oder die Chrome-Browsererweiterung herunterladen, eine Lizenz reicht aus, um Speechify auf all Ihren Desktop- und Mobilgeräten zu nutzen. Die benutzerfreundliche Oberfläche spricht alle Altersgruppen und technischen Hintergründe an. Speechify OCR-Scans sind für das Echtzeit-Online-Lesen verfügbar. Alternativ können Sie PDF-Dateien, Screenshots und andere Bilder in Audiodateien mit hoher Bitrate umwandeln und sie offline in Ihrem eigenen Tempo anhören. Entwickelt für Benutzer mit Legasthenie, Leseschwierigkeiten, Sehbehinderungen und Multitasker, bietet Speechifys unterstützende Technologie mehr als ein typischer Vollbildleser. Es ist die App, die Sie möchten, um jeden digitalen und physischen Text in ein Hörbuch zu verwandeln, Podcasts zu erstellen und Ihre Lesefähigkeiten mit weniger Aufwand und größerem Fokus zu verbessern. Probieren Sie die kostenlose Speechify Text-zu-Sprache-App aus und personalisieren Sie ein immersives Leseerlebnis. SEO-Titel: Foto-Text-zu-Sprache – Wie man ein Bild einer Seite macht und es laut vorlesen lässt SEO-Beschreibung: Erfahren Sie die Grundlagen der Foto-Text-zu-Sprache - Wie man ein Bild einer Seite macht und es auf jedem mobilen oder Desktop-Gerät und Betriebssystem laut vorlesen lässt.

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman ist ein Verfechter für Legasthenie und der CEO und Gründer von Speechify, der weltweit führenden Text-zu-Sprache-App mit über 100.000 5-Sterne-Bewertungen und dem ersten Platz im App Store in der Kategorie Nachrichten & Zeitschriften. 2017 wurde Weitzman für seine Arbeit, das Internet für Menschen mit Lernschwierigkeiten zugänglicher zu machen, in die Forbes 30 unter 30 Liste aufgenommen. Cliff Weitzman wurde in führenden Medien wie EdSurge, Inc., PC Mag, Entrepreneur und Mashable vorgestellt.