Foto-tekst-til-tale—Hvordan ta bilde av en side og få den lest opp
Fremhevet i
Lær det grunnleggende om foto-tekst-til-tale - Hvordan ta bilde av en side og få den lest opp på hvilken som helst mobil- eller stasjonær enhet og operativsystem.
Foto-tekst-til-tale—Hvordan ta bilde av en side og få den lest opp
TTS-lesere er svært etterspurt og lett tilgjengelige. Men betyr det at all tekst-til-tale teknologi gir samme ytelse? Mange TTS-skjermlesere kan behandle digital tekst fra Microsoft Word-dokumenter, HTML-nettsider eller kopierte ord fra andre tekstfiler. Men få av dem kan konvertere låst digital og fysisk tekst fra bilder til naturlig lyd. De som kan, bruker optisk tegngjenkjenning (OCR).
Hva er OCR?
OCR, kjent som optisk tegngjenkjenning eller tekstgjenkjenning, er en teknologi designet for spesialisert datauttrekking. Den har mange forretningsapplikasjoner og brukes mye i fritid og underholdning. Denne typen teknologi har vanligvis to komponenter. Den har et maskinvareelement for å skanne bilder og et programvareelement for å trekke ut og gjenbruke data. Men programvarekomponenten er den mest spennende og komplekse delen. OCR-programvare kan skille ut individuelle bokstaver og hele ord og arrangere dem i setninger. I tillegg gjør det brukerne i stand til å redigere det opprinnelige låste innholdet, på samme måte som å redigere en PDF-fil med låst tekstinnhold.
Hvordan OCR fungerer
Den faktiske prosesseringen er fascinerende. Selv om andre to-farge metoder eksisterer, konverterer OCR-programvare fysiske dokumenter til svart-hvitt digitale kopier. Deretter analyserer OCR-appen mørke og lyse områder i bildet, vel vitende om at de mørke områdene representerer tegn. Avhengig av programvarens kompleksitet, kan den fokusere på tegn, ord eller tekstblokker samtidig. Derfra identifiserer programvaren tegn ved hjelp av funksjonsgjenkjenning eller mønstergjenkjenning algoritmer. Funksjonsdeteksjonsalgoritmen bruker en mer kompleks prosess som involverer linje- og kurveassosiasjon og ASCII-kodekonverteringer. Uansett en OCR-apps algoritme, vil den også analysere dokumentstrukturen for å skille mellom tekst, tabeller, bilder og andre elementer. På den måten er det bare teksten som blir trukket ut. Hovedfordelen med denne teknologien er evnen til å ta pocketbøker, fysiske dokumenter og trykte lærebøker og konvertere hver side til en digital maskinlesbar tekst. Denne avanserte prosesseringsteknikken er allerede kraftig i seg selv. Den kan automatisere dataregistreringsprosesser og effektivisere arbeidsflyter i mange bransjer. Imidlertid gir den enda flere fordeler når den kombineres med kunstig intelligens (AI) og maskinlæringsalgoritmer. AI-aktivert OCR kan gå utover standard tekstbehandling og identifisere forskjellige språk, håndskriftstiler, etc. Kombinert med tekst-til-tale teknologi, kan OCR-programvare skanne fysiske dokumenter, behandle teksten, og la en TTS leser gjøre den digitale teksten om til tale.
Bruksområder for tekst-til-tale OCR
Kombinasjonen av OCR og TTS-teknologier åpner for mange muligheter for å gjøre informasjon mer tilgjengelig og lett å konsumere i ulike situasjoner. Her er noen bruksområder for tekst-til-tale OCR:
- Hjelpeteknologi for synshemmede: Konverterer skriftlig innhold fra bøker, dokumenter eller skjermer til tale, og hjelper synshemmede eller blinde personer med å "lese" innholdet.
- Læring og utdanning:
- Hjelp for dyslektiske elever: Hjelper elever med dysleksi eller andre leseutfordringer ved å konvertere skriftlig tekst til lyd.
- Multimodal læring: Lar elever både lese og lytte til innhold, noe som forbedrer forståelse og hukommelse.
- Oversettelse og språklæring: Konverterer skriftlig fremmedspråk tekst til tale, noe som hjelper med uttale og forståelse.
- Digitalt innholdskonsum: Konverterer bøker, nyhetsartikler og annet trykt tekstinnhold til lydbøker eller podkaster for konsum på farten.
- Dokumenttilgjengelighet: Gjør PDF-er, skannede dokumenter og andre ikke-redigerbare formater tilgjengelige for folk som foretrekker eller trenger lydinnhold.
- Analyse av historiske dokumenter: Konverterer gamle manuskripter eller arkivdokumenter til lydinnhold for forskere eller entusiaster som vil lytte til historiske tekster.
- Forretning og produktivitet: Konverterer trykte ikke-digitale rapporter til taleinnhold for travle fagfolk.
- Korrekturlesing: Hjelper forfattere eller redaktører med å identifisere feil i skriftlig innhold på papir ved å lytte til det.
- Underholdning: Konverterer tegneserier, grafiske romaner eller andre primært visuelle medier til en auditiv opplevelse.
Hvordan lese tekst høyt fra et bilde
Ikke alle Apple- og Android-mobilbrukere vet at appene deres kan ha OCR-teknologi og en TTS-leser som kan utføre enkle tekst-til-tale konverteringsoppgaver. Tenk på de innebygde TTS-funksjonene som apper som vil lese for deg gratis eller som en gratis app som leser tekst fra kameraer, men kvaliteten deres er ikke like god som mer avansert tekst-til-tale programvare. Slik får du tilgang til tekstleseren fra bilder på Android- og Apple-enheter:
Android
Android-enheter, i det minste de som kjører Android 12 OS og nyere, har en innebygd TTS-leser. Det er et nyttig verktøy for navigasjon, lesing av små skrifttyper, osv. Men du kan også bruke det til å lese tekst fra bilder. Slik setter du opp enheten din:
- Gå til “Tilgjengelighet”-menyen via “Innstillinger”-appen.
- Aktiver “Velg for å snakke”-alternativet.
- Gå til TTS-leserens “Innstillinger”-fane og slå på “Les tekst på bilder”-alternativet.
- Gå tilbake til startskjermen og åpne “Kamera”-appen.
- Pek kameraet mot en bok, avis eller en annen skjerm med digital tekst.
- Trykk på “Velg for å snakke”-knappen før du trykker på et ord i “Kamera”-appen.
TTS Android-leseren vil begynne å lese fra det uthevede ordet. Du kan velge tekstbiter ved å dra fingeren over skjermen for å gjøre et utvalg, slik du ville gjort i et tekstbehandlingsprogram.
Apple
Å lese fysisk tekst høyt med en iPhone krever et fungerende kamera, iOS 15 og nyere, og aktivering av den innebygde TTS-leseren.
- Naviger til “Tilgjengelighet”-fanen fra “Innstillinger”-menyen.
- Trykk på funksjonen “Talt innhold”.
- Aktiver alternativene “Les opp markering” og “Les opp skjerm”.
- Gå tilbake til startskjermen og slå på kameraet.
- Pek kameraet mot en side og vent til “Live Text”-knappen vises på verktøylinjen nederst.
- Trykk på knappen for å aktivere OCR-skjermlesing.
- Sveip ned med to fingre for å begynne å lese fra toppen av siden.
- Trykk på et ord eller gjør et utvalg på skjermen for å lese høyt et bestemt ord, setning eller avsnitt.
Som Android-enheter har iPads og iPhones begrensede OCR- og TTS-funksjoner. Selv om nøyaktigheten i tekstbehandlingen er over gjennomsnittet, er stemmekvaliteten skuffende på grunn av dens robotaktige natur.
Speechify—Den beste TTS med OCR-teknologi
Selv om innebygde TTS-lesere og OCR-programvare er fine å ha på mobile enheter, er kvaliteten og ytelsen mindre imponerende. Heldigvis har du et alternativt leseapp. Speechify er en tekst-til-tale-leser som kombinerer OCR-teknologi og høykvalitets AI-genererte stemmer. Dens funksjonalitet overgår standard mobiltekstlesere og kan skanne hele bøker og fysiske dokumenter for å prosessere den fysiske teksten til digital tekst. Derfra genererer de komplekse algoritmene naturlig klingende stemmer som du kan kontrollere og justere til ønsket lesetempo. Speechify tekst-til-tale-programvare er tilgjengelig på følgende plattformer:
Enten du får det fra Apple App Store eller Google Play Store, eller laster ned skrivebordsversjonen for Mac eller Chrome-nettleserutvidelsen, er én lisens nok til å bruke Speechify på alle dine stasjonære og mobile enheter. Det brukervennlige grensesnittet appellerer til alle aldersgrupper og tekniske bakgrunner. Speechify OCR-skanninger er tilgjengelige for sanntids online lesing. Alternativt kan du konvertere PDF-filer, skjermbilder og andre bilder til lydfiler med høy bitrate og lytte til dem offline i ditt eget tempo. Designet for brukere med dysleksi, lesevansker, synshemming og multitaskere, gjør Speechifys hjelpemiddelteknologi mer enn en typisk fullskjermleser. Det er appen du vil bruke for å gjøre enhver digital og fysisk tekst om til en lydbok, lage podkaster og forbedre leseferdighetene dine med mindre innsats og større fokus. Prøv den gratis Speechify tekst-til-tale-appen og tilpass en oppslukende leseopplevelse. SEO-tittel: Foto-tekst til tale – Hvordan ta et bilde av en side og få det lest høyt SEO-beskrivelse: Lær det grunnleggende om foto-tekst til tale - Hvordan ta et bilde av en side og få det lest høyt på hvilken som helst mobil- eller stasjonær enhet og operativsystem.
Cliff Weitzman
Cliff Weitzman er en forkjemper for dysleksi og administrerende direktør og grunnlegger av Speechify, verdens ledende app for tekst-til-tale, med over 100 000 femstjerners anmeldelser og førsteplass i App Store i kategorien Nyheter og Magasiner. I 2017 ble Weitzman kåret til Forbes 30 under 30-listen for sitt arbeid med å gjøre internett mer tilgjengelig for personer med lærevansker. Cliff Weitzman har blitt omtalt i EdSurge, Inc., PC Mag, Entrepreneur, Mashable, blant andre ledende medier.