Social Proof

Foto till tal—Hur man tar en bild av en sida och får den uppläst

Speechify är världens främsta ljudläsare. Ta dig igenom böcker, dokument, artiklar, PDF-filer, e-post - allt du läser - snabbare.

Medverkat i

forbes logocbs logotime magazine logonew york times logowall street logo
Lyssna på denna artikel med Speechify!
Speechify

Lär dig grunderna i foto till tal - Hur man tar en bild av en sida och får den uppläst på vilken mobil eller stationär enhet och operativsystem som helst.

Foto till tal—Hur man tar en bild av en sida och får den uppläst

TTS-läsare är mycket efterfrågade och finns i stort utbud. Men betyder det att all text till tal-teknologi levererar samma prestanda? Många TTS-skärmläsare kan bearbeta digital text från Microsoft Word-dokument, HTML-webbsidor eller kopierade ord från andra textfiler. Men få av dem kan omvandla låst digital och fysisk text från bilder till naturligt ljudande berättelse. De som kan använder optisk teckenigenkänning (OCR).

Vad är OCR?

OCR, känt som optisk teckenigenkänning eller textigenkänning, är en teknologi designad för specialiserad datautvinning. Det har många affärsapplikationer och används flitigt inom fritid och underhållning. Denna typ av teknologi har vanligtvis två komponenter. Det finns en hårdvarudel för att skanna bilder och en mjukvarudel för att extrahera och återanvända data. Men mjukvarukomponenten är den mest spännande och komplexa delen. OCR-mjukvara kan urskilja enskilda bokstäver och hela ord och arrangera dem i meningar. Dessutom möjliggör det för användare att redigera det ursprungliga låsta innehållet, liknande att redigera en PDF-fil med låst textinnehåll.

Hur OCR fungerar

Den faktiska bearbetningen är fascinerande. Även om andra tvåfärgade metoder finns, konverterar OCR-mjukvara fysiska dokument till svartvita digitala kopior. Sedan analyserar OCR-appen mörka och ljusa områden i bilden, med vetskap om att de mörka områdena representerar tecken. Beroende på mjukvarans komplexitet kan den fokusera på tecken, ord eller textblock samtidigt. Därifrån identifierar mjukvaran tecken med hjälp av funktionsigenkänning eller mönsterigenkänningsalgoritmer. Funktionsdetekteringsalgoritmen använder en mer komplex process som involverar linje- och kurvassociation och ASCII-kodkonverteringar. Oavsett en OCR-apps algoritm kommer den också att analysera dokumentstrukturen för att skilja mellan text, tabeller, bilder och andra element. På så sätt är det enda som extraheras texten. Den största fördelen med denna teknologi är förmågan att ta pocketböcker, fysiska dokument och tryckta läroböcker och konvertera varje sida till en digital maskinläsbar text. Denna avancerade bearbetningsteknik är redan kraftfull i sig. Den kan automatisera dataregistreringsprocesser och effektivisera arbetsflöden i många branscher. Men den ger ännu fler fördelar när den kombineras med artificiell intelligens (AI) och maskininlärningsalgoritmer. AI-aktiverad OCR kan gå bortom standard textbearbetning och identifiera olika språk, handstilar, etc. Kombinerat med text till tal-teknologi kan OCR-mjukvara skanna fysiska dokument, bearbeta texten och låta en TTS läsare omvandla den digitala texten till tal.

Användningsområden för text till tal OCR

Att kombinera OCR och TTS-teknologier öppnar upp många möjligheter att göra information mer tillgänglig och lättare att konsumera i olika scenarier. Här är några användningsområden för text till tal OCR:

  • Hjälpteknologi för synskadade: Omvandlar skrivet innehåll från böcker, dokument eller skärmar till tal, vilket hjälper synskadade eller blinda individer att "läsa" innehållet.
  • Lärande och utbildning:
    • Hjälp för dyslektiska elever: Hjälper elever med dyslexi eller andra läsutmaningar genom att omvandla skriven text till ljud.
    • Multimodalt lärande: Gör det möjligt för elever att både läsa och lyssna på innehåll, vilket förbättrar förståelse och minne.
  • Översättning och språkinlärning: Omvandlar skriven text på främmande språk till tal, vilket hjälper med uttal och förståelse.
  • Digitalt innehållskonsumtion: Omvandlar böcker, nyhetsartiklar och annat tryckt textinnehåll till ljudböcker eller poddar för konsumtion på språng.
  • Dokumenttillgänglighet: Gör PDF-filer, skannade dokument och andra icke-redigerbara format tillgängliga för personer som föredrar eller behöver ljudinnehåll.
  • Historisk dokumentanalys: Omvandlar gamla manuskript eller arkivdokument till ljudinnehåll för forskare eller entusiaster som vill lyssna på historiska texter.
  • Affärer och produktivitet: Omvandlar tryckta icke-digitala rapporter till talat innehåll för upptagna yrkesverksamma.
  • Korrekturläsning: Hjälper författare eller redaktörer att identifiera misstag i skrivet innehåll på papper genom att lyssna på det.
  • Underhållning: Omvandlar serietidningar, grafiska romaner eller annan främst visuell media till en auditiv upplevelse.

Hur man läser text högt från en bild

Inte alla Apple- och Android-användare vet att deras appar kan ha OCR-teknologi och en TTS-läsare som kan utföra enkla text till tal-konverteringsuppgifter. Tänk på de inbyggda TTS-funktionerna som appar som läser för dig gratis eller som en gratis app som läser text från kameror, men deras kvalitet är inte lika bra som mer avancerad text till tal-mjukvara. Så här får du tillgång till textläsaren från bilder på Android- och Apple-enheter:

Android

Android-enheter, åtminstone de som kör Android 12 OS och senare, har en inbyggd TTS-läsare. Det är ett användbart verktyg för navigering, läsa små texter, etc. Men du kan också använda det för att läsa text från bilder. Så här ställer du in din enhet:

  • Gå till menyn "Tillgänglighet" via appen "Inställningar".
  • Aktivera alternativet "Välj för att tala".
  • Gå till TTS-läsarens flik "Inställningar" och slå på alternativet "Läs text på bilder".
  • Återgå till din startskärm och starta appen "Kamera".
  • Rikta kameran mot en bok, tidning eller annan skärm med digital text.
  • Tryck på knappen "Välj för att tala" innan du trycker på ett ord i appen "Kamera".

TTS-läsaren på Android börjar läsa upp från det markerade ordet. Du kan välja textstycken genom att dra fingret över skärmen för att göra ett urval, precis som när du använder ett ordbehandlingsprogram.

Apple

Att läsa fysisk text högt med en iPhone kräver en fungerande kamera, iOS 15 och senare, samt att aktivera den inbyggda TTS-läsaren.

  • Navigera till fliken "Tillgänglighet" från menyn "Inställningar".
  • Tryck på funktionen "Talad innehåll".
  • Aktivera alternativen "Tala markering" och "Tala skärm".
  • Gå tillbaka till startskärmen och slå på kameran.
  • Rikta kameran mot en sida och vänta på att knappen "Live Text" ska visas på den nedre verktygsfältet.
  • Tryck på knappen för att aktivera OCR-skärmläsning.
  • Svep ner med två fingrar för att börja läsa från toppen av sidan.
  • Tryck på ett ord eller gör ett urval på skärmen för att läsa upp ett specifikt ord, mening eller stycke.

Precis som Android-enheter har iPads och iPhones begränsade OCR- och TTS-funktioner. Även om noggrannheten i ordbehandlingen är över genomsnittet, är röstkvaliteten mindre imponerande på grund av dess robotliknande natur.

Speechify—Den bästa TTS med OCR-teknologi

Även om inbyggda TTS-läsare och OCR-programvara är trevliga att ha på mobila enheter, är deras kvalitet och prestanda mindre imponerande. Lyckligtvis har du ett alternativt läsprogram. Speechify är en text till tal-läsare som kombinerar OCR-teknologi och högkvalitativa AI-genererade röster. Dess funktionalitet överträffar standard mobila textläsare och kan skanna hela böcker och fysiska dokument för att bearbeta den fysiska texten till digital text. Därifrån genererar de komplexa algoritmerna naturligt ljudande röster som du kan kontrollera och justera till din önskade läshastighet. Speechify text till tal-programvara finns tillgänglig på följande plattformar:

Oavsett om du hämtar det från Apple App Store eller Google Play Store eller laddar ner Mac-versionen för skrivbordet eller Chrome-webbläsartillägget, räcker en licens för att använda Speechify på alla dina stationära och mobila enheter. Det användarvänliga gränssnittet tilltalar alla åldersgrupper och tekniska bakgrunder. Speechify OCR-skanningar är tillgängliga för realtidsläsning online. Alternativt kan du konvertera PDF-filer, skärmdumpar och andra bilder till ljudfiler med hög bitrate och lyssna på dem offline i din egen takt. Designad för användare med dyslexi, lässvårigheter, synnedsättning och multitaskers, Speechifys hjälpmedelsteknik gör mer än en typisk fullskärmsläsare. Det är appen du vill använda för att förvandla vilken digital och fysisk text som helst till en ljudbok, skapa podcasts och förbättra dina läsfärdigheter med mindre ansträngning och större fokus. Prova den kostnadsfria Speechify text till tal-appen och anpassa en uppslukande läsupplevelse. SEO Titel: Foto Text till Tal – Hur man tar en bild av en sida och får den uppläst SEO Beskrivning: Lär dig grunderna i foto text till tal - Hur man tar en bild av en sida och får den uppläst på vilken mobil eller stationär enhet och operativsystem som helst.

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman är en förespråkare för dyslexi och VD samt grundare av Speechify, världens främsta app för text-till-tal, med över 100 000 femstjärniga recensioner och förstaplats i App Store i kategorin Nyheter & Tidskrifter. År 2017 blev Weitzman utsedd till Forbes 30 under 30-lista för sitt arbete med att göra internet mer tillgängligt för personer med inlärningssvårigheter. Cliff Weitzman har blivit uppmärksammad i EdSurge, Inc., PC Mag, Entrepreneur, Mashable, bland andra ledande medier.