1. Hem
  2. Tillgänglighet
  3. Fototext till tal—Hur man tar en bild av en sida och får den uppläst
Social Proof

Fototext till tal—Hur man tar en bild av en sida och får den uppläst

Speechify är världens främsta ljudläsare. Ta dig igenom böcker, dokument, artiklar, PDF-filer, e-post - allt du läser - snabbare.

Medverkat i

forbes logocbs logotime magazine logonew york times logowall street logo
Lyssna på denna artikel med Speechify!
Speechify

Lär dig grunderna i fototext till tal - Hur man tar en bild av en sida och får den uppläst på vilken mobil eller stationär enhet och operativsystem som helst.

TTS-läsare är mycket efterfrågade och finns i stort utbud. Men betyder det att all text till tal-teknologi levererar samma prestanda? Många TTS-skärmläsare kan bearbeta digital text från Microsoft Word-dokument, HTML-webbsidor eller kopierade ord från andra textfiler. Men få av dem kan omvandla låst digital och fysisk text från bilder till naturligt ljudande berättelser. De som kan använder optisk teckenigenkänning (OCR).

Vad är OCR?

OCR, känt som optisk teckenigenkänning eller textigenkänning, är en teknologi utformad för specialiserad datautvinning. Den har många affärsapplikationer och används flitigt inom fritid och underhållning. Denna typ av teknologi har vanligtvis två komponenter. Den har en hårdvarudel för att skanna bilder och en mjukvarudel för att extrahera och återanvända data. Men mjukvarukomponenten är den mest spännande och komplexa delen. OCR-programvara kan urskilja enskilda bokstäver och hela ord och arrangera dem i meningar. Dessutom möjliggör den för användare att redigera det ursprungliga låsta innehållet, liknande att redigera en PDF-fil med låst textinnehåll.

Hur OCR Fungerar

Optisk teckenigenkänning (OCR) är en teknologi som omvandlar olika typer av dokument, såsom skannade pappersdokument, PDF-filer eller bilder tagna med en digitalkamera, till redigerbar och sökbar data. Processen börjar med att OCR-programvaran analyserar dokumentbildens struktur och identifierar områden som innehåller text. Den segmenterar sedan dessa områden i rader, ord och tecken. Varje tecken jämförs mot en uppsättning fördefinierade mönster eller tränas med maskininlärningsmodeller för att identifiera och omvandla dem till maskinkodad text. Denna omvandling gör det möjligt att redigera, söka och bearbeta texten i bilden digitalt.

Kombinera Text till Tal och OCR

Att kombinera optisk teckenigenkänning med text till tal-teknologi skapar ett kraftfullt verktyg som förbättrar tillgänglighet och effektivitet. OCR extraherar text från skannade dokument, bilder eller tryckt material och omvandlar det till maskinläsbar text. Denna text kan sedan matas in i ett TTS-system, som omvandlar de skrivna orden till talat ljud. Denna synergi möjliggör en mängd olika applikationer, såsom att hjälpa synskadade individer att "läsa" tryckt material, omvandla böcker och dokument till ljudböcker eller tillhandahålla realtidsljudöversättningar av tryckt utländsk text. Genom att integrera OCR med TTS kan användare interagera med textinnehåll mer dynamiskt, vilket gör information mer tillgänglig för alla, oavsett deras läsförmåga eller synnedsättning.

Användningsområden för Text till Tal OCR

Att kombinera OCR och TTS-teknologier öppnar upp många möjligheter att göra information mer tillgänglig och lättare att konsumera i olika scenarier. Här är några användningsområden för text till tal OCR:

  • Hjälpteknologi för synskadade: Omvandlar skrivet innehåll från böcker, dokument eller skärmar till tal, vilket hjälper synskadade eller blinda individer att "läsa" innehållet.
  • Lärande och utbildning:
    • Hjälp för dyslektiska elever: Hjälper elever med dyslexi eller andra läsutmaningar genom att omvandla skriven text till ljud.
    • Multimodalt lärande: Gör det möjligt för elever att både läsa och lyssna på innehåll, vilket förbättrar förståelse och minne.
  • Översättning och språkinlärning: Omvandlar skriven text på främmande språk till tal, vilket hjälper till med uttal och förståelse.
  • Digitalt innehållskonsumtion: Omvandlar böcker, nyhetsartiklar och annat tryckt textinnehåll till ljudböcker eller poddar för konsumtion på språng.
  • Dokumenttillgänglighet: Gör PDF-filer, skannade dokument och andra icke-redigerbara format tillgängliga för personer som föredrar eller behöver ljudinnehåll.
  • Historisk dokumentanalys: Omvandlar gamla manuskript eller arkivdokument till ljudinnehåll för forskare eller entusiaster som vill lyssna på historiska texter.
  • Affärs- och produktivitet: Omvandlar tryckta icke-digitala rapporter till talat innehåll för upptagna yrkesverksamma.
  • Korrekturläsning: Hjälper författare eller redaktörer att identifiera misstag i skrivet innehåll på papper genom att lyssna på det.
  • Underhållning: Omvandlar serietidningar, grafiska romaner eller annan främst visuell media till en auditiv upplevelse.

Hur man Läser Text Högt från en Bild

Inte alla användare av Apple- och Android-mobila enheter vet att deras appar kan ha OCR-teknik och en TTS-läsare som kan utföra enkla text-till-tal-omvandlingsuppgifter. Tänk på de inbyggda TTS-funktionerna som appar som läser för dig gratis eller som en gratis app som läser text från kameror, men deras kvalitet är inte lika bra som mer avancerad text-till-tal-programvara. Så här får du tillgång till textläsaren från bilder på Android- och Apple-enheter:

Android

Android-enheter, åtminstone de som kör Android 12 OS och senare, har en inbyggd TTS-läsare. Det är ett användbart verktyg för navigering, läsa små teckensnitt, etc. Men du kan också använda det för att läsa text från bilder. Så här ställer du in din enhet:

  • Gå till menyn "Tillgänglighet" via appen "Inställningar".
  • Aktivera alternativet "Välj för att tala".
  • Gå till TTS-läsarens flik "Inställningar" och slå på alternativet "Läs text på bilder".
  • Återgå till din startskärm och starta appen "Kamera".
  • Rikta kameran mot en bok, tidning eller en annan skärm med digital text.
  • Tryck på knappen "Välj för att tala" innan du trycker på ett ord i appen "Kamera".

TTS-läsaren på Android börjar läsa från det markerade ordet. Du kan välja textstycken genom att dra fingret över skärmen för att göra ett urval, precis som när du använder en ordbehandlare.

Apple

Att läsa fysisk text högt med en iPhone kräver en fungerande kamera, iOS 15 och senare, och att aktivera den inbyggda TTS-läsaren.

  • Navigera till fliken "Tillgänglighet" från menyn "Inställningar".
  • Tryck på funktionen "Talat innehåll".
  • Aktivera alternativen "Tala markering" och "Tala skärm".
  • Gå tillbaka till startskärmen och slå på kameran.
  • Rikta kameran mot en sida och vänta på att knappen "Live Text" ska visas på den nedre verktygsfältet.
  • Tryck på knappen för att aktivera OCR-skärmläsning.
  • Svep ner med två fingrar för att börja läsa från toppen av sidan.
  • Tryck på ett ord eller gör ett urval på skärmen för att läsa högt ett visst ord, mening eller stycke.

Precis som Android-enheter har iPads och iPhones begränsade OCR- och TTS-funktioner. Även om noggrannheten i ordbehandlingen är över genomsnittet, är röstkvaliteten inte imponerande på grund av dess robotliknande natur.

Speechify—Den bästa TTS med OCR-teknik

Även om inbyggda TTS-läsare och OCR-programvara är trevliga att ha på mobila enheter, är deras kvalitet och prestanda mindre imponerande. Lyckligtvis har du ett alternativt läsprogram. Speechify är en text-till-tal-läsare som kombinerar OCR-teknik och högkvalitativa AI-genererade röster. Dess funktionalitet överträffar standard mobila textläsare och kan skanna hela böcker och fysiska dokument för att bearbeta den fysiska texten till digital text. Därifrån genererar de komplexa algoritmerna naturligt ljudande röster som du kan kontrollera och justera till din önskade läshastighet. Speechify text-till-tal-programvara finns tillgänglig på följande plattformar:

Oavsett om du får det från Apple App Store eller Google Play Store eller laddar ner Mac-versionen för skrivbordet eller Chrome-webbläsartillägget, räcker en licens för att använda Speechify på alla dina stationära och mobila enheter. Det användarvänliga gränssnittet tilltalar alla åldersgrupper och tekniska bakgrunder. Speechify OCR-skanningar är tillgängliga för realtidsläsning online.

Designad för användare med dyslexi, lässvårigheter, synnedsättning och multitaskers, Speechifys hjälpmedelsteknik gör mer än en typisk helskärmsläsare. Det är appen du vill använda för att förvandla vilken digital och fysisk text som helst till en ljudbok, skapa podcasts och förbättra dina läsfärdigheter med mindre ansträngning och större fokus. Prova den gratis Speechify text-till-tal-appen och anpassa en uppslukande läsupplevelse.

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman är en förespråkare för dyslexi och VD samt grundare av Speechify, världens främsta app för text-till-tal, med över 100 000 femstjärniga recensioner och förstaplats i App Store i kategorin Nyheter & Tidskrifter. År 2017 blev Weitzman utsedd till Forbes 30 under 30-lista för sitt arbete med att göra internet mer tillgängligt för personer med inlärningssvårigheter. Cliff Weitzman har blivit uppmärksammad i EdSurge, Inc., PC Mag, Entrepreneur, Mashable, bland andra ledande medier.