1. Pagrindinis
  2. Prieinamumas
  3. Nuotraukos teksto skaitymas garsiai – kaip nufotografuoti puslapį ir jį perskaityti balsu
Paskelbta Prieinamumas

Nuotraukos teksto skaitymas garsiai – kaip nufotografuoti puslapį ir jį perskaityti balsu

Cliff Weitzman

Cliff Weitzman

„Speechify“ generalinis direktorius / įkūrėjas

apple logo2025 m. Apple dizaino apdovanojimas
50 mln.+ vartotojų

TTS skaitytuvai labai paklausūs ir plačiai prieinami. Tačiau ar visos teksto į kalbą technologijos veikia vienodai? Dauguma TTS ekrano skaitytuvų perskaito skaitmeninį tekstą iš Word dokumentų, HTML puslapių ar nukopijuoto teksto. Tačiau tik nedaugelis gali paversti užrakintą skaitmeninį ar fizinį tekstą iš paveikslėlių į natūraliai skambančią kalbą. Tam naudojama optinio raidžių atpažinimo (OCR) technologija.

Paverskite bet kurį puslapį balsu

Kas yra OCR?

OCR, arba optinis simbolių atpažinimas (teksto atpažinimas), yra specializuotam duomenų išgavimui skirta technologija. Ji plačiai taikoma versle, laisvalaikiui ir pramogoms. Paprastai OCR sudaro dvi dalys: aparatinė įranga vaizdams skenuoti ir programinė įranga duomenims išgauti. Svarbiausia ir sudėtingiausia dalis – programinė įranga. Ji geba atskirti raides, žodžius ir sudėlioti sakinius. Tai leidžia redaguoti užrakintą tekstą, panašiai kaip redaguoti PDF failą su užrakintu turiniu.

Kaip veikia OCR

Optinis simbolių atpažinimas (OCR) – tai technologija, kuri paverčia įvairius dokumentus, pvz., nuskenuotus popierinius dokumentus, PDF ar nuotraukas iš kameros, į redaguojamą ir paieškai tinkamą tekstą. Procesas prasideda nuo dokumento vaizdo analizės, atrandant teksto sritis. Toliau jos suskaidomos į eilutes, žodžius ir raides. Kiekvienas simbolis lyginamas su šablonais arba atpažįstamas naudojant dirbtinį intelektą ir verčiamas į kompiuteriui suprantamą tekstą. Tai leidžia tekstą redaguoti, ieškoti ir tvarkyti skaitmeniniu būdu.

Teksto į kalbą ir OCR derinimas

Sujungus OCR ir kalbos sintezę gaunamas galingas įrankis, gerinantis prieinamumą ir efektyvumą. OCR išgauna tekstą iš nuskenuotų dokumentų, nuotraukų ar spausdintinės medžiagos ir paverčia jį mašinai suprantamu tekstu. Šį tekstą galima įkelti į TTS sistemą, kuri perskaito žodžius garsiai. Toks derinys tinka įvairioms sritims: padeda regos negalią turintiems žmonėms „skaityti“, paverčia knygas ar tekstus į audioknygas arba leidžia realiu laiku perteikti spaudinius garsu. Integravus OCR su TTS, naudotojams daug patogiau naudoti tekstinį turinį – informacija tampa prieinama visiems, nepaisant gebėjimo skaityti ar regėjimo.

Teksto į kalbą OCR panaudojimas

Sujungus OCR ir kalbos sintezę atsiveria daug galimybių patogiai pasiekti informaciją įvairiose situacijose. Štai keletas teksto į kalbą OCR panaudojimo būdų:

  • Pagalba regėjimo sutrikimų turintiems: paverčia tekstą iš knygų, dokumentų ar ekranų į garsą, padeda skaityti neregiams ir silpnaregiams.
  • Mokymasis ir švietimas:
    • Pagalba disleksiją turintiems: padeda disleksijos ar kitų skaitymo sunkumų turintiems mokiniams, paversdama tekstą į garsą.
    • Daugiamodalis mokymas: leidžia mokiniams skaityti ir klausytis, gerina supratimą ir įsiminimą.
  • Vertimas ir kalbų mokymasis: paverčia užsienio kalbos tekstą į garsą, padeda tarti ir suprasti.
  • Skaitmeninio turinio naudojimas: knygas, straipsnius bei kitą tekstą paverčia į audioknygas ar tinklalaides – galima klausytis kelyje.
  • Dokumentų prieinamumas: padaro PDF, skenuotus dokumentus ar kitus neredaguojamus failus prieinamus tiems, kas mieliau renkasi garsą.
  • Senų dokumentų analizė: senovinius rankraščius ar archyvus paverčia į garsinę formą tyrėjams ar mėgėjams, norintiems klausytis istorinio turinio.
  • Verslas ir produktyvumas: paverčia spausdintų ataskaitų tekstus į kalbą užimtiems profesionalams.
  • Redagavimo tikrinimas: padeda rašytojams ar redaktoriams pastebėti klaidas klausantis teksto balsu.
  • Pramogos: komiksai ar kita vizuali medija paverčiama į garsinę patirtį.

Kaip garsiai skaityti tekstą iš nuotraukos

Ne visi Apple ar Android naudotojai žino, kad jų įrenginiuose gali būti OCR ir TTS skaitytuvas, galintis paprastai paversti tekstą į garsą. Integruota TTS funkcija – tarsi nemokama skaitymo programa, galinti perskaityti tekstą iš kameros. Tačiau jų kokybė ne tokia gera kaip pažangesnių TTS įrankių. Štai kaip Android ir Apple įrenginiuose pasiekti nuotraukų teksto skaitytuvą:

Android

Android įrenginiai, bent jau su 12 ar naujesne OS, turi integruotą TTS skaitytuvą. Tai patogi funkcija navigacijai ir mažam šriftui, bet ją galima naudoti ir tekstui iš nuotraukų skaityti. Štai kaip paruošti įrenginį:

  • Programėlėje „Nustatymai“ atverkite skiltį „Prieinamumas“.
  • Įjunkite „Pasirinkti ir skaityti“ („Select to Speak“).
  • TTS skaitytuvo „Nustatymuose“ pažymėkite „Skaityti tekstą nuotraukose“.
  • Grįžkite į pradžios ekraną ir atsidarykite „Kamerą“.
  • Nukreipkite kamerą į knygą, laikraštį ar kitą tekstą turintį ekraną.
  • Spustelėkite „Pasirinkti ir skaityti“, tada bakstelėkite žodį „Kameros“ programoje.

TTS skaitytuvas pradės garsiai skaityti nuo pažymėto žodžio. Tekstą galite žymėti braukdami pirštu, kaip tekstų rengyklėje.

Apple

Norint naudoti iPhone garsiniam tekstų skaitymui, reikia veikiančios kameros, iOS 15 ar naujesnės versijos ir įjungto integruoto TTS skaitytuvo.

  • Nustatymuose atverkite „Prieinamumo“ skiltį.
  • Bakstelėkite „Skaitymas balsu“ („Spoken Content“).
  • Įjunkite „Skaityti pažymėtą“ ir „Skaityti ekraną“.
  • Grįžkite į pagrindinį ekraną ir įjunkite kamerą.
  • Nukreipkite kamerą į puslapį ir palaukite, kol apačioje pasirodys „Live Text“ mygtukas.
  • Spustelėkite, kad įjungtumėte OCR skaitymą.
  • Jei norite pradėti nuo pradžios, braukite dviem pirštais žemyn puslapio viršuje.
  • Bakstelėkite žodį ar pažymėkite dalį ekrane, kad būtent tą vietą perskaitytų garsiai.

Kaip ir Android, iPad ir iPhone turi ribotas OCR ir TTS galimybes. Nors tekstų nuskaitymo tikslumas geras, balsas skamba gana mechaniškai.

Speechify—geriausias TTS su OCR

Nors integruoti TTS skaitytuvai ir OCR programos patogūs, jų kokybė ir našumas nėra dideli. Tačiau yra ir kitas sprendimas – Speechify yra teksto į kalbą skaitytuvas, jungiantis pažangų OCR ir aukštos kokybės AI balsą. Jis gerokai pranoksta standartinius mobiliuosius skaitytuvus, gali nuskaityti knygas bei dokumentus ir paversti tekstą į skaitmeninį. Tuomet algoritmai sukuria natūraliai skambančius balsus, kuriuos galima pritaikyti pagal savo poreikius. Speechify teksto į kalbą programą galima įsigyti šioms platformoms:

Nesvarbu, ar programą atsisiųsite iš Apple App Store, Google Play, ar įdiegsite kompiuteryje ar kaip Chrome naršyklės plėtinį, vienos licencijos pakanka naudoti Speechify visuose įrenginiuose. Ja paprasta naudotis visoms amžiaus grupėms ir skirtingam techniniam pasirengimui. „Speechify“ OCR leidžia skaityti internetu realiu laiku.

Skirta disleksiją, skaitymo sutrikimų, regėjimo negalią turintiems ar daug veiklų vienu metu atliekantiems žmonėms, „Speechify“ gali daugiau nei įprastas ekrano skaitytuvas. Su šia programa bet kokį tekstą paversite audioknyga, kursite tinklalaides ar lavinsite skaitymo įgūdžius paprasčiau ir efektyviau. Išbandykite nemokamą Speechify teksto į kalbą programėlę ir susikurkite unikalią skaitymo patirtį. „Speechify“ turi ir internetinį dirbtinio balso generatorių — galite patys išbandyti balsus su bet kokiu įvestu tekstu.

Mėgaukitės pažangiausiais AI balsais, neribotu failų kiekiu ir 24/7 pagalba

Išbandyti nemokamai
tts banner for blog

Pasidalykite šiuo straipsniu

Cliff Weitzman

Cliff Weitzman

„Speechify“ generalinis direktorius / įkūrėjas

Cliff Weitzman – disleksijos šalininkas, „Speechify“ vadovas ir įkūrėjas. „Speechify“ – pirmaujanti pasaulyje teksto į kalbą programa, turinti daugiau nei 100 000 penkių žvaigždučių įvertinimų ir lyderiaujanti „App Store“ naujienų ir žurnalų kategorijoje. 2017 m. „Forbes“ jį įtraukė į „30 iki 30“ sąrašą už indėlį didinant interneto prieinamumą žmonėms su mokymosi sutrikimais. Apie jį rašė „EdSurge“, „Inc.“, „PC Mag“, „Entrepreneur“, „Mashable“ ir kt.

speechify logo

Apie Speechify

#1 teksto į kalbą skaitytuvas

Speechify yra pirmaujanti pasaulyje teksto į kalbą platforma, kuria pasitiki daugiau nei 50 milijonų vartotojų ir kurią pagrindžia daugiau nei 500 000 penkių žvaigždučių atsiliepimų skirtingose teksto į kalbą iOS, Android, Chrome plėtinio, internetinės programėlės ir Mac darbalaukio programose. 2025 m. Apple apdovanojo Speechify prestižiniu Apple dizaino apdovanojimu per WWDC, pavadindama jį „esminiu ištekliumi, padedančiu žmonėms gyventi visavertį gyvenimą“. Speechify siūlo daugiau nei 1 000 natūraliai skambančių balsų daugiau nei 60 kalbų ir naudojamas beveik 200 šalių. Tarp įžymybių balsų – Snoop Dogg ir Gwyneth Paltrow. Kūrėjams ir verslui Speechify Studio suteikia išplėstinius įrankius, tarp kurių yra AI balso generatorius, AI balso klonavimas, AI dubliavimas ir AI balso keitiklis. Speechify taip pat aprūpina pažangius produktus kokybišku ir ekonomišku teksto į kalbą API. Apie mus rašė The Wall Street Journal, CNBC, Forbes, TechCrunch ir kiti didieji naujienų portalai, todėl Speechify yra didžiausias teksto į kalbą teikėjas pasaulyje. Apsilankykite speechify.com/news, speechify.com/blog ir speechify.com/press ir sužinokite daugiau.