- Domů
- Přístupnost
- Text na řeč z fotografie—Jak vyfotit stránku a nechat si ji přečíst nahlas
Text na řeč z fotografie—Jak vyfotit stránku a nechat si ji přečíst nahlas
Uváděno v
Naučte se základy převodu textu z fotografie na řeč - Jak vyfotit stránku a nechat si ji přečíst nahlas na jakémkoli mobilním nebo stolním zařízení a operačním systému.
TTS čtečky jsou velmi žádané a dostupné. Znamená to ale, že všechny technologie převodu textu na řeč poskytují stejný výkon? Mnoho TTS čteček obrazovky dokáže zpracovat digitální text z dokumentů Microsoft Word, HTML webových stránek nebo zkopírovaných slov z jiných textových souborů. Ale jen málo z nich umí převést uzamčený digitální a fyzický text z obrázků do přirozeně znějícího vyprávění. Ty, které to umí, používají optické rozpoznávání znaků (OCR).
Co je OCR?
OCR, známé jako optické rozpoznávání znaků nebo rozpoznávání textu, je technologie navržená pro specializovanou extrakci dat. Má mnoho obchodních aplikací a široké využití v oblasti zábavy a volného času. Tento typ technologie obvykle obsahuje dvě složky. Má hardwarový prvek pro skenování obrázků a softwarový prvek pro extrakci a přepracování dat. Ale softwarová složka je nejzajímavější a nejkomplexnější část. OCR software dokáže rozpoznat jednotlivá písmena a celá slova a uspořádat je do vět. Navíc umožňuje uživatelům upravovat původní uzamčený obsah, podobně jako úpravu PDF souboru s uzamčeným textem.
Jak OCR funguje
Optické rozpoznávání znaků (OCR) je technologie, která převádí různé typy dokumentů, jako jsou skenované papírové dokumenty, PDF soubory nebo obrázky pořízené digitálním fotoaparátem, na editovatelná a prohledávatelná data. Proces začíná analýzou struktury obrazu dokumentu OCR softwarem, který detekuje oblasti obsahující text. Poté tyto oblasti segmentuje na řádky, slova a znaky. Každý znak je porovnáván s předem definovanými vzory nebo trénován pomocí modelů strojového učení, aby byl identifikován a převeden na strojově kódovaný text. Tato konverze umožňuje text v obrázku upravovat, prohledávat a digitálně zpracovávat.
Kombinace textu na řeč a OCR
Kombinace optického rozpoznávání znaků s technologií převodu textu na řeč vytváří mocný nástroj, který zvyšuje přístupnost a efektivitu. OCR extrahuje text ze skenovaných dokumentů, obrázků nebo tištěných materiálů a převádí jej na strojově čitelný text. Tento text pak může být vložen do systému TTS, který převádí psaná slova na mluvený zvuk. Tato synergie umožňuje širokou škálu aplikací, jako je pomoc zrakově postiženým osobám "číst" tištěné materiály, převod knih a dokumentů na audioknihy nebo poskytování zvukových překladů tištěných cizojazyčných textů v reálném čase. Integrací OCR s TTS mohou uživatelé interagovat s textovým obsahem dynamičtěji, což činí informace přístupnější pro každého, bez ohledu na jejich schopnost čtení nebo zrakové postižení.
Využití textu na řeč OCR
Kombinace technologií OCR a TTS otevírá mnoho možností, jak učinit informace přístupnějšími a snadněji konzumovatelnými v různých situacích. Zde je několik využití textu na řeč OCR:
- Asistenční technologie pro zrakově postižené: Převádí psaný obsah z knih, dokumentů nebo obrazovek na mluvené slovo, což pomáhá zrakově postiženým nebo nevidomým osobám "číst" obsah.
- Učení a vzdělávání:
- Pomoc pro dyslektické studenty: Pomáhá studentům s dyslexií nebo jinými problémy s čtením převodem psaného textu na zvuk.
- Multimodální učení: Umožňuje studentům číst i poslouchat obsah, což zlepšuje porozumění a zapamatování.
- Překlad a učení jazyků: Převádí psaný text v cizím jazyce na mluvené slovo, což pomáhá s výslovností a porozuměním.
- Spotřeba digitálního obsahu: Převádí knihy, novinové články a další tištěný textový obsah na audioknihy nebo podcasty pro poslech na cestách.
- Přístupnost dokumentů: Umožňuje přístup k PDF, skenovaným dokumentům a dalším needitovatelným formátům lidem, kteří preferují nebo potřebují zvukový obsah.
- Analýza historických dokumentů: Převádí staré rukopisy nebo archivní dokumenty na zvukový obsah pro výzkumníky nebo nadšence, kteří chtějí poslouchat historické texty.
- Obchod a produktivita: Převádí tištěné nedigitální zprávy na mluvený obsah pro zaneprázdněné profesionály.
- Korektura: Pomáhá spisovatelům nebo editorům identifikovat chyby v psaném obsahu na papíře tím, že jej poslouchají.
- Zábava: Převádí komiksy, grafické romány nebo jiná převážně vizuální média na zvukový zážitek.
Jak číst text nahlas z obrázku
Ne každý uživatel mobilních zařízení Apple a Android ví, že jejich aplikace mohou mít technologii OCR a čtečku TTS schopnou provádět jednoduché úkoly převodu textu na řeč. Vestavěné funkce TTS můžete považovat za aplikace, které vám budou číst zdarma, nebo jako bezplatnou aplikaci, která čte text z kamer, avšak jejich kvalita není tak dobrá jako u pokročilejšího softwaru pro převod textu na řeč. Zde je návod, jak přistupovat k čtečce textu z obrázků na zařízeních Android a Apple:
Android
Zařízení Android, alespoň ta s operačním systémem Android 12 a vyšším, mají vestavěnou čtečku TTS. Je to užitečný nástroj pro navigaci, čtení malých písem atd. Můžete ji však také použít k čtení textu z obrázků. Zde je návod, jak nastavit vaše zařízení:
- Přejděte do nabídky „Usnadnění“ prostřednictvím aplikace „Nastavení“.
- Povolte možnost „Vybrat a číst“.
- Přejděte na kartu „Nastavení“ čtečky TTS a zapněte možnost „Číst text na obrázcích“.
- Vraťte se na domovskou obrazovku a spusťte aplikaci „Fotoaparát“.
- Namiřte fotoaparát na knihu, noviny nebo jinou obrazovku s digitálním textem.
- Klepněte na tlačítko „Vybrat a číst“ před klepnutím na slovo v aplikaci „Fotoaparát“.
Čtečka TTS pro Android začne vyprávět od zvýrazněného slova. Můžete vybrat části textu přetažením prstu po obrazovce, stejně jako při používání textového editoru.
Apple
Čtení fyzického textu nahlas pomocí iPhonu vyžaduje funkční fotoaparát, iOS 15 a vyšší a povolení vestavěné čtečky TTS.
- Přejděte na kartu „Usnadnění“ z nabídky „Nastavení“.
- Klepněte na funkci „Mluvený obsah“.
- Povolte možnosti „Mluvit výběr“ a „Mluvit obrazovku“.
- Vraťte se na domovskou obrazovku a zapněte fotoaparát.
- Namiřte fotoaparát na stránku a počkejte, až se na spodní liště objeví tlačítko „Živý text“.
- Klepněte na tlačítko pro povolení čtení obrazovky pomocí OCR.
- Přejeďte dvěma prsty dolů, abyste začali číst od horní části stránky.
- Klepněte na slovo nebo vyberte část na obrazovce, abyste nahlas přečetli konkrétní slovo, větu nebo odstavec.
Stejně jako zařízení Android, iPady a iPhony mají omezené schopnosti OCR a TTS. Přesnost zpracování textu je nadprůměrná, ale kvalita hlasu je zklamáním kvůli jeho robotické povaze.
Speechify—Nejlepší TTS s technologií OCR
I když je vestavěné čtečky TTS a software OCR na mobilních zařízeních příjemné mít, jejich kvalita a výkon nejsou příliš působivé. Naštěstí máte alternativní aplikaci pro čtení textu. Speechify je čtečka textu na řeč, která kombinuje technologii OCR a vysoce kvalitní hlasy generované umělou inteligencí. Její funkčnost převyšuje výchozí mobilní čtečky textu a může skenovat celé knihy a fyzické dokumenty, aby zpracovala fyzický text na digitální text. Odtud složité algoritmy generují přirozeně znějící hlasy, které můžete ovládat a přizpůsobit si rychlost čtení podle svých potřeb. Software Speechify pro převod textu na řeč je dostupný na následujících platformách:
Ať už ji získáte z Apple App Store nebo Google Play Store, nebo si stáhnete desktopovou verzi pro Mac nebo rozšíření pro prohlížeč Chrome, jedna licence stačí k použití Speechify na všech vašich stolních a mobilních zařízeních. Uživatelsky přívětivé rozhraní oslovuje všechny věkové skupiny a technické zázemí. Skenování OCR pomocí Speechify je k dispozici pro online čtení v reálném čase.
Navrženo pro uživatele s dyslexií, poruchami čtení, zrakovým postižením a multitaskery, asistivní technologie Speechify dělá více než typická čtečka celé obrazovky. Je to aplikace, kterou chcete použít k přeměně jakéhokoli digitálního a fyzického textu na audioknihu, vytváření podcastů a zlepšování vašich čtenářských dovedností s menším úsilím a větším soustředěním. Vyzkoušejte bezplatnou aplikaci Speechify pro převod textu na řeč a personalizujte si pohlcující čtenářský zážitek.
Cliff Weitzman
Cliff Weitzman je zastáncem dyslexie a CEO a zakladatelem Speechify, nejpopulárnější aplikace pro převod textu na řeč na světě, s více než 100 000 pětihvězdičkovými recenzemi a první příčkou v App Store v kategorii Zprávy a časopisy. V roce 2017 byl Weitzman zařazen na seznam Forbes 30 pod 30 za svou práci na zpřístupnění internetu lidem s poruchami učení. Cliff Weitzman byl uveden v EdSurge, Inc., PC Mag, Entrepreneur, Mashable a dalších předních médiích.