फोटो टेक्स्ट टू स्पीच—कैसे एक पेज की तस्वीर लें और उसे जोर से पढ़वाएं
प्रमुख प्रकाशनों में
फोटो टेक्स्ट टू स्पीच की मूल बातें जानें - कैसे किसी पेज की तस्वीर लें और उसे किसी भी मोबाइल या डेस्कटॉप डिवाइस और ऑपरेटिंग सिस्टम पर जोर से पढ़वाएं।
फोटो टेक्स्ट टू स्पीच—कैसे एक पेज की तस्वीर लें और उसे जोर से पढ़वाएं
टीटीएस रीडर्स की मांग और आपूर्ति दोनों ही अधिक है। लेकिन क्या इसका मतलब है कि सभी टेक्स्ट टू स्पीच तकनीक समान प्रदर्शन देती है? कई टीटीएस स्क्रीन रीडर्स माइक्रोसॉफ्ट वर्ड दस्तावेज़ों, एचटीएमएल वेब पेजों, या अन्य टेक्स्ट फाइलों से कॉपी-पेस्ट किए गए शब्दों से डिजिटल टेक्स्ट को प्रोसेस कर सकते हैं। लेकिन उनमें से कुछ ही छवियों से लॉक किए गए डिजिटल और भौतिक टेक्स्ट को प्राकृतिक ध्वनि में बदल सकते हैं। जो ऐसा करते हैं, वे ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) का उपयोग करते हैं।
ओसीआर क्या है?
ओसीआर, जिसे ऑप्टिकल कैरेक्टर रिकग्निशन या टेक्स्ट रिकग्निशन के रूप में जाना जाता है, विशेष डेटा निष्कर्षण के लिए डिज़ाइन की गई एक तकनीक है। इसका कई व्यावसायिक अनुप्रयोगों में उपयोग होता है और मनोरंजन में भी इसका काफी उपयोग होता है। इस प्रकार की तकनीक में आमतौर पर दो घटक होते हैं। इसमें छवियों को स्कैन करने के लिए एक हार्डवेयर तत्व होता है और डेटा को निकालने और पुनः उपयोग करने के लिए एक सॉफ़्टवेयर तत्व होता है। लेकिन सॉफ़्टवेयर घटक सबसे रोमांचक और जटिल हिस्सा है। ओसीआर सॉफ़्टवेयर व्यक्तिगत अक्षरों और पूरे शब्दों को अलग कर सकता है और उन्हें वाक्यों में व्यवस्थित कर सकता है। इसके अलावा, यह उपयोगकर्ताओं को मूल लॉक किए गए सामग्री को संपादित करने की अनुमति देता है, जैसे कि लॉक किए गए टेक्स्ट सामग्री के साथ पीडीएफ फाइल को संपादित करना।
ओसीआर कैसे काम करता है
वास्तविक प्रोसेसिंग बहुत ही दिलचस्प है। हालांकि अन्य दो-रंग विधियाँ मौजूद हैं, ओसीआर सॉफ़्टवेयर भौतिक दस्तावेज़ों को काले और सफेद डिजिटल प्रतियों में बदल देता है। फिर, ओसीआर ऐप छवि में गहरे और हल्के क्षेत्रों का विश्लेषण करता है, यह जानते हुए कि गहरे क्षेत्र अक्षरों का प्रतिनिधित्व करते हैं। सॉफ़्टवेयर की जटिलता के आधार पर, यह एक साथ अक्षरों, शब्दों, या टेक्स्ट के ब्लॉकों पर ध्यान केंद्रित कर सकता है। वहां से, सॉफ़्टवेयर फीचर रिकग्निशन या पैटर्न रिकग्निशन एल्गोरिदम का उपयोग करके अक्षरों की पहचान करता है। फीचर डिटेक्शन एल्गोरिदम एक अधिक जटिल प्रक्रिया का उपयोग करता है जिसमें लाइन और कर्व एसोसिएशन और एएससीआईआई कोड रूपांतरण शामिल हैं। किसी भी ओसीआर ऐप के एल्गोरिदम के बावजूद, यह दस्तावेज़ संरचना का भी विश्लेषण करेगा ताकि टेक्स्ट, तालिकाओं, चित्रों, और अन्य तत्वों के बीच अंतर किया जा सके। इस तरह, केवल टेक्स्ट ही निकाला जाता है। इस तकनीक का मुख्य लाभ यह है कि यह पेपरबैक उपन्यासों, भौतिक दस्तावेज़ों, और हार्ड कॉपी पाठ्यपुस्तकों को डिजिटल मशीन-पठनीय टेक्स्ट में बदल सकता है। यह उन्नत प्रोसेसिंग तकनीक अपने आप में पहले से ही शक्तिशाली है। यह कई उद्योगों में डेटा एंट्री प्रक्रियाओं को स्वचालित कर सकता है और वर्कफ्लो को सुव्यवस्थित कर सकता है। हालांकि, जब इसे कृत्रिम बुद्धिमत्ता (एआई) और मशीन-लर्निंग एल्गोरिदम के साथ जोड़ा जाता है, तो यह और भी अधिक लाभ प्रदान करता है। एआई-सक्षम ओसीआर मानक टेक्स्ट प्रोसेसिंग से परे जा सकता है और विभिन्न भाषाओं, हस्तलेख शैलियों, आदि की पहचान कर सकता है। टेक्स्ट टू स्पीच तकनीक के साथ मिलकर, ओसीआर सॉफ़्टवेयर भौतिक दस्तावेज़ों को स्कैन कर सकता है, टेक्स्ट को प्रोसेस कर सकता है, और एक टीटीएस रीडर को उस डिजिटल टेक्स्ट को स्पीच में बदलने की अनुमति देता है।
टेक्स्ट टू स्पीच ओसीआर के उपयोग
ओसीआर और टीटीएस तकनीकों को मिलाकर विभिन्न परिदृश्यों में जानकारी को अधिक सुलभ और उपभोग्य बनाने के लिए कई संभावनाएं खुलती हैं। टेक्स्ट टू स्पीच ओसीआर के कुछ उपयोग यहां दिए गए हैं:
- दृष्टिहीनों के लिए सहायक तकनीक: पुस्तकों, दस्तावेज़ों, या स्क्रीन से लिखित सामग्री को बोले गए शब्द में बदलता है, जिससे दृष्टिहीन या अंधे व्यक्तियों को सामग्री "पढ़ने" में मदद मिलती है।
- शिक्षा और सीखना:
- डिस्लेक्सिक छात्रों के लिए सहायता: डिस्लेक्सिया या अन्य पढ़ने की चुनौतियों वाले छात्रों की मदद करता है, लिखित टेक्स्ट को ऑडियो में बदलकर।
- मल्टीमॉडल लर्निंग: शिक्षार्थियों को सामग्री को पढ़ने और सुनने दोनों की अनुमति देता है, जिससे समझ और स्मरणशक्ति में सुधार होता है।
- अनुवाद और भाषा सीखना: लिखित विदेशी भाषा के टेक्स्ट को बोले गए शब्द में बदलता है, उच्चारण और समझ में मदद करता है।
- डिजिटल सामग्री उपभोग: पुस्तकों, समाचार लेखों, और अन्य मुद्रित टेक्स्ट सामग्री को ऑडियोबुक्स या पॉडकास्ट में बदलता है, चलते-फिरते उपभोग के लिए।
- दस्तावेज़ पहुंच: पीडीएफ, स्कैन किए गए दस्तावेज़ों, और अन्य गैर-संपादन योग्य प्रारूपों को उन लोगों के लिए सुलभ बनाता है जो ऑडियो सामग्री को पसंद या आवश्यकता रखते हैं।
- ऐतिहासिक दस्तावेज़ विश्लेषण: पुराने पांडुलिपियों या अभिलेखीय दस्तावेज़ों को ऑडियो सामग्री में बदलता है, शोधकर्ताओं या उत्साही लोगों के लिए जो ऐतिहासिक पाठ सुनना चाहते हैं।
- व्यवसाय और उत्पादकता: मुद्रित गैर-डिजिटल रिपोर्टों को व्यस्त पेशेवरों के लिए बोले गए सामग्री में बदलता है।
- प्रूफरीडिंग: लेखकों या संपादकों को कागज पर लिखित सामग्री में गलतियों की पहचान करने में मदद करता है, उसे सुनकर।
- मनोरंजन: कॉमिक बुक्स, ग्राफिक नॉवेल्स, या अन्य मुख्य रूप से दृश्य मीडिया को श्रव्य अनुभव में बदलता है।
तस्वीर से टेक्स्ट को जोर से कैसे पढ़ें
हर एप्पल और एंड्रॉइड मोबाइल डिवाइस उपयोगकर्ता नहीं जानता कि उनके ऐप्स में ओसीआर तकनीक और एक टीटीएस रीडर हो सकता है जो सरल टेक्स्ट टू स्पीच रूपांतरण कार्यों को पूरा कर सकता है। इनबिल्ट टीटीएस फीचर्स को ऐसे ऐप्स के रूप में मानें जो आपको मुफ्त में पढ़ेंगे या जैसे एक मुफ्त ऐप जो कैमरों से टेक्स्ट पढ़ता है, हालांकि उनकी गुणवत्ता अधिक उन्नत टेक्स्ट टू स्पीच सॉफ़्टवेयर जितनी अच्छी नहीं है। यहां बताया गया है कि एंड्रॉइड और एप्पल डिवाइस पर छवियों से टेक्स्ट रीडर तक कैसे पहुंचें:
एंड्रॉइड
एंड्रॉइड डिवाइस, विशेष रूप से वे जो एंड्रॉइड 12 ओएस और उससे ऊपर चल रहे हैं, में एक बिल्ट-इन टीटीएस रीडर होता है। यह नेविगेशन, छोटे फॉन्ट पढ़ने आदि के लिए एक उपयोगी उपकरण है। लेकिन आप इसे तस्वीरों से टेक्स्ट पढ़ने के लिए भी उपयोग कर सकते हैं। यहां बताया गया है कि अपने डिवाइस को कैसे सेट करें:
- “सेटिंग्स” ऐप के माध्यम से “एक्सेसिबिलिटी” मेनू पर जाएं।
- “सेलेक्ट टू स्पीक” विकल्प को सक्षम करें।
- टीटीएस रीडर के “सेटिंग्स” टैब पर जाएं और “छवियों पर टेक्स्ट पढ़ें” विकल्प चालू करें।
- अपने होम स्क्रीन पर वापस जाएं और “कैमरा” ऐप लॉन्च करें।
- कैमरा को एक किताब, अखबार, या डिजिटल टेक्स्ट वाली किसी अन्य स्क्रीन पर इंगित करें।
- “कैमरा” ऐप में किसी शब्द पर टैप करने से पहले “सेलेक्ट टू स्पीक” बटन पर टैप करें।
टीटीएस एंड्रॉइड रीडर हाइलाइट किए गए शब्द से वर्णन करना शुरू कर देगा। आप स्क्रीन पर अपनी उंगली खींचकर टेक्स्ट के हिस्सों का चयन कर सकते हैं, जैसे कि आप वर्ड प्रोसेसर का उपयोग करते समय करते हैं।
एप्पल
आईफोन का उपयोग करके भौतिक टेक्स्ट को जोर से पढ़ने के लिए एक कार्यशील कैमरा, iOS 15 और उससे ऊपर की आवश्यकता होती है, और बिल्ट-इन टीटीएस रीडर को सक्षम करना होता है।
- “सेटिंग्स” मेनू से “एक्सेसिबिलिटी” टैब पर जाएं।
- “स्पोकन कंटेंट” फीचर पर टैप करें।
- “स्पीक सेलेक्शन” और “स्पीक स्क्रीन” विकल्पों को सक्षम करें।
- होम स्क्रीन पर वापस जाएं और कैमरा चालू करें।
- कैमरा को एक पृष्ठ पर इंगित करें और निचले टूलबार पर “लाइव टेक्स्ट” बटन के प्रकट होने की प्रतीक्षा करें।
- ओसीआर स्क्रीन रीडिंग को सक्षम करने के लिए बटन पर टैप करें।
- पृष्ठ के शीर्ष से पढ़ना शुरू करने के लिए दो उंगलियों का उपयोग करके नीचे स्वाइप करें।
- किसी विशेष शब्द, वाक्य, या पैराग्राफ को जोर से पढ़ने के लिए स्क्रीन पर एक शब्द पर टैप करें या चयन करें।
एंड्रॉइड डिवाइस की तरह, आईपैड और आईफोन में सीमित ओसीआर और टीटीएस क्षमताएं होती हैं। जबकि शब्द प्रसंस्करण की सटीकता औसत से ऊपर है, आवाज की गुणवत्ता इसकी रोबोटिक प्रकृति के कारण निराशाजनक है।
स्पीचिफाई—ओसीआर तकनीक के साथ सर्वश्रेष्ठ टीटीएस
हालांकि मोबाइल डिवाइस पर बिल्ट-इन टीटीएस रीडर और ओसीआर सॉफ़्टवेयर होना अच्छा है, उनकी गुणवत्ता और प्रदर्शन प्रभावशाली नहीं हैं। सौभाग्य से, आपके पास एक वैकल्पिक रीडिंग टेक्स्ट ऐप है। स्पीचिफाई एक टेक्स्ट टू स्पीच रीडर है जो ओसीआर तकनीक और उच्च-गुणवत्ता वाली एआई-जनरेटेड आवाजों को जोड़ता है। इसकी कार्यक्षमता डिफ़ॉल्ट मोबाइल टेक्स्ट रीडर्स से अधिक है और यह संपूर्ण किताबों और भौतिक दस्तावेजों को स्कैन कर सकता है ताकि भौतिक टेक्स्ट को डिजिटल टेक्स्ट में प्रोसेस किया जा सके। वहां से, जटिल एल्गोरिदम प्राकृतिक ध्वनि वाली आवाजें उत्पन्न करते हैं जिन्हें आप अपनी इच्छित पढ़ने की गति के अनुसार नियंत्रित और समायोजित कर सकते हैं। स्पीचिफाई टेक्स्ट टू स्पीच सॉफ़्टवेयर निम्नलिखित प्लेटफार्मों पर उपलब्ध है:
चाहे आप इसे एप्पल ऐप स्टोर या गूगल प्ले स्टोर से प्राप्त करें या डेस्कटॉप मैक संस्करण या क्रोम ब्राउज़र एक्सटेंशन डाउनलोड करें, एक लाइसेंस सभी डेस्कटॉप और मोबाइल डिवाइस पर स्पीचिफाई का उपयोग करने के लिए पर्याप्त है। उपयोगकर्ता के अनुकूल इंटरफेस सभी आयु समूहों और तकनीकी पृष्ठभूमियों को आकर्षित करता है। स्पीचिफाई ओसीआर स्कैन वास्तविक समय में ऑनलाइन पढ़ने के लिए उपलब्ध हैं। वैकल्पिक रूप से, आप पीडीएफ फाइलों, स्क्रीनशॉट्स, और अन्य छवियों को उच्च बिटरेट के साथ ऑडियो फाइलों में बदल सकते हैं और उन्हें ऑफलाइन अपनी गति से सुन सकते हैं। डिस्लेक्सिया, पढ़ने की अक्षमता, दृष्टि दोष, और मल्टीटास्कर्स वाले उपयोगकर्ताओं के लिए डिज़ाइन की गई, स्पीचिफाई की सहायक तकनीक एक सामान्य पूर्ण स्क्रीन रीडर से अधिक करती है। यह वह ऐप है जिसे आप किसी भी डिजिटल और भौतिक टेक्स्ट को एक ऑडियोबुक में बदलने, पॉडकास्ट बनाने, और कम प्रयास और अधिक ध्यान के साथ अपनी पढ़ने की क्षमताओं को सुधारने के लिए चाहते हैं। मुफ्त स्पीचिफाई टेक्स्ट टू स्पीच ऐप आज़माएं और एक इमर्सिव रीडिंग अनुभव को व्यक्तिगत बनाएं। एसईओ शीर्षक: फोटो टेक्स्ट टू स्पीच – एक पृष्ठ की तस्वीर कैसे लें और उसे जोर से पढ़वाएं एसईओ विवरण: फोटो टेक्स्ट टू स्पीच की मूल बातें जानें - किसी भी मोबाइल या डेस्कटॉप डिवाइस और ऑपरेटिंग सिस्टम पर एक पृष्ठ की तस्वीर कैसे लें और उसे जोर से पढ़वाएं।
क्लिफ वेट्ज़मैन
क्लिफ वेट्ज़मैन डिस्लेक्सिया के समर्थक और स्पीचिफाई के सीईओ और संस्थापक हैं, जो दुनिया का नंबर 1 टेक्स्ट-टू-स्पीच ऐप है, जिसे 100,000 से अधिक 5-स्टार समीक्षाएं मिली हैं और यह ऐप स्टोर में न्यूज़ और मैगज़ीन श्रेणी में पहले स्थान पर है। 2017 में, वेट्ज़मैन को फोर्ब्स 30 अंडर 30 सूची में शामिल किया गया था, उनके काम के लिए जो उन्होंने सीखने की अक्षमताओं वाले लोगों के लिए इंटरनेट को अधिक सुलभ बनाने में किया। क्लिफ वेट्ज़मैन को एडसर्ज, इंक., पीसी मैग, एंटरप्रेन्योर, मैशेबल, और अन्य प्रमुख आउटलेट्स में चित्रित किया गया है।