Social Proof

फोटो टेक्स्ट टू स्पीच—कैसे एक पेज की तस्वीर लें और उसे जोर से पढ़वाएं

स्पीचिफाई दुनिया का नंबर 1 ऑडियो रीडर है। किताबें, दस्तावेज़, लेख, पीडीएफ, ईमेल - जो कुछ भी आप पढ़ते हैं - उसे तेजी से पूरा करें।

प्रमुख प्रकाशनों में

forbes logocbs logotime magazine logonew york times logowall street logo
इस लेख को Speechify के साथ सुनें!
Speechify

फोटो टेक्स्ट टू स्पीच की मूल बातें जानें - कैसे किसी पेज की तस्वीर लें और उसे किसी भी मोबाइल या डेस्कटॉप डिवाइस और ऑपरेटिंग सिस्टम पर जोर से पढ़वाएं।

फोटो टेक्स्ट टू स्पीच—कैसे एक पेज की तस्वीर लें और उसे जोर से पढ़वाएं

टीटीएस रीडर्स की मांग और आपूर्ति दोनों ही अधिक है। लेकिन क्या इसका मतलब है कि सभी टेक्स्ट टू स्पीच तकनीक समान प्रदर्शन देती है? कई टीटीएस स्क्रीन रीडर्स माइक्रोसॉफ्ट वर्ड दस्तावेज़ों, एचटीएमएल वेब पेजों, या अन्य टेक्स्ट फाइलों से कॉपी-पेस्ट किए गए शब्दों से डिजिटल टेक्स्ट को प्रोसेस कर सकते हैं। लेकिन उनमें से कुछ ही छवियों से लॉक किए गए डिजिटल और भौतिक टेक्स्ट को प्राकृतिक ध्वनि में बदल सकते हैं। जो ऐसा करते हैं, वे ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) का उपयोग करते हैं।

ओसीआर क्या है?

ओसीआर, जिसे ऑप्टिकल कैरेक्टर रिकग्निशन या टेक्स्ट रिकग्निशन के रूप में जाना जाता है, विशेष डेटा निष्कर्षण के लिए डिज़ाइन की गई एक तकनीक है। इसका कई व्यावसायिक अनुप्रयोगों में उपयोग होता है और मनोरंजन में भी इसका काफी उपयोग होता है। इस प्रकार की तकनीक में आमतौर पर दो घटक होते हैं। इसमें छवियों को स्कैन करने के लिए एक हार्डवेयर तत्व होता है और डेटा को निकालने और पुनः उपयोग करने के लिए एक सॉफ़्टवेयर तत्व होता है। लेकिन सॉफ़्टवेयर घटक सबसे रोमांचक और जटिल हिस्सा है। ओसीआर सॉफ़्टवेयर व्यक्तिगत अक्षरों और पूरे शब्दों को अलग कर सकता है और उन्हें वाक्यों में व्यवस्थित कर सकता है। इसके अलावा, यह उपयोगकर्ताओं को मूल लॉक किए गए सामग्री को संपादित करने की अनुमति देता है, जैसे कि लॉक किए गए टेक्स्ट सामग्री के साथ पीडीएफ फाइल को संपादित करना।

ओसीआर कैसे काम करता है

वास्तविक प्रोसेसिंग बहुत ही दिलचस्प है। हालांकि अन्य दो-रंग विधियाँ मौजूद हैं, ओसीआर सॉफ़्टवेयर भौतिक दस्तावेज़ों को काले और सफेद डिजिटल प्रतियों में बदल देता है। फिर, ओसीआर ऐप छवि में गहरे और हल्के क्षेत्रों का विश्लेषण करता है, यह जानते हुए कि गहरे क्षेत्र अक्षरों का प्रतिनिधित्व करते हैं। सॉफ़्टवेयर की जटिलता के आधार पर, यह एक साथ अक्षरों, शब्दों, या टेक्स्ट के ब्लॉकों पर ध्यान केंद्रित कर सकता है। वहां से, सॉफ़्टवेयर फीचर रिकग्निशन या पैटर्न रिकग्निशन एल्गोरिदम का उपयोग करके अक्षरों की पहचान करता है। फीचर डिटेक्शन एल्गोरिदम एक अधिक जटिल प्रक्रिया का उपयोग करता है जिसमें लाइन और कर्व एसोसिएशन और एएससीआईआई कोड रूपांतरण शामिल हैं। किसी भी ओसीआर ऐप के एल्गोरिदम के बावजूद, यह दस्तावेज़ संरचना का भी विश्लेषण करेगा ताकि टेक्स्ट, तालिकाओं, चित्रों, और अन्य तत्वों के बीच अंतर किया जा सके। इस तरह, केवल टेक्स्ट ही निकाला जाता है। इस तकनीक का मुख्य लाभ यह है कि यह पेपरबैक उपन्यासों, भौतिक दस्तावेज़ों, और हार्ड कॉपी पाठ्यपुस्तकों को डिजिटल मशीन-पठनीय टेक्स्ट में बदल सकता है। यह उन्नत प्रोसेसिंग तकनीक अपने आप में पहले से ही शक्तिशाली है। यह कई उद्योगों में डेटा एंट्री प्रक्रियाओं को स्वचालित कर सकता है और वर्कफ्लो को सुव्यवस्थित कर सकता है। हालांकि, जब इसे कृत्रिम बुद्धिमत्ता (एआई) और मशीन-लर्निंग एल्गोरिदम के साथ जोड़ा जाता है, तो यह और भी अधिक लाभ प्रदान करता है। एआई-सक्षम ओसीआर मानक टेक्स्ट प्रोसेसिंग से परे जा सकता है और विभिन्न भाषाओं, हस्तलेख शैलियों, आदि की पहचान कर सकता है। टेक्स्ट टू स्पीच तकनीक के साथ मिलकर, ओसीआर सॉफ़्टवेयर भौतिक दस्तावेज़ों को स्कैन कर सकता है, टेक्स्ट को प्रोसेस कर सकता है, और एक टीटीएस रीडर को उस डिजिटल टेक्स्ट को स्पीच में बदलने की अनुमति देता है।

टेक्स्ट टू स्पीच ओसीआर के उपयोग

ओसीआर और टीटीएस तकनीकों को मिलाकर विभिन्न परिदृश्यों में जानकारी को अधिक सुलभ और उपभोग्य बनाने के लिए कई संभावनाएं खुलती हैं। टेक्स्ट टू स्पीच ओसीआर के कुछ उपयोग यहां दिए गए हैं:

  • दृष्टिहीनों के लिए सहायक तकनीक: पुस्तकों, दस्तावेज़ों, या स्क्रीन से लिखित सामग्री को बोले गए शब्द में बदलता है, जिससे दृष्टिहीन या अंधे व्यक्तियों को सामग्री "पढ़ने" में मदद मिलती है।
  • शिक्षा और सीखना:
    • डिस्लेक्सिक छात्रों के लिए सहायता: डिस्लेक्सिया या अन्य पढ़ने की चुनौतियों वाले छात्रों की मदद करता है, लिखित टेक्स्ट को ऑडियो में बदलकर।
    • मल्टीमॉडल लर्निंग: शिक्षार्थियों को सामग्री को पढ़ने और सुनने दोनों की अनुमति देता है, जिससे समझ और स्मरणशक्ति में सुधार होता है।
  • अनुवाद और भाषा सीखना: लिखित विदेशी भाषा के टेक्स्ट को बोले गए शब्द में बदलता है, उच्चारण और समझ में मदद करता है।
  • डिजिटल सामग्री उपभोग: पुस्तकों, समाचार लेखों, और अन्य मुद्रित टेक्स्ट सामग्री को ऑडियोबुक्स या पॉडकास्ट में बदलता है, चलते-फिरते उपभोग के लिए।
  • दस्तावेज़ पहुंच: पीडीएफ, स्कैन किए गए दस्तावेज़ों, और अन्य गैर-संपादन योग्य प्रारूपों को उन लोगों के लिए सुलभ बनाता है जो ऑडियो सामग्री को पसंद या आवश्यकता रखते हैं।
  • ऐतिहासिक दस्तावेज़ विश्लेषण: पुराने पांडुलिपियों या अभिलेखीय दस्तावेज़ों को ऑडियो सामग्री में बदलता है, शोधकर्ताओं या उत्साही लोगों के लिए जो ऐतिहासिक पाठ सुनना चाहते हैं।
  • व्यवसाय और उत्पादकता: मुद्रित गैर-डिजिटल रिपोर्टों को व्यस्त पेशेवरों के लिए बोले गए सामग्री में बदलता है।
  • प्रूफरीडिंग: लेखकों या संपादकों को कागज पर लिखित सामग्री में गलतियों की पहचान करने में मदद करता है, उसे सुनकर।
  • मनोरंजन: कॉमिक बुक्स, ग्राफिक नॉवेल्स, या अन्य मुख्य रूप से दृश्य मीडिया को श्रव्य अनुभव में बदलता है।

तस्वीर से टेक्स्ट को जोर से कैसे पढ़ें

हर एप्पल और एंड्रॉइड मोबाइल डिवाइस उपयोगकर्ता नहीं जानता कि उनके ऐप्स में ओसीआर तकनीक और एक टीटीएस रीडर हो सकता है जो सरल टेक्स्ट टू स्पीच रूपांतरण कार्यों को पूरा कर सकता है। इनबिल्ट टीटीएस फीचर्स को ऐसे ऐप्स के रूप में मानें जो आपको मुफ्त में पढ़ेंगे या जैसे एक मुफ्त ऐप जो कैमरों से टेक्स्ट पढ़ता है, हालांकि उनकी गुणवत्ता अधिक उन्नत टेक्स्ट टू स्पीच सॉफ़्टवेयर जितनी अच्छी नहीं है। यहां बताया गया है कि एंड्रॉइड और एप्पल डिवाइस पर छवियों से टेक्स्ट रीडर तक कैसे पहुंचें:

एंड्रॉइड

एंड्रॉइड डिवाइस, विशेष रूप से वे जो एंड्रॉइड 12 ओएस और उससे ऊपर चल रहे हैं, में एक बिल्ट-इन टीटीएस रीडर होता है। यह नेविगेशन, छोटे फॉन्ट पढ़ने आदि के लिए एक उपयोगी उपकरण है। लेकिन आप इसे तस्वीरों से टेक्स्ट पढ़ने के लिए भी उपयोग कर सकते हैं। यहां बताया गया है कि अपने डिवाइस को कैसे सेट करें:

  • “सेटिंग्स” ऐप के माध्यम से “एक्सेसिबिलिटी” मेनू पर जाएं।
  • “सेलेक्ट टू स्पीक” विकल्प को सक्षम करें।
  • टीटीएस रीडर के “सेटिंग्स” टैब पर जाएं और “छवियों पर टेक्स्ट पढ़ें” विकल्प चालू करें।
  • अपने होम स्क्रीन पर वापस जाएं और “कैमरा” ऐप लॉन्च करें।
  • कैमरा को एक किताब, अखबार, या डिजिटल टेक्स्ट वाली किसी अन्य स्क्रीन पर इंगित करें।
  • “कैमरा” ऐप में किसी शब्द पर टैप करने से पहले “सेलेक्ट टू स्पीक” बटन पर टैप करें।

टीटीएस एंड्रॉइड रीडर हाइलाइट किए गए शब्द से वर्णन करना शुरू कर देगा। आप स्क्रीन पर अपनी उंगली खींचकर टेक्स्ट के हिस्सों का चयन कर सकते हैं, जैसे कि आप वर्ड प्रोसेसर का उपयोग करते समय करते हैं।

एप्पल

आईफोन का उपयोग करके भौतिक टेक्स्ट को जोर से पढ़ने के लिए एक कार्यशील कैमरा, iOS 15 और उससे ऊपर की आवश्यकता होती है, और बिल्ट-इन टीटीएस रीडर को सक्षम करना होता है।

  • “सेटिंग्स” मेनू से “एक्सेसिबिलिटी” टैब पर जाएं।
  • “स्पोकन कंटेंट” फीचर पर टैप करें।
  • “स्पीक सेलेक्शन” और “स्पीक स्क्रीन” विकल्पों को सक्षम करें।
  • होम स्क्रीन पर वापस जाएं और कैमरा चालू करें।
  • कैमरा को एक पृष्ठ पर इंगित करें और निचले टूलबार पर “लाइव टेक्स्ट” बटन के प्रकट होने की प्रतीक्षा करें।
  • ओसीआर स्क्रीन रीडिंग को सक्षम करने के लिए बटन पर टैप करें।
  • पृष्ठ के शीर्ष से पढ़ना शुरू करने के लिए दो उंगलियों का उपयोग करके नीचे स्वाइप करें।
  • किसी विशेष शब्द, वाक्य, या पैराग्राफ को जोर से पढ़ने के लिए स्क्रीन पर एक शब्द पर टैप करें या चयन करें।

एंड्रॉइड डिवाइस की तरह, आईपैड और आईफोन में सीमित ओसीआर और टीटीएस क्षमताएं होती हैं। जबकि शब्द प्रसंस्करण की सटीकता औसत से ऊपर है, आवाज की गुणवत्ता इसकी रोबोटिक प्रकृति के कारण निराशाजनक है।

स्पीचिफाई—ओसीआर तकनीक के साथ सर्वश्रेष्ठ टीटीएस

हालांकि मोबाइल डिवाइस पर बिल्ट-इन टीटीएस रीडर और ओसीआर सॉफ़्टवेयर होना अच्छा है, उनकी गुणवत्ता और प्रदर्शन प्रभावशाली नहीं हैं। सौभाग्य से, आपके पास एक वैकल्पिक रीडिंग टेक्स्ट ऐप है। स्पीचिफाई एक टेक्स्ट टू स्पीच रीडर है जो ओसीआर तकनीक और उच्च-गुणवत्ता वाली एआई-जनरेटेड आवाजों को जोड़ता है। इसकी कार्यक्षमता डिफ़ॉल्ट मोबाइल टेक्स्ट रीडर्स से अधिक है और यह संपूर्ण किताबों और भौतिक दस्तावेजों को स्कैन कर सकता है ताकि भौतिक टेक्स्ट को डिजिटल टेक्स्ट में प्रोसेस किया जा सके। वहां से, जटिल एल्गोरिदम प्राकृतिक ध्वनि वाली आवाजें उत्पन्न करते हैं जिन्हें आप अपनी इच्छित पढ़ने की गति के अनुसार नियंत्रित और समायोजित कर सकते हैं। स्पीचिफाई टेक्स्ट टू स्पीच सॉफ़्टवेयर निम्नलिखित प्लेटफार्मों पर उपलब्ध है:

चाहे आप इसे एप्पल ऐप स्टोर या गूगल प्ले स्टोर से प्राप्त करें या डेस्कटॉप मैक संस्करण या क्रोम ब्राउज़र एक्सटेंशन डाउनलोड करें, एक लाइसेंस सभी डेस्कटॉप और मोबाइल डिवाइस पर स्पीचिफाई का उपयोग करने के लिए पर्याप्त है। उपयोगकर्ता के अनुकूल इंटरफेस सभी आयु समूहों और तकनीकी पृष्ठभूमियों को आकर्षित करता है। स्पीचिफाई ओसीआर स्कैन वास्तविक समय में ऑनलाइन पढ़ने के लिए उपलब्ध हैं। वैकल्पिक रूप से, आप पीडीएफ फाइलों, स्क्रीनशॉट्स, और अन्य छवियों को उच्च बिटरेट के साथ ऑडियो फाइलों में बदल सकते हैं और उन्हें ऑफलाइन अपनी गति से सुन सकते हैं। डिस्लेक्सिया, पढ़ने की अक्षमता, दृष्टि दोष, और मल्टीटास्कर्स वाले उपयोगकर्ताओं के लिए डिज़ाइन की गई, स्पीचिफाई की सहायक तकनीक एक सामान्य पूर्ण स्क्रीन रीडर से अधिक करती है। यह वह ऐप है जिसे आप किसी भी डिजिटल और भौतिक टेक्स्ट को एक ऑडियोबुक में बदलने, पॉडकास्ट बनाने, और कम प्रयास और अधिक ध्यान के साथ अपनी पढ़ने की क्षमताओं को सुधारने के लिए चाहते हैं। मुफ्त स्पीचिफाई टेक्स्ट टू स्पीच ऐप आज़माएं और एक इमर्सिव रीडिंग अनुभव को व्यक्तिगत बनाएं। एसईओ शीर्षक: फोटो टेक्स्ट टू स्पीच – एक पृष्ठ की तस्वीर कैसे लें और उसे जोर से पढ़वाएं एसईओ विवरण: फोटो टेक्स्ट टू स्पीच की मूल बातें जानें - किसी भी मोबाइल या डेस्कटॉप डिवाइस और ऑपरेटिंग सिस्टम पर एक पृष्ठ की तस्वीर कैसे लें और उसे जोर से पढ़वाएं।

Cliff Weitzman

क्लिफ वेट्ज़मैन

क्लिफ वेट्ज़मैन डिस्लेक्सिया के समर्थक और स्पीचिफाई के सीईओ और संस्थापक हैं, जो दुनिया का नंबर 1 टेक्स्ट-टू-स्पीच ऐप है, जिसे 100,000 से अधिक 5-स्टार समीक्षाएं मिली हैं और यह ऐप स्टोर में न्यूज़ और मैगज़ीन श्रेणी में पहले स्थान पर है। 2017 में, वेट्ज़मैन को फोर्ब्स 30 अंडर 30 सूची में शामिल किया गया था, उनके काम के लिए जो उन्होंने सीखने की अक्षमताओं वाले लोगों के लिए इंटरनेट को अधिक सुलभ बनाने में किया। क्लिफ वेट्ज़मैन को एडसर्ज, इंक., पीसी मैग, एंटरप्रेन्योर, मैशेबल, और अन्य प्रमुख आउटलेट्स में चित्रित किया गया है।