1. मुखपृष्ठ
  2. सुलभता
  3. फोटो टेक्स्ट टू स्पीच—कैसे एक पेज की तस्वीर लें और उसे जोर से पढ़ें
Social Proof

फोटो टेक्स्ट टू स्पीच—कैसे एक पेज की तस्वीर लें और उसे जोर से पढ़ें

स्पीचिफाई दुनिया का नंबर 1 ऑडियो रीडर है। किताबें, दस्तावेज़, लेख, पीडीएफ, ईमेल - जो कुछ भी आप पढ़ते हैं - उसे तेजी से पूरा करें।

प्रमुख प्रकाशनों में

forbes logocbs logotime magazine logonew york times logowall street logo
इस लेख को Speechify के साथ सुनें!
Speechify

फोटो टेक्स्ट टू स्पीच की मूल बातें जानें - कैसे किसी पेज की तस्वीर लें और उसे किसी भी मोबाइल या डेस्कटॉप डिवाइस और ऑपरेटिंग सिस्टम पर जोर से पढ़ें।

TTS रीडर्स की मांग बहुत अधिक है और आपूर्ति भी पर्याप्त है। लेकिन क्या इसका मतलब है कि सभी टेक्स्ट टू स्पीच तकनीक समान प्रदर्शन देती है? कई TTS स्क्रीन रीडर्स माइक्रोसॉफ्ट वर्ड दस्तावेज़ों, HTML वेब पेजों, या अन्य टेक्स्ट फाइलों से कॉपी-पेस्ट किए गए शब्दों से डिजिटल टेक्स्ट को प्रोसेस कर सकते हैं। लेकिन उनमें से कुछ ही लॉक किए गए डिजिटल और भौतिक टेक्स्ट को छवियों से प्राकृतिक ध्वनि में बदल सकते हैं। जो ऐसा करते हैं, वे ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) का उपयोग करते हैं।

OCR क्या है?

OCR, जिसे ऑप्टिकल कैरेक्टर रिकग्निशन या टेक्स्ट रिकग्निशन के रूप में जाना जाता है, विशेष डेटा निष्कर्षण के लिए डिज़ाइन की गई एक तकनीक है। इसका व्यवसाय में कई अनुप्रयोग हैं और मनोरंजन में भी इसका उपयोग होता है। इस प्रकार की तकनीक में आमतौर पर दो घटक होते हैं। इसमें छवियों को स्कैन करने के लिए एक हार्डवेयर तत्व होता है और डेटा को निकालने और पुनः उपयोग करने के लिए एक सॉफ्टवेयर तत्व होता है। लेकिन सॉफ्टवेयर घटक सबसे रोमांचक और जटिल हिस्सा है। OCR सॉफ्टवेयर व्यक्तिगत अक्षरों और पूरे शब्दों को अलग कर सकता है और उन्हें वाक्यों में व्यवस्थित कर सकता है। इसके अलावा, यह उपयोगकर्ताओं को मूल लॉक किए गए सामग्री को संपादित करने की अनुमति देता है, जैसे कि लॉक किए गए टेक्स्ट सामग्री के साथ PDF फ़ाइल को संपादित करना।

OCR कैसे काम करता है

ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) एक तकनीक है जो विभिन्न प्रकार के दस्तावेजों, जैसे स्कैन किए गए पेपर दस्तावेज़, PDF फाइलें, या डिजिटल कैमरे द्वारा कैप्चर की गई छवियों को संपादन योग्य और खोजने योग्य डेटा में बदलती है। प्रक्रिया OCR सॉफ्टवेयर के साथ दस्तावेज़ छवि की संरचना का विश्लेषण करने से शुरू होती है, जो उन क्षेत्रों का पता लगाती है जिनमें टेक्स्ट होता है। फिर यह इन क्षेत्रों को लाइनों, शब्दों और अक्षरों में विभाजित करता है। प्रत्येक अक्षर को पूर्व-निर्धारित पैटर्न के सेट के खिलाफ तुलना की जाती है या मशीन लर्निंग मॉडल के साथ प्रशिक्षित किया जाता है ताकि उन्हें मशीन-एन्कोडेड टेक्स्ट में पहचाना और परिवर्तित किया जा सके। इस परिवर्तन से छवि में टेक्स्ट को संपादित, खोजा और डिजिटल रूप से प्रोसेस किया जा सकता है।

टेक्स्ट टू स्पीच और OCR का संयोजन

ऑप्टिकल कैरेक्टर रिकग्निशन को टेक्स्ट टू स्पीच तकनीक के साथ मिलाने से एक शक्तिशाली उपकरण बनता है जो पहुंच और दक्षता को बढ़ाता है। OCR स्कैन किए गए दस्तावेज़ों, छवियों, या मुद्रित सामग्री से टेक्स्ट निकालता है और इसे मशीन-पठनीय टेक्स्ट में बदलता है। इस टेक्स्ट को फिर TTS सिस्टम में फीड किया जा सकता है, जो लिखित शब्दों को बोले गए ऑडियो में बदल देता है। यह संयोजन कई अनुप्रयोगों की अनुमति देता है, जैसे दृष्टिहीन व्यक्तियों को मुद्रित सामग्री "पढ़ने" में मदद करना, किताबों और दस्तावेजों को ऑडियोबुक में बदलना, या मुद्रित विदेशी टेक्स्ट का वास्तविक समय में ऑडियो अनुवाद प्रदान करना। OCR को TTS के साथ एकीकृत करके, उपयोगकर्ता पाठ्य सामग्री के साथ अधिक गतिशील रूप से बातचीत कर सकते हैं, जिससे जानकारी सभी के लिए अधिक सुलभ हो जाती है, चाहे उनकी पढ़ने की क्षमता या दृष्टि में कोई भी कमी हो।

टेक्स्ट टू स्पीच OCR के उपयोग

OCR और TTS तकनीकों को मिलाकर विभिन्न परिदृश्यों में जानकारी को अधिक सुलभ और उपभोग्य बनाने के लिए कई संभावनाएं खुलती हैं। यहां टेक्स्ट टू स्पीच OCR के कुछ उपयोग दिए गए हैं:

  • दृष्टिहीनों के लिए सहायक तकनीक: पुस्तकों, दस्तावेजों, या स्क्रीन से लिखित सामग्री को बोले गए शब्द में बदलता है, जिससे दृष्टिहीन या अंधे व्यक्तियों को सामग्री "पढ़ने" में मदद मिलती है।
  • सीखना और शिक्षा:
    • डिस्लेक्सिक छात्रों के लिए सहायता: डिस्लेक्सिया या अन्य पढ़ने की चुनौतियों वाले छात्रों की मदद करता है, लिखित टेक्स्ट को ऑडियो में बदलकर।
    • मल्टीमॉडल लर्निंग: शिक्षार्थियों को सामग्री को पढ़ने और सुनने दोनों की अनुमति देता है, जिससे समझ और स्मरणशक्ति में सुधार होता है।
  • अनुवाद और भाषा सीखना: लिखित विदेशी भाषा के टेक्स्ट को बोले गए शब्द में बदलता है, उच्चारण और समझ में मदद करता है।
  • डिजिटल सामग्री उपभोग: पुस्तकों, समाचार लेखों, और अन्य मुद्रित टेक्स्ट सामग्री को ऑडियोबुक या पॉडकास्ट में बदलता है, चलते-फिरते उपभोग के लिए।
  • दस्तावेज़ पहुंच: PDF, स्कैन किए गए दस्तावेज़ों, और अन्य गैर-संपादन योग्य प्रारूपों को उन लोगों के लिए सुलभ बनाता है जो ऑडियो सामग्री को पसंद करते हैं या उसकी आवश्यकता होती है।
  • ऐतिहासिक दस्तावेज़ विश्लेषण: पुराने पांडुलिपियों या अभिलेखीय दस्तावेजों को ऑडियो सामग्री में बदलता है, शोधकर्ताओं या उत्साही लोगों के लिए जो ऐतिहासिक पाठ सुनना चाहते हैं।
  • व्यवसाय और उत्पादकता: मुद्रित गैर-डिजिटल रिपोर्टों को व्यस्त पेशेवरों के लिए बोले गए सामग्री में बदलता है।
  • प्रूफरीडिंग: लेखकों या संपादकों को कागज पर लिखित सामग्री में गलतियों की पहचान करने में मदद करता है, उसे सुनकर।
  • मनोरंजन: कॉमिक बुक्स, ग्राफिक नॉवेल्स, या अन्य मुख्य रूप से दृश्य मीडिया को श्रव्य अनुभव में बदलता है।

तस्वीर से टेक्स्ट को जोर से कैसे पढ़ें

हर Apple और Android मोबाइल डिवाइस उपयोगकर्ता यह नहीं जानता कि उनके ऐप्स में OCR तकनीक और एक TTS रीडर हो सकता है जो सरल टेक्स्ट टू स्पीच कन्वर्ज़न कार्यों को पूरा करने में सक्षम है। इन-बिल्ट TTS फीचर्स को ऐसे ऐप्स के रूप में मानें जो आपको मुफ्त में पढ़कर सुनाएंगे या जैसे एक मुफ्त ऐप जो कैमरों से टेक्स्ट पढ़ता है, हालांकि उनकी गुणवत्ता अधिक उन्नत टेक्स्ट टू स्पीच सॉफ़्टवेयर जितनी अच्छी नहीं है। यहाँ बताया गया है कि Android और Apple डिवाइस पर इमेज से टेक्स्ट रीडर तक कैसे पहुंचें:

एंड्रॉइड

एंड्रॉइड डिवाइस, कम से कम वे जो Android 12 OS और उससे ऊपर चल रहे हैं, एक इन-बिल्ट TTS रीडर के साथ आते हैं। यह नेविगेशन, छोटे फोंट पढ़ने आदि के लिए एक उपयोगी उपकरण है। लेकिन आप इसे तस्वीरों से टेक्स्ट पढ़ने के लिए भी उपयोग कर सकते हैं। यहाँ बताया गया है कि अपने डिवाइस को कैसे सेट करें:

  • “सेटिंग्स” ऐप के माध्यम से “एक्सेसिबिलिटी” मेनू पर जाएं।
  • “सेलेक्ट टू स्पीक” विकल्प को सक्षम करें।
  • TTS रीडर के “सेटिंग्स” टैब पर जाएं और “इमेज पर टेक्स्ट पढ़ें” विकल्प चालू करें।
  • अपने होम स्क्रीन पर वापस जाएं और “कैमरा” ऐप लॉन्च करें।
  • कैमरा को एक किताब, अखबार, या डिजिटल टेक्स्ट वाली किसी अन्य स्क्रीन पर इंगित करें।
  • “कैमरा” ऐप में किसी शब्द पर टैप करने से पहले “सेलेक्ट टू स्पीक” बटन पर टैप करें।

TTS एंड्रॉइड रीडर हाइलाइट किए गए शब्द से वर्णन करना शुरू कर देगा। आप स्क्रीन पर अपनी उंगली खींचकर टेक्स्ट के टुकड़े चुन सकते हैं, जैसे आप वर्ड प्रोसेसर का उपयोग करते समय करते हैं।

एप्पल

iPhone का उपयोग करके भौतिक टेक्स्ट को जोर से पढ़ने के लिए एक कार्यशील कैमरा, iOS 15 और उससे ऊपर की आवश्यकता होती है, और इन-बिल्ट TTS रीडर को सक्षम करना होता है।

  • “सेटिंग्स” मेनू से “एक्सेसिबिलिटी” टैब पर जाएं।
  • “स्पोकन कंटेंट” फीचर पर टैप करें।
  • “स्पीक सेलेक्शन” और “स्पीक स्क्रीन” विकल्पों को सक्षम करें।
  • होम स्क्रीन पर वापस जाएं और कैमरा चालू करें।
  • कैमरा को एक पृष्ठ पर इंगित करें और निचले टूलबार पर “लाइव टेक्स्ट” बटन के प्रकट होने की प्रतीक्षा करें।
  • OCR स्क्रीन रीडिंग को सक्षम करने के लिए बटन पर टैप करें।
  • पृष्ठ के शीर्ष से पढ़ना शुरू करने के लिए दो उंगलियों का उपयोग करके नीचे स्वाइप करें।
  • किसी विशेष शब्द, वाक्य, या पैराग्राफ को जोर से पढ़ने के लिए स्क्रीन पर एक शब्द पर टैप करें या चयन करें।

एंड्रॉइड डिवाइस की तरह, iPads और iPhones में सीमित OCR और TTS क्षमताएं होती हैं। जबकि वर्ड प्रोसेसिंग की सटीकता औसत से ऊपर है, आवाज की गुणवत्ता इसके रोबोटिक स्वभाव के कारण निराशाजनक है।

स्पीचिफाई—OCR तकनीक के साथ सर्वश्रेष्ठ TTS

हालांकि इन-बिल्ट TTS रीडर्स और OCR सॉफ़्टवेयर मोबाइल डिवाइस पर होना अच्छा है, उनकी गुणवत्ता और प्रदर्शन प्रभावशाली नहीं हैं। सौभाग्य से, आपके पास एक वैकल्पिक रीडिंग टेक्स्ट ऐप है। स्पीचिफाई एक टेक्स्ट टू स्पीच रीडर है जो OCR तकनीक और उच्च-गुणवत्ता वाली AI-जनित आवाजों को जोड़ता है। इसकी कार्यक्षमता डिफ़ॉल्ट मोबाइल टेक्स्ट रीडर्स से अधिक है और यह संपूर्ण पुस्तकों और भौतिक दस्तावेजों को स्कैन कर सकता है ताकि भौतिक टेक्स्ट को डिजिटल टेक्स्ट में प्रोसेस किया जा सके। वहां से, जटिल एल्गोरिदम प्राकृतिक ध्वनि वाली आवाजें उत्पन्न करते हैं जिन्हें आप अपनी इच्छित पढ़ने की गति के अनुसार नियंत्रित और समायोजित कर सकते हैं। स्पीचिफाई टेक्स्ट टू स्पीच सॉफ़्टवेयर निम्नलिखित प्लेटफार्मों पर उपलब्ध है:

  • विंडोज़
  • macOS
  • लिनक्स
  • iOS
  • एंड्रॉइड

चाहे आप इसे Apple App Store या Google Play Store से प्राप्त करें या डेस्कटॉप Mac संस्करण या Chrome ब्राउज़र एक्सटेंशन डाउनलोड करें, एक लाइसेंस सभी डेस्कटॉप और मोबाइल डिवाइस पर स्पीचिफाई का उपयोग करने के लिए पर्याप्त है। उपयोगकर्ता के अनुकूल इंटरफ़ेस सभी आयु समूहों और तकनीकी पृष्ठभूमियों को आकर्षित करता है। स्पीचिफाई OCR स्कैन वास्तविक समय ऑनलाइन पढ़ने के लिए उपलब्ध हैं।

डिस्लेक्सिया, पढ़ने की अक्षमता, दृष्टि बाधा, और मल्टीटास्कर्स के लिए डिज़ाइन किया गया, स्पीचिफाई की सहायक तकनीक एक सामान्य पूर्ण स्क्रीन रीडर से अधिक करती है। यह वह ऐप है जिसे आप किसी भी डिजिटल और भौतिक टेक्स्ट को एक ऑडियोबुक में बदलने, पॉडकास्ट बनाने, और कम प्रयास और अधिक ध्यान के साथ अपनी पढ़ने की क्षमताओं को सुधारने के लिए चाहते हैं। मुफ्त स्पीचिफाई टेक्स्ट टू स्पीच ऐप आज़माएं और एक इमर्सिव रीडिंग अनुभव को व्यक्तिगत बनाएं।

Cliff Weitzman

क्लिफ वेट्ज़मैन

क्लिफ वेट्ज़मैन डिस्लेक्सिया के समर्थक और स्पीचिफाई के सीईओ और संस्थापक हैं, जो दुनिया का नंबर 1 टेक्स्ट-टू-स्पीच ऐप है, जिसे 100,000 से अधिक 5-स्टार समीक्षाएं मिली हैं और यह ऐप स्टोर में न्यूज़ और मैगज़ीन श्रेणी में पहले स्थान पर है। 2017 में, वेट्ज़मैन को फोर्ब्स 30 अंडर 30 सूची में शामिल किया गया था, उनके काम के लिए जो उन्होंने सीखने की अक्षमताओं वाले लोगों के लिए इंटरनेट को अधिक सुलभ बनाने में किया। क्लिफ वेट्ज़मैन को एडसर्ज, इंक., पीसी मैग, एंटरप्रेन्योर, मैशेबल, और अन्य प्रमुख आउटलेट्स में चित्रित किया गया है।