1. मुखपृष्ठ
  2. सुलभता
  3. फोटो टेक्स्ट टू स्पीच—किसी भी पेज की फोटो लेकर उसे ज़ोर से कैसे सुनें
सुलभता

फोटो टेक्स्ट टू स्पीच—किसी भी पेज की फोटो लेकर उसे ज़ोर से कैसे सुनें

Cliff Weitzman

क्लिफ वाइट्समैन

Speechify के CEO और संस्थापक

apple logo2025 Apple Design Award
50M+ यूज़र्स

TTS रीडर आजकल खूब चलन में हैं और आसानी से मिल भी जाते हैं। लेकिन क्या इससे यह साबित होता है कि सभी टेक्स्ट टू स्पीच तकनीकें एक जैसी क्वालिटी देती हैं? कई TTS स्क्रीन रीडर माइक्रोसॉफ्ट वर्ड दस्तावेज़, HTML वेबपेज या किसी भी दूसरी टेक्स्ट फ़ाइल से कॉपी‑पेस्ट किए गए शब्दों से डिजिटल टेक्स्ट को प्रोसेस कर लेते हैं। लेकिन इन में से गिने‑चुने ही ऐसे हैं जो लॉक किए गए डिजिटल या फिज़िकल टेक्स्ट को इमेज से निकालकर नेचुरल लगने वाली आवाज़ में बदल पाते हैं। जो ऐसा कर पाते हैं, वे ऑप्टिकल कैरेक्टर रिकॉग्निशन (OCR) तकनीक का इस्तेमाल करते हैं।

किसी भी पेज को आवाज़ में बदलें

OCR क्या है?

OCR, जिसे ऑप्टिकल कैरेक्टर रिकॉग्निशन या टेक्स्ट रिकॉग्निशन भी कहा जाता है, एक ऐसी तकनीक है जिसे खास तौर पर डेटा निकालने के लिए बनाया गया है। इसके कई बिज़नेस उपयोग हैं और मनोरंजन व फुर्सत के समय में भी इसका खूब इस्तेमाल होता है। इस तरह की तकनीक में आमतौर पर दो हिस्से होते हैं—हार्डवेयर, जो इमेज को स्कैन करता है, और सॉफ्टवेयर, जो डेटा निकालकर आगे उपयोग के लिए तैयार करता है। लेकिन इसका सबसे दिलचस्प और पेचीदा हिस्सा इसका सॉफ्टवेयर ही है। OCR सॉफ्टवेयर हर अक्षर और पूरे शब्द को पहचान सकता है और उन्हें वाक्य में सलीके से जमा सकता है। इसके अलावा यह यूज़र को मूल लॉक्ड कंटेंट को एडिट करने की सुविधा देता है, जैसे लॉक्ड टेक्स्ट वाले PDF को एडिट करना।

OCR कैसे काम करता है

ऑप्टिकल कैरेक्टर रिकॉग्निशन (OCR) एक ऐसी तकनीक है जो अलग‑अलग तरह के दस्तावेज़—जैसे स्कैन किए हुए पेपर डॉक्युमेंट, PDF फाइल या डिजिटल कैमरे से ली गई इमेज—को एडिटेबल और सर्च करने योग्य डेटा में बदल देती है। प्रोसेस की शुरुआत OCR सॉफ्टवेयर द्वारा डॉक्युमेंट की संरचना को परखने और उसमें मौजूद टेक्स्ट वाले हिस्सों को पहचानने से होती है। फिर यह उन हिस्सों को लाइन, शब्द और अक्षर में तोड़ता है। हर अक्षर को पहले से बनाए गए पैटर्न या मशीन लर्निंग मॉडल के ज़रिए पहचाना और मशीन‑कोडेड टेक्स्ट में बदला जाता है। इस तरह इमेज में मौजूद टेक्स्ट को एडिट, सर्च और डिजिटल रूप से प्रोसेस करना संभव हो जाता है।

टेक्स्ट टू स्पीच और OCR का संयोजन

ऑप्टिकल कैरेक्टर रिकॉग्निशन को टेक्स्ट टू स्पीच तकनीक के साथ जोड़ने से एक बेहद ताकतवर टूल बनता है, जो एक्सेसिबिलिटी और काम की रफ्तार, दोनों को बेहतर करता है। OCR स्कैन किए गए डॉक्युमेंट, इमेज या प्रिंटेड सामग्री से टेक्स्ट निकालकर उसे मशीन‑पढ़ने योग्य टेक्स्ट में बदलता है। इसके बाद वही टेक्स्ट TTS सिस्टम में जाता है, जहाँ लिखे हुए शब्द बोले गए ऑडियो में बदल जाते हैं। यह कॉम्बो कई कामों में काम आता है, जैसे दृष्टिबाधित लोगों की मदद करना ताकि वे प्रिंटेड सामग्री को सुन सकें, किताबों और डॉक्युमेंट्स को ऑडियोबुक में बदलना, या प्रिंटेड विदेशी टेक्स्ट का रीयल‑टाइम ऑडियो अनुवाद करना। OCR और TTS के साथ यूज़र कंटेंट के साथ ज़्यादा डायनेमिक तरीके से जुड़ पाते हैं और जानकारी हर किसी के लिए ज़्यादा सुलभ हो जाती है, चाहे उनकी पढ़ने की क्षमता हो या दृष्टि से जुड़ी कोई दिक्कत।

टेक्स्ट टू स्पीच OCR के उपयोग

OCR और TTS तकनीक का मेल कई नए रास्ते खोलता है, जिससे अलग‑अलग स्थितियों में जानकारी ज़्यादा सुलभ और उपयोगी हो जाती है। टेक्स्ट टू स्पीच OCR के कुछ आम उपयोग नीचे दिए गए हैं:

  • दृष्टिबाधित लोगों के लिए सहयोगी तकनीक: किताबों, डॉक्युमेंट्स या स्क्रीन से लिखित कंटेंट को आवाज़ में बदलता है, ताकि दृष्टिहीन या कमज़ोर नज़र वाले लोग भी इसे ‘पढ़’ सकें।
  • सीखना और शिक्षा:
    • डिस्लेक्सिया वाले छात्रों के लिए सहायक: डिस्लेक्सिया या दूसरी पढ़ने की दिक्कतों से जूझ रहे छात्रों के लिए लिखे टेक्स्ट को ऑडियो में बदलकर मदद करता है।
    • मल्टीमॉडल लर्निंग: सीखने वालों को कंटेंट पढ़ने के साथ‑साथ सुनने की सुविधा देता है, जिससे समझ और याददाश्त दोनों बेहतर होती हैं।
  • अनुवाद और भाषा सीखना: विदेशी भाषा के लिखित टेक्स्ट को बोलचाल की आवाज़ में बदलता है, जिससे उच्चारण और समझ आसान हो जाती है।
  • डिजिटल कंटेंट उपभोग: किताबों, समाचार लेखों और दूसरी प्रिंटेड टेक्स्ट सामग्री को चलते‑फिरते सुनने के लिए ऑडियोबुक या पॉडकास्ट जैसे अनुभव में बदलता है।
  • डॉक्युमेंट एक्सेसिबिलिटी: PDF, स्कैन किए गए डॉक्युमेंट्स और दूसरे नॉन‑एडिटेबल फॉर्मेट्स को उन लोगों के लिए सुलभ बनाता है जिन्हें ऑडियो कंटेंट की ज़रूरत या पसंद हो।
  • ऐतिहासिक डॉक्युमेंट विश्लेषण: पुरानी पांडुलिपियों या आर्काइव्ड डॉक्युमेंट्स को ऑडियो में बदलकर शोधकर्ताओं और इतिहास प्रेमियों के लिए सुनने योग्य बनाता है।
  • बिज़नेस और उत्पादकता: छपी हुई, नॉन‑डिजिटल रिपोर्ट्स को व्यस्त प्रोफेशनल्स के लिए स्पीच में बदल देता है, ताकि वे रास्ते में या दूसरे कामों के साथ उन्हें सुन सकें।
  • प्रूफरीडिंग: लेखक या संपादक को पन्ने पर लिखे कंटेंट को सुनकर गलती पकड़ने और सुधारने में मदद करता है।
  • मनोरंजन: कॉमिक्स, ग्राफिक नॉवेल या अन्य मुख्य रूप से विज़ुअल मीडिया को ऑडियो अनुभव में बदलना।

किसी तस्वीर से टेक्स्ट को ज़ोर से कैसे पढ़वाएँ

हर एप्पल और एंड्रॉइड मोबाइल डिवाइस यूज़र को ये नहीं पता होता कि उनके फ़ोन में ही ऐसे ऐप्स मौजूद हैं जिनमें OCR तकनीक और TTS रीडर लगा होता है, जिससे बेसिक टेक्स्ट टू स्पीच कन्वर्ज़न आसान हो जाता है। इन‑बिल्ट TTS फीचर्स को आप ऐसे ऐप्स की तरह समझ सकते हैं जो मुफ्त में टेक्स्ट पढ़कर सुना देते हैं, या कैमरा से टेक्स्ट पढ़ने वाली किसी फ्री ऐप की तरह, हालांकि उनकी क्वालिटी एडवांस टेक्स्ट टू स्पीच सॉफ्टवेयर जितनी नहीं होती। एंड्रॉइड और एप्पल डिवाइस में इमेज से टेक्स्ट रीडर का इस्तेमाल करने का तरीका नीचे दिया है:

एंड्रॉइड

एंड्रॉइड डिवाइस, खासकर जो एंड्रॉइड 12 OS या उससे ऊपर चल रहे हों, आम तौर पर इन‑बिल्ट TTS रीडर के साथ आते हैं। यह नेविगेशन और छोटे‑छोटे फॉन्ट पढ़ने जैसे कामों के लिए बढ़िया है। लेकिन इसका इस्तेमाल आप तस्वीरों से टेक्स्ट पढ़वाने के लिए भी कर सकते हैं। अपना डिवाइस सेट करने का तरीका इस तरह है:

  • ‘सेटिंग्स’ ऐप में जाकर ‘एक्सेसिबिलिटी’ मेन्यू खोलें।
  • ‘सेलेक्ट टू स्पीक’ विकल्प को ऑन करें।
  • TTS रीडर के ‘सेटिंग्स’ टैब में जाएँ और ‘Read text on images’ विकल्प सक्षम करें।
  • होम स्क्रीन पर लौटें और ‘कैमरा’ ऐप खोलें।
  • कैमरा को किसी किताब, अखबार या डिजिटल टेक्स्ट वाली स्क्रीन की ओर रखें।
  • पहले ‘सेलेक्ट टू स्पीक’ बटन पर टैप करें, फिर ‘कैमरा’ ऐप में किसी शब्द पर टैप करें।

TTS एंड्रॉइड रीडर आपके चुने हुए शब्द से पढ़ना शुरू कर देगा। आप स्क्रीन पर उँगली घुमा कर उन शब्दों का हिस्सा चुन सकते हैं जिन्हें सुनना चाहते हैं, ठीक वैसे ही जैसे वर्ड प्रोसेसर में टेक्स्ट सिलेक्ट करते हैं।

एप्पल

iPhone में फिजिकल टेक्स्ट को ज़ोर से पढ़वाने के लिए कैमरा, iOS 15 या उससे ऊपर का वर्ज़न और इन‑बिल्ट TTS रीडर का ऑन होना ज़रूरी है।

  • ‘सेटिंग्स’ मेन्यू से ‘एक्सेसिबिलिटी’ टैब पर जाएँ।
  • ‘Spoken Content’ फीचर पर टैप करें।
  • ‘Speak Selection’ और ‘Speak Screen’ विकल्प को ऑन करें।
  • होम स्क्रीन पर लौटें और कैमरा खोलें।
  • कैमरा को पेज की ओर रखें और नीचे टूलबार में ‘Live Text’ बटन के आने का इंतज़ार करें।
  • OCR स्क्रीन रीडिंग चालू करने के लिए उस बटन पर टैप करें।
  • दो उँगलियों से ऊपर से नीचे की ओर स्वाइप करें ताकि पेज की शुरुआत से पढ़ना शुरू हो जाए।
  • किसी शब्द या पूरे हिस्से को स्क्रीन पर सिलेक्ट करें और सिर्फ वही हिस्सा ज़ोर से सुनें।

एंड्रॉइड डिवाइसेज़ की तरह iPad और iPhone में भी OCR और TTS के सीमित फीचर्स मौजूद हैं। वर्ड प्रोसेसिंग की सटीकता ठीक‑ठाक से बेहतर है, लेकिन आवाज़ अक्सर काफ़ी रोबोटिक लगती है।

Speechify—OCR तकनीक के साथ बेहतरीन TTS

हालाँकि मोबाइल डिवाइस में मौजूद इन‑बिल्ट TTS रीडर और OCR सॉफ्टवेयर काम के होते हैं, लेकिन उनकी क्वालिटी और परफॉर्मेंस ज़्यादातर औसत ही रहती है। अच्छी बात यह है कि आपके पास टेक्स्ट पढ़ने के लिए एक बेहतर ऐप का विकल्प मौजूद है। स्पीचिफाई एक टेक्स्ट टू स्पीच रीडर है, जिसमें OCR तकनीक और हाई‑क्वालिटी AI आवाज़ें मिलती हैं। इसकी क्षमताएँ डिफ़ॉल्ट मोबाइल टेक्स्ट रीडर से कहीं आगे हैं और यह पूरी किताबों व फिजिकल डॉक्युमेंट्स को स्कैन करके फिजिकल टेक्स्ट को डिजिटल टेक्स्ट में बदल सकता है। उसके बाद इसके एडवांस एल्गोरिदम नेचुरल‑साउंडिंग वॉयसेज़ तैयार करते हैं, जिन्हें आप अपनी पसंद के हिसाब से कंट्रोल और एडजस्ट कर सकते हैं। स्पीचिफाई टेक्स्ट टू स्पीच सॉफ्टवेयर इन प्लेटफ़ॉर्म पर उपलब्ध है:

चाहे आप इसे एप्पल ऐप स्टोर और गूगल प्ले स्टोर से इंस्टॉल करें, डेस्कटॉप मैक वर्शन डाउनलोड करें या क्रोम ब्राउज़र एक्सटेंशन जोड़ें, सिर्फ एक लाइसेंस आपके सभी डेस्कटॉप और मोबाइल डिवाइसेज़ पर स्पीचिफाई चलाने के लिए काफ़ी है। इसका यूज़र‑फ्रेंडली इंटरफेस हर उम्र और अलग‑अलग टेक्निकल बैकग्राउंड वाले लोगों को सहज लगता है। स्पीचिफाई OCR स्कैन रियल‑टाइम ऑनलाइन रीडिंग के लिए भी उपलब्ध हैं।

डिस्लेक्सिया, पढ़ने में कठिनाई, दृष्टि बाधा या मल्टीटास्किंग करने वाले यूज़र्स के लिए डिज़ाइन की गई, स्पीचिफाई की सहायक तकनीक किसी आम फुल‑स्क्रीन रीडर से कहीं आगे है। यह एक ऐसी ऐप है जिससे आप किसी भी डिजिटल या फिजिकल टेक्स्ट को ऑडियोबुक में बदल सकते हैं, पॉडकास्ट बना सकते हैं और कम मेहनत व ज़्यादा फोकस के साथ अपनी रीडिंग स्किल सुधार सकते हैं। मुफ्त स्पीचिफाई टेक्स्ट टू स्पीच ऐप ट्राई करें और अपने लिए एक इमर्सिव रीडिंग एक्सपीरियंस तैयार करें। स्पीचिफाई में ऑनलाइन AI वॉइस जनरेटर भी है, जिसमें आप कोई भी टेक्स्ट डालकर उसकी आवाज़ तुरंत सुन सकते हैं।

सबसे एडवांस्ड एआई आवाज़, अनलिमिटेड फाइल्स और 24x7 सपोर्ट का पूरा फायदा उठाएँ

फ्री में आज़माएँ
tts banner for blog

यह लेख शेयर करें

Cliff Weitzman

क्लिफ वाइट्समैन

Speechify के CEO और संस्थापक

क्लिफ वाइट्समैन डिस्लेक्सिया (अक्षरजटिलता) के पैरोकार हैं और वे Speechify के CEO और संस्थापक हैं — जो दुनिया का नंबर 1 टेक्स्ट-टू-स्पीच ऐप है, जिसके पास 100,000 से अधिक 5-स्टार समीक्षाएँ हैं और App Store की News & Magazines श्रेणी में नंबर 1 रहा है। 2017 में इंटरनेट को सीखने में कठिनाइयों का सामना करने वाले लोगों के लिए अधिक सुलभ बनाने के उनके काम के लिए उन्हें Forbes 30 Under 30 सूची में शामिल किया गया था। क्लिफ वाइट्समैन का ज़िक्र EdSurge, Inc., PC Mag, Entrepreneur, Mashable सहित कई प्रमुख प्रकाशनों में आ चुका है।

speechify logo

Speechify के बारे में

#1 टेक्स्ट टू स्पीच रीडर

Speechify दुनिया का अग्रणी टेक्स्ट टू स्पीच प्लेटफ़ॉर्म है जिस पर 50 मिलियन से ज़्यादा यूज़र्स भरोसा करते हैं, और इसके टेक्स्ट टू स्पीच iOS, Android, Chrome Extension, वेब ऐप और Mac डेस्कटॉप ऐप्स के लिए 500,000 से ज़्यादा पाँच-सितारा रिव्यूज़ हैं। 2025 में Apple ने Speechify को प्रतिष्ठित Apple Design Award से सम्मानित किया WWDC में, और इसे “एक अहम संसाधन बताया जो लोगों की ज़िंदगी आसान बनाता है।” Speechify 60+ भाषाओं में 1,000+ नैचुरल आवाज़ें ऑफर करता है और इसका इस्तेमाल लगभग 200 देशों में होता है। सिलेब्रिटी आवाज़ों में शामिल हैं Snoop Dogg और Gwyneth Paltrow। क्रिएटर्स और बिज़नेस के लिए Speechify Studio एडवांस्ड टूल्स देता है, जिनमें शामिल हैं ए.आई. वॉइस जेनरेटर, ए.आई. वॉइस क्लोनिंग, ए.आई. डबिंग और ए.आई. वॉइस चेंजर। Speechify अपने हाई-क्वालिटी, लो-कॉस्ट टेक्स्ट टू स्पीच API के ज़रिए कई बड़े प्रोडक्ट्स को भी पावर करता है। इसे The Wall Street Journal, CNBC, Forbes, TechCrunch और अन्य प्रमुख न्यूज़ आउटलेट्स में फीचर किया गया है, और Speechify आज दुनिया का सबसे बड़ा टेक्स्ट टू स्पीच प्रोवाइडर है। और जानने के लिए speechify.com/news, speechify.com/blog और speechify.com/press पर जाएँ।