1. होम
  2. सुलभता
  3. फ़ोटो के टेक्स्ट को आवाज़ में बदलें
Updated on सुलभता

फ़ोटो के टेक्स्ट को आवाज़ में बदलें

Cliff Weitzman

क्लिफ वाइट्समैन

Speechify के CEO और संस्थापक

apple logo2025 Apple Design Award
50M+ यूज़र्स

TTS रीडर काफ़ी लोकप्रिय हैं। लेकिन क्या सभी टेक्स्ट टू स्पीच एक जैसा अनुभव देते हैं? ज़्यादातर TTS स्क्रीन रीडर सिर्फ़ डिजिटल टेक्स्ट (जैसे Word, HTML वेब पेज़, Google Docs या अन्य फ़ाइलें) ही पढ़ पाते हैं। लेकिन इनमें से बहुत कम इमेज में लॉक्ड टेक्स्ट को नेचुरल आवाज़ में सुना पाते हैं। ये वे टेक्नोलॉजी हैं जो ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) का इस्तेमाल करती हैं।

हर पेज को आवाज़ में बदलें

OCR क्या है?

OCR, जिसे ऑप्टिकल कैरेक्टर रिकग्निशन या टेक्स्ट रिकग्निशन भी कहते हैं, ख़ास डेटा निकालने की एक टेक्नोलॉजी है। इसका इस्तेमाल व्यापार, मनोरंजन आदि कई जगह होता है। इसमें आमतौर पर हार्डवेयर से इमेज स्कैन की जाती है और फिर सॉफ़्टवेयर से डेटा निकाला जाता है। लेकिन सॉफ़्टवेयर वाला हिस्सा सबसे ज़्यादा दिलचस्प और काफ़ी कॉम्प्लेक्स होता है। OCR सॉफ़्टवेयर अक्षरों और शब्दों को पहचानकर उन्हें वाक्य में सजा देता है। साथ ही, इससे आप लॉक्ड टेक्स्ट को ऐसे एडिट कर सकते हैं जैसे PDF में करते हैं।

OCR कैसे काम करता है

ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) वह टेक्नोलॉजी है जो स्कैन डॉक्युमेंट, PDF या फोटो को एडिटेबल और सर्चेबल डेटा में बदल देती है। पहले OCR सॉफ़्टवेयर इमेज का स्ट्रक्चर एनालाइज़ करके टेक्स्ट वाली जगह पहचानता है। इसके बाद वह इसे लाइनों, शब्दों, अक्षरों में बांटता है। हर अक्षर को तय पैटर्न या मशीन लर्निंग मॉडल से मिलाकर टेक्स्ट में बदलता है। इससे इमेज के शब्दों को एडिट, सर्च और प्रोसेस किया जा सकता है।

Text to Speech और OCR मिलकर

ऑप्टिकल कैरेक्टर रिकग्निशन को टेक्स्ट टू स्पीच से जोड़ने पर एक पावरफुल टूल बन जाता है। OCR स्कैन डॉक्युमेंट, इमेज या प्रिंटेड मटीरियल से टेक्स्ट निकालता है, जिसे TTS सिस्टम में डालकर बोलचाल की भाषा में सुना जा सकता है। यह दृष्टिहीन लोगों के लिए छपी किताब पढ़वाने, किताब/डॉक्युमेंट को ऑडियोबुक बनाने या दूसरी भाषा के टेक्स्ट को सुनने के लिए काम आता है। दोनों के मेल से कोई भी व्यक्ति, चाहे उसकी पढ़ने की क्षमता हो या नेत्रहीनता, आसानी से टेक्स्ट सुन सकता है।

Text to Speech OCR के उपयोग

जब OCR और TTS को मिलाते हैं, तो जानकारी अलग-अलग तरीकों से ज़्यादा लोगों तक पहुंचाई जा सकती है। यहां टेक्स्ट टू स्पीच OCR के कुछ उपयोग दिए हैं:

  • दृष्टिहीन लोगों के लिए सहायक टेक्नोलॉजी: किताब, डॉक्युमेंट या स्क्रीन का टेक्स्ट सुनकर पढ़ सकते हैं।
  • शिक्षा और लर्निंग:
    • डिस्लेक्सिया वाले छात्रों के लिए: डिस्लेक्सिया, ADHD या अन्य रीडिंग प्रॉब्लम में टेक्स्ट को ऑडियो में बदलना मददगार होता है।
    • मल्टीमोडल लर्निंग: पढ़कर और सुनकर सीखने से समझ और याददाश्त बेहतर होती है।
  • अनुवाद, भाषा सीखना: दूसरी भाषा का टेक्स्ट सुनने में मदद करता है।
  • डिजिटल कॉन्टेंट सुनना: किताबें, समाचार आदि को चलते-फिरते ऑडियोबुक या पॉडकास्ट में बदलें।
  • डॉक्युमेंट एक्सेसिबिलिटी: PDF, स्कैन डॉक्युमेंट या लॉक फॉर्मेट को ऑडियो में सुनें।
  • इतिहास दस्तावेज़: पुराने/आर्काइव डॉक्यूमेंट का ऑडियो रूप में विश्लेषण।
  • व्यापार: प्रिंटेड रिपोर्ट्स व्यस्त पेशेवर आवाज़ में सुन सकें।
  • प्रूफरीडिंग: लिखे को सुनकर ग़लतियाँ पकड़ना आसान।
  • मनोरंजन: कॉमिक या ग्राफ़िक नोवल जैसी चीज़ों को ऑडियो में बदलना।

फ़ोटो से टेक्स्ट पढ़कर सुनाना कैसे शुरू करें

हर Apple या Android यूज़र नहीं जानता कि उनके फ़ोन की ऐप्स में OCR और TTS रीडर फीचर भी छुपे हैं। कई ऐप्स कैमरा से टेक्स्ट पढ़कर सुना सकती हैं, पर क्वालिटी एडवांस्ड टेक्स्ट टू स्पीच सॉफ़्टवेयर जैसी नहीं होती। Android और Apple में इमेज से टेक्स्ट रीडर चालू करने के स्टेप्स:

Android

Android (12 या उससे ऊपर) में बिल्ट-इन TTS रीडर आता है। यह नेविगेशन, छोटे अक्षर पढ़ने या फ़ोटो से टेक्स्ट सुनने के लिए बढ़िया है। ऐसे इस्तेमाल करें:

  • “Settings” की “Accessibility” में जाएं।
  • “Select to Speak” चालू करें।
  • TTS रीडर की “Settings” में जाकर “Read text on images” ऑप्शन ऑन करें।
  • “Camera” ऐप खोलें।
  • कैमरा को किताब, अख़बार या स्क्रीन पर दिख रहे डिजिटल टेक्स्ट की ओर करें।
  • “Camera” ऐप में “Select to Speak” दबाने के बाद, लिखे पर टैप करें।

TTS Android रीडर चुने हुए शब्द से पढ़ना शुरू कर देगा। स्क्रीन पर उँगली घुमा कर टेक्स्ट सिलेक्ट भी कर सकते हैं।

Apple

iPhone से फिज़िकल टेक्स्ट पढ़वाने के लिए कैमरा, iOS 15+ और बिल्ट-इन TTS ऑन होना ज़रूरी है।

  • “Settings” मेन्यू से “Accessibility” टैब पर जाएं।
  • “Spoken Content” दबाएं।
  • “Speak Selection” और “Speak Screen” ऑन करें।
  • होम स्क्रीन पर जाएं, कैमरा चालू करें।
  • कैमरा से पेज़ दिखाएं, “Live Text” बटन आने का इंतज़ार करें।
  • बटन पर टैप कर OCR स्क्रीन रीडिंग चालू करें।
  • दो उंगलियों से ऊपर से नीचे स्वाइप करें – टेक्स्ट सुनना शुरू होगा।
  • वर्ड या पैराग्राफ़ सिलेक्ट करें और सुनें।

Android की तरह, iPad और iPhone में OCR और TTS लिमिटेड है। वर्ड प्रोसेसिंग ठीक-ठाक है, लेकिन आवाज़ काफ़ी रोबोटिक लगती है।

Speechify—OCR टेक्नोलॉजी के साथ सबसे अच्छा TTS

मोबाइल में बिल्ट-इन TTS/OCR ठीक-ठाक है, पर परफ़ॉर्मेंस सीमित है। इसकी बजाय आप Speechify ऐप आज़मा सकते हैं, जो एक टेक्स्ट टू स्पीच रीडर है जिसमें OCR और 200+ रियलिस्टिक इमोशनल AI आवाज़ें, 60+ भाषाएँ और सेलेब्रिटी आवाज़ें हैं। यह ऐप मोबाइल डिफ़ॉल्ट रीडर से कहीं बेहतर तरीक़े से किताबें, डॉक्युमेंट स्कैन कर, टेक्स्ट को डिजिटल में बदलकर आपकी स्पीड के अनुसार नेचुरल आवाज़ में सुनाता है। Speechify टेक्स्ट टू स्पीच कई प्लेटफ़ॉर्म पर उपलब्ध है:

आप Apple App Store या Google Play Store से डाउनलोड करें, या डेस्कटॉप Mac या Chrome Extension वर्ज़न लें, एक ही लाइसेंस डेस्कटॉप और मोबाइल दोनों पर चलेगा। Speechify का इंटरफ़ेस हर उम्र और टेक्निकल बैकग्राउंड वाले यूज़र्स के लिए आसान है। इसकी OCR स्कैन सुविधा रियल टाइम ऑनलाइन भी उपलब्ध है।

यह डिस्लेक्सिया, रीडिंग डिसेबिलिटी, विजुअल इम्पेयरमेंट और मल्टीटास्क करने वालों के लिए डिज़ाइन किया गया है। एक ही ऐप में डिजिटल और फिज़िकल टेक्स्ट बदलें, ऑडियोबुक और पॉडकास्ट बनाएं, रीडिंग स्किल बेहतर करें। मुफ़्त Speechify टेक्स्ट टू स्पीच ऐप आज़माएं और अनुभव को अपने हिसाब से पर्सनलाइज़ करें। Speechify का ऑनलाइन AI Voice Generator भी है, जिसमें आप मनचाहा टेक्स्ट बुलवा सकते हैं।

FAQ

सबसे वास्तविक टेक्स्ट टू स्पीच कौन सा है? 

Speechify 200+ असली जैसी AI आवाज़ें, 60+ भाषाएँ और लोकल ऐक्सेंट देता है, जिससे यह टेक्स्ट टू स्पीच बाकी के मुकाबले ज़्यादा नेचुरल लगता है, जैसे Fake You, Nuance और Uberduck से बेहतर।

क्या Speechify टेक्स्ट टू स्पीच API देता है?

हाँ, Speechify टेक्स्ट टू स्पीच API देता है, वैसे ही जैसे Google टेक्स्ट टू स्पीच API।  

AI वॉइस ओवर कैसे बनाएं? 

यूज़र AI वॉइस ओवर कमर्शियल काम के लिए Speechify Studio से बना सकते हैं।

नोट्स को पॉडकास्ट में बदल सकते हैं?

Speechify के AI पॉडकास्ट फीचर से आप किसी भी टेक्स्ट को AI पॉडकास्ट में बदलकर MP3 फाइल डाउनलोड कर सकते हैं।

सबसे एडवांस्ड एआई आवाज़, अनलिमिटेड फाइल्स और 24x7 सपोर्ट का पूरा फायदा उठाएँ

फ्री में आज़माएँ
tts banner for blog

यह लेख शेयर करें

Cliff Weitzman

क्लिफ वाइट्समैन

Speechify के CEO और संस्थापक

क्लिफ वाइट्समैन डिस्लेक्सिया (अक्षरजटिलता) के पैरोकार हैं और वे Speechify के CEO और संस्थापक हैं — जो दुनिया का नंबर 1 टेक्स्ट-टू-स्पीच ऐप है, जिसके पास 100,000 से अधिक 5-स्टार समीक्षाएँ हैं और App Store की News & Magazines श्रेणी में नंबर 1 रहा है। 2017 में इंटरनेट को सीखने में कठिनाइयों का सामना करने वाले लोगों के लिए अधिक सुलभ बनाने के उनके काम के लिए उन्हें Forbes 30 Under 30 सूची में शामिल किया गया था। क्लिफ वाइट्समैन का ज़िक्र EdSurge, Inc., PC Mag, Entrepreneur, Mashable सहित कई प्रमुख प्रकाशनों में आ चुका है।

speechify logo

Speechify के बारे में

#1 टेक्स्ट टू स्पीच रीडर

Speechify दुनिया का अग्रणी टेक्स्ट टू स्पीच प्लेटफ़ॉर्म है जिस पर 50 मिलियन से ज़्यादा यूज़र्स भरोसा करते हैं, और इसके टेक्स्ट टू स्पीच iOS, Android, Chrome Extension, वेब ऐप और Mac डेस्कटॉप ऐप्स के लिए 500,000 से ज़्यादा पाँच-सितारा रिव्यूज़ हैं। 2025 में Apple ने Speechify को प्रतिष्ठित Apple Design Award से सम्मानित किया WWDC में, और इसे “एक अहम संसाधन बताया जो लोगों की ज़िंदगी आसान बनाता है।” Speechify 60+ भाषाओं में 1,000+ नैचुरल आवाज़ें ऑफर करता है और इसका इस्तेमाल लगभग 200 देशों में होता है। सिलेब्रिटी आवाज़ों में शामिल हैं Snoop Dogg और Gwyneth Paltrow। क्रिएटर्स और बिज़नेस के लिए Speechify Studio एडवांस्ड टूल्स देता है, जिनमें शामिल हैं ए.आई. वॉइस जेनरेटर, ए.आई. वॉइस क्लोनिंग, ए.आई. डबिंग और ए.आई. वॉइस चेंजर। Speechify अपने हाई-क्वालिटी, लो-कॉस्ट टेक्स्ट टू स्पीच API के ज़रिए कई बड़े प्रोडक्ट्स को भी पावर करता है। इसे The Wall Street Journal, CNBC, Forbes, TechCrunch और अन्य प्रमुख न्यूज़ आउटलेट्स में फीचर किया गया है, और Speechify आज दुनिया का सबसे बड़ा टेक्स्ट टू स्पीच प्रोवाइडर है। और जानने के लिए speechify.com/news, speechify.com/blog और speechify.com/press पर जाएँ।