टेक्स्ट टू स्पीच का संक्षिप्त इतिहास

स्पीच सिंथेसिस, या मानव आवाज का कृत्रिम उत्पादन, पिछले 70 वर्षों में बहुत आगे बढ़ चुका है। चाहे आप वर्तमान में टेक्स्ट-टू-स्पीच सेवाओं का उपयोग किताबें सुनने, अध्ययन करने, या अपने लिखित कार्य को प्रूफरीड करने के लिए करते हों, इसमें कोई संदेह नहीं है कि टेक्स्ट-टू-स्पीच सेवाओं ने विभिन्न पेशों में लोगों के लिए जीवन को आसान बना दिया है।

यहां, हम देखेंगे कि टेक्स्ट-टू-स्पीच प्रोसेसिंग कैसे काम करती है, और कैसे सहायक तकनीक समय के साथ बदल गई है।

परिचय

1700 के दशक में, रूसी प्रोफेसर क्रिश्चियन क्रैट्ज़ेंस्टीन ने ध्वनिक अनुनादक बनाए जो मानव आवाज की ध्वनि की नकल करते थे। दो दशक बाद, VODER (वॉयस ऑपरेटिंग डेमोंस्ट्रेटर) ने न्यूयॉर्क वर्ल्ड फेयर में बड़ी सुर्खियाँ बटोरीं जब निर्माता होमर डडली ने भीड़ को दिखाया कि कैसे मानव भाषण कृत्रिम तरीकों से बनाया जा सकता है। इस उपकरण को बजाना कठिन था - डडली को फुट पेडल का उपयोग करके मूल आवृत्ति को नियंत्रित करना पड़ता था।

1800 के दशक की शुरुआत में, चार्ल्स व्हीटस्टोन ने पहला यांत्रिक स्पीच सिंथेसाइज़र विकसित किया। इसने आर्टिकुलेटरी सिंथेसिस उपकरणों और प्रौद्योगिकियों के तेजी से विकास की शुरुआत की।

यह तय करना कठिन हो सकता है कि एक अच्छा टेक्स्ट-टू-स्पीच प्रोग्राम क्या बनाता है, लेकिन जीवन की कई चीजों की तरह, जब आप इसे सुनते हैं तो आप इसे जानते हैं। एक उच्च-गुणवत्ता वाला टेक्स्ट-टू-स्पीच प्रोग्राम प्राकृतिक ध्वनि वाली आवाजें प्रदान करता है जिसमें वास्तविक जीवन की अभिव्यक्ति और स्वर होता है।

टेक्स्ट-टू-स्पीच तकनीक दृष्टिहीन और अन्य विकलांगताओं के साथ रहने वाले लोगों को काम में सफल होने और दूसरों के साथ संवाद करने के लिए आवश्यक जानकारी प्राप्त करने में मदद कर सकती है। यह सॉफ़्टवेयर छात्रों और भारी पढ़ाई के बोझ वाले अन्य लोगों को चलते-फिरते मानव भाषण के माध्यम से अपनी जानकारी सुनने की अनुमति भी देता है। सिंथेटिक भाषण लोगों को कम समय में अधिक काम करने की अनुमति देता है, और वीडियो गेम निर्माण से लेकर भाषा प्रसंस्करण में अंतर वाले लोगों की मदद करने तक विभिन्न सेटिंग्स में उपयोगी हो सकता है।

1950 और 60 के दशक

1950 के दशक के अंत में, पहले स्पीच सिंथेसिस सिस्टम बनाए गए थे। ये सिस्टम कंप्यूटर-आधारित थे। 1961 में, बेल लैब्स के भौतिक विज्ञानी जॉन लैरी केली जूनियर ने एक आईबीएम कंप्यूटर का उपयोग करके भाषण का सिंथेसिस किया। उनके वोकोडर (वॉयस रिकॉर्डर सिंथेसाइज़र) ने डेज़ी बेल गीत को फिर से बनाया।

जब केली अपने वोकोडर को परिपूर्ण कर रहे थे, 2001: ए स्पेस ओडिसी के लेखक आर्थर सी. क्लार्क ने अपनी पुस्तक की पटकथा में केली के प्रदर्शन का उपयोग किया। दृश्य के दौरान HAL 9000 कंप्यूटर डेज़ी बेल गाता है।

1966 में, रैखिक भविष्यवाणी कोडिंग दृश्य में आई। भाषण कोडिंग का यह रूप फुमितादा इताकुरा और शुजो साइटो के तहत विकसित होना शुरू हुआ। बिष्णु एस. अटल और मैनफ्रेड आर. श्रेडर ने भी रैखिक भविष्यवाणी कोडिंग के विकास में योगदान दिया।

1970 के दशक

1975 में, इताकुरा द्वारा लाइन स्पेक्ट्रल पेयर्स विधि विकसित की गई थी। इस उच्च-संपीड़न भाषण कोडिंग विधि ने इताकुरा को भाषण विश्लेषण और संश्लेषण के बारे में अधिक जानने में मदद की, कमजोर बिंदुओं को खोजने और उन्हें बेहतर बनाने का तरीका खोजने में मदद की।

इस वर्ष, MUSA भी जारी किया गया था। इस स्टैंड-अलोन स्पीच सिंथेसिस सिस्टम ने एक एल्गोरिदम का उपयोग करके इतालवी को जोर से पढ़ा। तीन साल बाद जारी एक संस्करण इतालवी में गा सकता था।

70 के दशक में, पहला आर्टिकुलेटरी सिंथेसाइज़र विकसित किया गया और मानव वोकल ट्रैक्ट पर आधारित था। पहला ज्ञात सिंथेसाइज़र टॉम बेयर, पॉल मर्मेलस्टीन, और फिलिप रुबिन द्वारा हस्किन्स प्रयोगशालाओं में विकसित किया गया था। इस तिकड़ी ने 60 और 70 के दशक में बेल प्रयोगशालाओं में बनाए गए वोकल ट्रैक्ट मॉडलों से जानकारी का उपयोग किया।

1976 में, दृष्टिहीनों के लिए कर्ज़वील रीडिंग मशीनें पेश की गईं। जबकि ये उपकरण आम जनता के लिए बहुत महंगे थे, पुस्तकालय अक्सर दृष्टिहीन लोगों के लिए किताबें सुनने के लिए उन्हें प्रदान करते थे।

रैखिक भविष्यवाणी कोडिंग सिंथेसाइज़र चिप्स के लिए शुरुआती बिंदु बन गई। टेक्सास इंस्ट्रूमेंट्स एलपीसी स्पीच चिप्स और 1970 के दशक के अंत के स्पीक एंड स्पेल खिलौनों ने सिंथेसाइज़र चिप तकनीक का उपयोग किया। ये खिलौने मानव आवाज संश्लेषण के उदाहरण थे जिनमें सटीक स्वर थे, जो उस समय की आमतौर पर रोबोटिक ध्वनि वाली सिंथेसाइज़्ड आवाजों से अलग थे। इस दशक के दौरान भाषण संश्लेषण की क्षमता वाले कई हैंडहेल्ड इलेक्ट्रॉनिक्स लोकप्रिय हो गए, जिनमें दृष्टिहीनों के लिए टेलीसेन्सरी सिस्टम्स स्पीच+ कैलकुलेटर शामिल था। फिडेलिटी वॉयस चेस चैलेंजर, एक शतरंज कंप्यूटर जो भाषण का सिंथेसिस कर सकता था, 1979 में जारी किया गया था।

1980 के दशक

1980 के दशक में, भाषण संश्लेषण ने वीडियो गेम की दुनिया में हलचल मचाना शुरू कर दिया। 1980 में स्ट्रैटोवॉक्स (एक शूटिंग शैली का आर्केड गेम) को सन इलेक्ट्रॉनिक्स द्वारा जारी किया गया था। मैनबिकी शोजो (अंग्रेजी में अनुवादित 'शॉपलिफ्टिंग गर्ल') पहला व्यक्तिगत कंप्यूटर गेम था जिसमें भाषण संश्लेषण की क्षमता थी। इलेक्ट्रॉनिक गेम मिल्टन भी 1980 में जारी किया गया था - यह मिल्टन ब्रैडली कंपनी का पहला इलेक्ट्रॉनिक गेम था जिसमें मानव आवाज़ को संश्लेषित करने की क्षमता थी।

1983 में, एक स्वतंत्र ध्वनिक-यांत्रिक भाषण मशीन जिसे DECtalk कहा जाता था, आई। DECtalk शब्दों की ध्वन्यात्मक वर्तनी को समझता था, जिससे असामान्य शब्दों का अनुकूलित उच्चारण संभव हो सका। इन ध्वन्यात्मक वर्तनी में एक स्वर संकेतक भी शामिल हो सकता था जिसे DECtalk ध्वन्यात्मक घटकों का उच्चारण करते समय उपयोग करता था। इसने DECtalk को गाने की अनुमति दी।

80 के दशक के अंत में, स्टीव जॉब्स ने नेक्स्ट बनाया, एक प्रणाली जिसे ट्रिलियम साउंड रिसर्च द्वारा विकसित किया गया था। जबकि नेक्स्ट सफल नहीं हुआ, जॉब्स ने अंततः 90 के दशक में इस प्रोग्राम को एप्पल के साथ मिला दिया।

1990 का दशक

प्रारंभिक संस्करणों के संश्लेषित टेक्स्ट-टू-स्पीच सिस्टम स्पष्ट रूप से रोबोटिक लगते थे, लेकिन 80 के दशक के अंत और 90 के दशक की शुरुआत में यह बदलने लगा। नरम व्यंजन बोलने वाली मशीनों को इलेक्ट्रॉनिक धार खोने और अधिक मानवीय ध्वनि बनाने की अनुमति देते हैं। 1990 में, एटी एंड टी बेल लैबोरेटरीज में एन सिरडल ने एक महिला भाषण संश्लेषक आवाज विकसित की। इंजीनियरों ने 90 के दशक के दौरान आवाजों को अधिक प्राकृतिक बनाने के लिए काम किया।

1999 में, माइक्रोसॉफ्ट ने नैरेटर जारी किया, जो एक स्क्रीन रीडर समाधान है जो अब माइक्रोसॉफ्ट विंडोज की हर प्रति में शामिल है।

2000 का दशक

2000 के दशक के दौरान भाषण संश्लेषण को कुछ समस्याओं का सामना करना पड़ा, क्योंकि डेवलपर्स संश्लेषित भाषण के लिए सहमत मानकों को बनाने के लिए संघर्ष कर रहे थे। चूंकि भाषण अत्यधिक व्यक्तिगत होता है, इसलिए दुनिया भर के लोगों के लिए ध्वन्यात्मक, द्विध्वन्य, स्वर, स्वर, पैटर्न प्लेबैक और उतार-चढ़ाव के उचित उच्चारण पर सहमत होना कठिन होता है।

90 के दशक में फॉर्मेंट संश्लेषण भाषण ऑडियो की गुणवत्ता भी अधिक चिंता का विषय बन गई, क्योंकि इंजीनियरों और शोधकर्ताओं ने देखा कि प्रयोगशाला में संश्लेषित भाषण को चलाने के लिए उपयोग की जाने वाली प्रणालियों की गुणवत्ता अक्सर उस उपकरण से कहीं अधिक उन्नत होती थी जो उपयोगकर्ता के पास होता था। भाषण संश्लेषण के बारे में सोचते समय, कई लोग स्टीफन हॉकिंग की आवाज़ संश्लेषक के बारे में सोचते हैं, जिसने थोड़ी मानवीय ध्वनि के साथ एक रोबोटिक ध्वनि वाली आवाज़ प्रदान की।

2005 में, शोधकर्ताओं ने अंततः कुछ सहमति बनाई और एक सामान्य भाषण डेटासेट का उपयोग करना शुरू किया, जिससे उन्हें उच्च-स्तरीय भाषण संश्लेषण प्रणालियों को बनाते समय एक ही बुनियादी आदर्शों से काम करने की अनुमति मिली।

2007 में, एक अध्ययन किया गया जिसमें दिखाया गया कि श्रोता यह पता लगा सकते हैं कि बोलने वाला व्यक्ति मुस्कुरा रहा है या नहीं। शोधकर्ता यह पता लगाने के लिए काम करना जारी रख रहे हैं कि इस जानकारी का उपयोग अधिक प्राकृतिक भाषण पहचान और भाषण संश्लेषण सॉफ़्टवेयर बनाने के लिए कैसे किया जाए।

2010 का दशक

आज, भाषण संकेतों का उपयोग करने वाले भाषण संश्लेषण उत्पाद हर जगह हैं, जैसे सिरी से लेकर एलेक्सा तक। इलेक्ट्रॉनिक भाषण संश्लेषक न केवल जीवन को आसान बनाते हैं - वे जीवन को अधिक मजेदार भी बनाते हैं। चाहे आप टीटीएस सिस्टम का उपयोग करके चलते-फिरते उपन्यास सुन रहे हों या आप ऐसे ऐप्स का उपयोग कर रहे हों जो विदेशी भाषा सीखना आसान बनाते हैं, यह संभावना है कि आप अपने न्यूरल नेटवर्क को दैनिक आधार पर सक्रिय करने के लिए टेक्स्ट टू स्पीच तकनीक का उपयोग कर रहे हैं।

भविष्य

आने वाले वर्षों में, यह संभावना है कि आवाज़ संश्लेषण तकनीक मस्तिष्क का एक मॉडल बनाने पर ध्यान केंद्रित करेगी ताकि यह बेहतर ढंग से समझा जा सके कि हम अपने दिमाग में भाषण डेटा को कैसे रिकॉर्ड करते हैं। भाषण प्रौद्योगिकी यह समझने के लिए भी काम करेगी कि भाषण में भावना की क्या भूमिका होती है, और इस जानकारी का उपयोग एआई आवाज़ें बनाने के लिए करेगी जो वास्तविक मनुष्यों से अप्रभेद्य हों।

वॉयस सिंथेसिस टेक्नोलॉजी में नवीनतम: स्पीचिफाई

पहले के भाषण संश्लेषण प्रौद्योगिकी से संक्रमण के बारे में सीखते समय, यह कल्पना करना अद्भुत है कि विज्ञान कितनी दूर आ गया है। आज, स्पीचिफाई जैसे ऐप्स किसी भी टेक्स्ट को ऑडियो फाइलों में अनुवाद करना आसान बनाते हैं। केवल एक बटन के स्पर्श (या ऐप पर टैप) के साथ, स्पीचिफाई वेबसाइटों, दस्तावेज़ों और टेक्स्ट की छवियों को प्राकृतिक ध्वनि वाले भाषण में अनुवाद करने में सक्षम है। स्पीचिफाई की लाइब्रेरी आपके सभी उपकरणों में सिंक होती है, जिससे चलते-फिरते सीखना और काम करना आपके लिए सरल हो जाता है। एप्पल के ऐप स्टोर और एंड्रॉइड के गूगल प्ले में स्पीचिफाई ऐप देखें।

सामान्य प्रश्न

टेक्स्ट-टू-स्पीच का आविष्कार किसने किया?

अंग्रेजी के लिए टेक्स्ट-टू-स्पीच का आविष्कार नोरिको उमेडा ने किया था। यह प्रणाली 1968 में जापान के इलेक्ट्रोटेक्निकल प्रयोगशाला में विकसित की गई थी।

टेक्स्ट-टू-स्पीच का उद्देश्य क्या है?

कई लोग टेक्स्ट-टू-स्पीच तकनीक का उपयोग करते हैं। जो लोग अपनी जानकारी ऑडियो फॉर्मेट में प्राप्त करना पसंद करते हैं, टीटीएस तकनीक उनके लिए आवश्यक जानकारी प्राप्त करना आसान बना सकती है, बिना किताब के सामने घंटों बिताए। व्यस्त पेशेवर भी टीटीएस तकनीक का उपयोग करते हैं ताकि वे अपने काम के शीर्ष पर बने रह सकें जब वे कंप्यूटर स्क्रीन के सामने बैठने में असमर्थ होते हैं। कई प्रकार की टीटीएस तकनीक मूल रूप से दृष्टिबाधित लोगों के लिए विकसित की गई थी, और टीटीएस अभी भी उन लोगों के लिए एक शानदार तरीका है जो देखने में कठिनाई का सामना करते हैं, ताकि वे आवश्यक जानकारी प्राप्त कर सकें।

आप भाषण को कैसे संश्लेषित करते हैं?

रिकॉर्ड किए गए भाषण के टुकड़े विभिन्न इकाइयों में एक डेटाबेस में संग्रहीत होते हैं। सॉफ़्टवेयर यूनिट चयन के माध्यम से ऑडियो फाइलें तैयार करता है। वहां से, एक आवाज बनाई जाती है। अक्सर, किसी प्रोग्राम की आउटपुट रेंज जितनी बड़ी होती है, उतना ही प्रोग्राम उपयोगकर्ताओं को स्पष्ट आवाज़ प्रदान करने में संघर्ष करता है।

Speechify दुनिया का अग्रणी टेक्स्ट टू स्पीच प्लेटफ़ॉर्म है जिस पर 50 मिलियन से ज़्यादा यूज़र्स भरोसा करते हैं, और इसके टेक्स्ट टू स्पीच iOS, Android, Chrome Extension, वेब ऐप और Mac डेस्कटॉप ऐप्स के लिए 500,000 से ज़्यादा पाँच-सितारा रिव्यूज़ हैं। 2025 में Apple ने Speechify को प्रतिष्ठित Apple Design Award से सम्मानित किया WWDC में, और इसे “एक अहम संसाधन बताया जो लोगों की ज़िंदगी आसान बनाता है।” Speechify 60+ भाषाओं में 1,000+ नैचुरल आवाज़ें ऑफर करता है और इसका इस्तेमाल लगभग 200 देशों में होता है। सिलेब्रिटी आवाज़ों में शामिल हैं Snoop Dogg और Gwyneth Paltrow। क्रिएटर्स और बिज़नेस के लिए Speechify Studio एडवांस्ड टूल्स देता है, जिनमें शामिल हैं ए.आई. वॉइस जेनरेटर, ए.आई. वॉइस क्लोनिंग, ए.आई. डबिंग और ए.आई. वॉइस चेंजर। Speechify अपने हाई-क्वालिटी, लो-कॉस्ट टेक्स्ट टू स्पीच API के ज़रिए कई बड़े प्रोडक्ट्स को भी पावर करता है। इसे The Wall Street Journal, CNBC, Forbes, TechCrunch और अन्य प्रमुख न्यूज़ आउटलेट्स में फीचर किया गया है, और Speechify आज दुनिया का सबसे बड़ा टेक्स्ट टू स्पीच प्रोवाइडर है। और जानने के लिए speechify.com/news, speechify.com/blog और speechify.com/press पर जाएँ।