टेक्स्ट टू स्पीच का संक्षिप्त इतिहास
प्रमुख प्रकाशनों में
वॉयस सिंथेसिस तकनीक, जिसे आमतौर पर टेक्स्ट-टू-स्पीच के रूप में जाना जाता है, वर्षों में तेजी से विकसित हुई है। टेक्स्ट-टू-स्पीच के इतिहास के बारे में अधिक जानें।
स्पीच सिंथेसिस, या मानव आवाज का कृत्रिम उत्पादन, पिछले 70 वर्षों में बहुत आगे बढ़ चुका है। चाहे आप वर्तमान में टेक्स्ट-टू-स्पीच सेवाओं का उपयोग किताबें सुनने, अध्ययन करने, या अपने लिखित कार्य को प्रूफरीड करने के लिए करते हों, इसमें कोई संदेह नहीं है कि टेक्स्ट-टू-स्पीच सेवाओं ने विभिन्न पेशों में लोगों के लिए जीवन को आसान बना दिया है।
यहां, हम देखेंगे कि टेक्स्ट-टू-स्पीच प्रोसेसिंग कैसे काम करती है, और कैसे सहायक तकनीक समय के साथ बदल गई है।
परिचय
1700 के दशक में, रूसी प्रोफेसर क्रिश्चियन क्रैट्ज़ेंस्टीन ने ध्वनिक अनुनादक बनाए जो मानव आवाज की ध्वनि की नकल करते थे। दो दशक बाद, VODER (वॉयस ऑपरेटिंग डेमोंस्ट्रेटर) ने न्यूयॉर्क वर्ल्ड फेयर में बड़ी सुर्खियाँ बटोरीं जब निर्माता होमर डडली ने भीड़ को दिखाया कि कैसे मानव भाषण कृत्रिम तरीकों से बनाया जा सकता है। इस उपकरण को बजाना कठिन था - डडली को फुट पेडल का उपयोग करके मूल आवृत्ति को नियंत्रित करना पड़ता था।
1800 के दशक की शुरुआत में, चार्ल्स व्हीटस्टोन ने पहला यांत्रिक स्पीच सिंथेसाइज़र विकसित किया। इसने आर्टिकुलेटरी सिंथेसिस उपकरणों और प्रौद्योगिकियों के तेजी से विकास की शुरुआत की।
यह तय करना कठिन हो सकता है कि एक अच्छा टेक्स्ट-टू-स्पीच प्रोग्राम क्या बनाता है, लेकिन जीवन की कई चीजों की तरह, जब आप इसे सुनते हैं तो आप इसे जानते हैं। एक उच्च-गुणवत्ता वाला टेक्स्ट-टू-स्पीच प्रोग्राम प्राकृतिक ध्वनि वाली आवाजें प्रदान करता है जिसमें वास्तविक जीवन की अभिव्यक्ति और स्वर होता है।
टेक्स्ट-टू-स्पीच तकनीक दृष्टिहीन और अन्य विकलांगताओं के साथ रहने वाले लोगों को काम में सफल होने और दूसरों के साथ संवाद करने के लिए आवश्यक जानकारी प्राप्त करने में मदद कर सकती है। यह सॉफ़्टवेयर छात्रों और भारी पढ़ाई के बोझ वाले अन्य लोगों को चलते-फिरते मानव भाषण के माध्यम से अपनी जानकारी सुनने की अनुमति भी देता है। सिंथेटिक भाषण लोगों को कम समय में अधिक काम करने की अनुमति देता है, और वीडियो गेम निर्माण से लेकर भाषा प्रसंस्करण में अंतर वाले लोगों की मदद करने तक विभिन्न सेटिंग्स में उपयोगी हो सकता है।
1950 और 60 के दशक
1950 के दशक के अंत में, पहले स्पीच सिंथेसिस सिस्टम बनाए गए थे। ये सिस्टम कंप्यूटर-आधारित थे। 1961 में, बेल लैब्स के भौतिक विज्ञानी जॉन लैरी केली जूनियर ने एक आईबीएम कंप्यूटर का उपयोग करके भाषण का सिंथेसिस किया। उनके वोकोडर (वॉयस रिकॉर्डर सिंथेसाइज़र) ने डेज़ी बेल गीत को फिर से बनाया।
जब केली अपने वोकोडर को परिपूर्ण कर रहे थे, 2001: ए स्पेस ओडिसी के लेखक आर्थर सी. क्लार्क ने अपनी पुस्तक की पटकथा में केली के प्रदर्शन का उपयोग किया। दृश्य के दौरान HAL 9000 कंप्यूटर डेज़ी बेल गाता है।
1966 में, रैखिक भविष्यवाणी कोडिंग दृश्य में आई। भाषण कोडिंग का यह रूप फुमितादा इताकुरा और शुजो साइटो के तहत विकसित होना शुरू हुआ। बिष्णु एस. अटल और मैनफ्रेड आर. श्रेडर ने भी रैखिक भविष्यवाणी कोडिंग के विकास में योगदान दिया।
1970 के दशक
1975 में, इताकुरा द्वारा लाइन स्पेक्ट्रल पेयर्स विधि विकसित की गई थी। इस उच्च-संपीड़न भाषण कोडिंग विधि ने इताकुरा को भाषण विश्लेषण और संश्लेषण के बारे में अधिक जानने में मदद की, कमजोर बिंदुओं को खोजने और उन्हें बेहतर बनाने का तरीका खोजने में मदद की।
इस वर्ष, MUSA भी जारी किया गया था। इस स्टैंड-अलोन स्पीच सिंथेसिस सिस्टम ने एक एल्गोरिदम का उपयोग करके इतालवी को जोर से पढ़ा। तीन साल बाद जारी एक संस्करण इतालवी में गा सकता था।
70 के दशक में, पहला आर्टिकुलेटरी सिंथेसाइज़र विकसित किया गया और मानव वोकल ट्रैक्ट पर आधारित था। पहला ज्ञात सिंथेसाइज़र टॉम बेयर, पॉल मर्मेलस्टीन, और फिलिप रुबिन द्वारा हस्किन्स प्रयोगशालाओं में विकसित किया गया था। इस तिकड़ी ने 60 और 70 के दशक में बेल प्रयोगशालाओं में बनाए गए वोकल ट्रैक्ट मॉडलों से जानकारी का उपयोग किया।
1976 में, दृष्टिहीनों के लिए कर्ज़वील रीडिंग मशीनें पेश की गईं। जबकि ये उपकरण आम जनता के लिए बहुत महंगे थे, पुस्तकालय अक्सर दृष्टिहीन लोगों के लिए किताबें सुनने के लिए उन्हें प्रदान करते थे।
रैखिक भविष्यवाणी कोडिंग सिंथेसाइज़र चिप्स के लिए शुरुआती बिंदु बन गई। टेक्सास इंस्ट्रूमेंट्स एलपीसी स्पीच चिप्स और 1970 के दशक के अंत के स्पीक एंड स्पेल खिलौनों ने सिंथेसाइज़र चिप तकनीक का उपयोग किया। ये खिलौने मानव आवाज संश्लेषण के उदाहरण थे जिनमें सटीक स्वर थे, जो उस समय की आमतौर पर रोबोटिक ध्वनि वाली सिंथेसाइज़्ड आवाजों से अलग थे। इस दशक के दौरान भाषण संश्लेषण की क्षमता वाले कई हैंडहेल्ड इलेक्ट्रॉनिक्स लोकप्रिय हो गए, जिनमें दृष्टिहीनों के लिए टेलीसेन्सरी सिस्टम्स स्पीच+ कैलकुलेटर शामिल था। फिडेलिटी वॉयस चेस चैलेंजर, एक शतरंज कंप्यूटर जो भाषण का सिंथेसिस कर सकता था, 1979 में जारी किया गया था।
1980 के दशक
1980 के दशक में, भाषण संश्लेषण ने वीडियो गेम की दुनिया में हलचल मचाना शुरू कर दिया। 1980 में स्ट्रैटोवॉक्स (एक शूटिंग शैली का आर्केड गेम) को सन इलेक्ट्रॉनिक्स द्वारा जारी किया गया था। मैनबिकी शोजो (अंग्रेजी में अनुवादित 'शॉपलिफ्टिंग गर्ल') पहला व्यक्तिगत कंप्यूटर गेम था जिसमें भाषण संश्लेषण की क्षमता थी। इलेक्ट्रॉनिक गेम मिल्टन भी 1980 में जारी किया गया था - यह मिल्टन ब्रैडली कंपनी का पहला इलेक्ट्रॉनिक गेम था जिसमें मानव आवाज़ को संश्लेषित करने की क्षमता थी।
1983 में, एक स्वतंत्र ध्वनिक-यांत्रिक भाषण मशीन जिसे DECtalk कहा जाता था, आई। DECtalk शब्दों की ध्वन्यात्मक वर्तनी को समझता था, जिससे असामान्य शब्दों का अनुकूलित उच्चारण संभव हो सका। इन ध्वन्यात्मक वर्तनी में एक स्वर संकेतक भी शामिल हो सकता था जिसे DECtalk ध्वन्यात्मक घटकों का उच्चारण करते समय उपयोग करता था। इसने DECtalk को गाने की अनुमति दी।
80 के दशक के अंत में, स्टीव जॉब्स ने नेक्स्ट बनाया, एक प्रणाली जिसे ट्रिलियम साउंड रिसर्च द्वारा विकसित किया गया था। जबकि नेक्स्ट सफल नहीं हुआ, जॉब्स ने अंततः 90 के दशक में इस प्रोग्राम को एप्पल के साथ मिला दिया।
1990 का दशक
प्रारंभिक संस्करणों के संश्लेषित टेक्स्ट-टू-स्पीच सिस्टम स्पष्ट रूप से रोबोटिक लगते थे, लेकिन 80 के दशक के अंत और 90 के दशक की शुरुआत में यह बदलने लगा। नरम व्यंजन बोलने वाली मशीनों को इलेक्ट्रॉनिक धार खोने और अधिक मानवीय ध्वनि बनाने की अनुमति देते हैं। 1990 में, एटी एंड टी बेल लैबोरेटरीज में एन सिरडल ने एक महिला भाषण संश्लेषक आवाज विकसित की। इंजीनियरों ने 90 के दशक के दौरान आवाजों को अधिक प्राकृतिक बनाने के लिए काम किया।
1999 में, माइक्रोसॉफ्ट ने नैरेटर जारी किया, जो एक स्क्रीन रीडर समाधान है जो अब माइक्रोसॉफ्ट विंडोज की हर प्रति में शामिल है।
2000 का दशक
2000 के दशक के दौरान भाषण संश्लेषण को कुछ समस्याओं का सामना करना पड़ा, क्योंकि डेवलपर्स संश्लेषित भाषण के लिए सहमत मानकों को बनाने के लिए संघर्ष कर रहे थे। चूंकि भाषण अत्यधिक व्यक्तिगत होता है, इसलिए दुनिया भर के लोगों के लिए ध्वन्यात्मक, द्विध्वन्य, स्वर, स्वर, पैटर्न प्लेबैक और उतार-चढ़ाव के उचित उच्चारण पर सहमत होना कठिन होता है।
90 के दशक में फॉर्मेंट संश्लेषण भाषण ऑडियो की गुणवत्ता भी अधिक चिंता का विषय बन गई, क्योंकि इंजीनियरों और शोधकर्ताओं ने देखा कि प्रयोगशाला में संश्लेषित भाषण को चलाने के लिए उपयोग की जाने वाली प्रणालियों की गुणवत्ता अक्सर उस उपकरण से कहीं अधिक उन्नत होती थी जो उपयोगकर्ता के पास होता था। भाषण संश्लेषण के बारे में सोचते समय, कई लोग स्टीफन हॉकिंग की आवाज़ संश्लेषक के बारे में सोचते हैं, जिसने थोड़ी मानवीय ध्वनि के साथ एक रोबोटिक ध्वनि वाली आवाज़ प्रदान की।
2005 में, शोधकर्ताओं ने अंततः कुछ सहमति बनाई और एक सामान्य भाषण डेटासेट का उपयोग करना शुरू किया, जिससे उन्हें उच्च-स्तरीय भाषण संश्लेषण प्रणालियों को बनाते समय एक ही बुनियादी आदर्शों से काम करने की अनुमति मिली।
2007 में, एक अध्ययन किया गया जिसमें दिखाया गया कि श्रोता यह पता लगा सकते हैं कि बोलने वाला व्यक्ति मुस्कुरा रहा है या नहीं। शोधकर्ता यह पता लगाने के लिए काम करना जारी रख रहे हैं कि इस जानकारी का उपयोग अधिक प्राकृतिक भाषण पहचान और भाषण संश्लेषण सॉफ़्टवेयर बनाने के लिए कैसे किया जाए।
2010 का दशक
आज, भाषण संकेतों का उपयोग करने वाले भाषण संश्लेषण उत्पाद हर जगह हैं, जैसे सिरी से लेकर एलेक्सा तक। इलेक्ट्रॉनिक भाषण संश्लेषक न केवल जीवन को आसान बनाते हैं - वे जीवन को अधिक मजेदार भी बनाते हैं। चाहे आप टीटीएस सिस्टम का उपयोग करके चलते-फिरते उपन्यास सुन रहे हों या आप ऐसे ऐप्स का उपयोग कर रहे हों जो विदेशी भाषा सीखना आसान बनाते हैं, यह संभावना है कि आप अपने न्यूरल नेटवर्क को दैनिक आधार पर सक्रिय करने के लिए टेक्स्ट टू स्पीच तकनीक का उपयोग कर रहे हैं।
भविष्य
आने वाले वर्षों में, यह संभावना है कि आवाज़ संश्लेषण तकनीक मस्तिष्क का एक मॉडल बनाने पर ध्यान केंद्रित करेगी ताकि यह बेहतर ढंग से समझा जा सके कि हम अपने दिमाग में भाषण डेटा को कैसे रिकॉर्ड करते हैं। भाषण प्रौद्योगिकी यह समझने के लिए भी काम करेगी कि भाषण में भावना की क्या भूमिका होती है, और इस जानकारी का उपयोग एआई आवाज़ें बनाने के लिए करेगी जो वास्तविक मनुष्यों से अप्रभेद्य हों।
वॉयस सिंथेसिस टेक्नोलॉजी में नवीनतम: स्पीचिफाई
पहले के भाषण संश्लेषण प्रौद्योगिकी से संक्रमण के बारे में सीखते समय, यह कल्पना करना अद्भुत है कि विज्ञान कितनी दूर आ गया है। आज, स्पीचिफाई जैसे ऐप्स किसी भी टेक्स्ट को ऑडियो फाइलों में अनुवाद करना आसान बनाते हैं। केवल एक बटन के स्पर्श (या ऐप पर टैप) के साथ, स्पीचिफाई वेबसाइटों, दस्तावेज़ों और टेक्स्ट की छवियों को प्राकृतिक ध्वनि वाले भाषण में अनुवाद करने में सक्षम है। स्पीचिफाई की लाइब्रेरी आपके सभी उपकरणों में सिंक होती है, जिससे चलते-फिरते सीखना और काम करना आपके लिए सरल हो जाता है। एप्पल के ऐप स्टोर और एंड्रॉइड के गूगल प्ले में स्पीचिफाई ऐप देखें।
सामान्य प्रश्न
टेक्स्ट-टू-स्पीच का आविष्कार किसने किया?
अंग्रेजी के लिए टेक्स्ट-टू-स्पीच का आविष्कार नोरिको उमेडा ने किया था। यह प्रणाली 1968 में जापान के इलेक्ट्रोटेक्निकल प्रयोगशाला में विकसित की गई थी।
टेक्स्ट-टू-स्पीच का उद्देश्य क्या है?
कई लोग टेक्स्ट-टू-स्पीच तकनीक का उपयोग करते हैं। जो लोग अपनी जानकारी ऑडियो फॉर्मेट में प्राप्त करना पसंद करते हैं, टीटीएस तकनीक उनके लिए आवश्यक जानकारी प्राप्त करना आसान बना सकती है, बिना किताब के सामने घंटों बिताए। व्यस्त पेशेवर भी टीटीएस तकनीक का उपयोग करते हैं ताकि वे अपने काम के शीर्ष पर बने रह सकें जब वे कंप्यूटर स्क्रीन के सामने बैठने में असमर्थ होते हैं। कई प्रकार की टीटीएस तकनीक मूल रूप से दृष्टिबाधित लोगों के लिए विकसित की गई थी, और टीटीएस अभी भी उन लोगों के लिए एक शानदार तरीका है जो देखने में कठिनाई का सामना करते हैं, ताकि वे आवश्यक जानकारी प्राप्त कर सकें।
आप भाषण को कैसे संश्लेषित करते हैं?
रिकॉर्ड किए गए भाषण के टुकड़े विभिन्न इकाइयों में एक डेटाबेस में संग्रहीत होते हैं। सॉफ़्टवेयर यूनिट चयन के माध्यम से ऑडियो फाइलें तैयार करता है। वहां से, एक आवाज बनाई जाती है। अक्सर, किसी प्रोग्राम की आउटपुट रेंज जितनी बड़ी होती है, उतना ही प्रोग्राम उपयोगकर्ताओं को स्पष्ट आवाज़ प्रदान करने में संघर्ष करता है।
टायलर वेट्ज़मैन
टायलर वेट्ज़मैन स्पीचिफाई के सह-संस्थापक, हेड ऑफ आर्टिफिशियल इंटेलिजेंस और अध्यक्ष हैं, जो दुनिया की नंबर 1 टेक्स्ट-टू-स्पीच ऐप है, जिसे 100,000 से अधिक 5-स्टार समीक्षाएं मिली हैं। वेट्ज़मैन स्टैनफोर्ड यूनिवर्सिटी के स्नातक हैं, जहां उन्होंने गणित में बीएस और आर्टिफिशियल इंटेलिजेंस ट्रैक में कंप्यूटर साइंस में एमएस प्राप्त किया। उन्हें इंक. मैगज़ीन द्वारा शीर्ष 50 उद्यमियों में चुना गया है, और उन्हें बिजनेस इनसाइडर, टेकक्रंच, लाइफहैकर, सीबीएस, और अन्य प्रकाशनों में चित्रित किया गया है। वेट्ज़मैन की मास्टर्स डिग्री का शोध आर्टिफिशियल इंटेलिजेंस और टेक्स्ट-टू-स्पीच पर केंद्रित था, जहां उनका अंतिम पेपर शीर्षक था: “क्लोनबॉट: व्यक्तिगत संवाद-प्रतिक्रिया भविष्यवाणियाँ।”