1. मुखपृष्ठ
  2. टीटीएस
  3. टेक्स्ट टू स्पीच का संक्षिप्त इतिहास
टीटीएस

टेक्स्ट टू स्पीच का संक्षिप्त इतिहास

Tyler Weitzman

टायलर वेट्ज़मैन

कंप्यूटर साइंस में एमएस, स्टैनफोर्ड यूनिवर्सिटी, डिस्लेक्सिया और एक्सेसिबिलिटी के समर्थक, स्पीचिफाई के सीईओ/संस्थापक

#1 टेक्स्ट टू स्पीच रीडर।
Speechify को आपको पढ़ने दें।

2025 एप्पल डिज़ाइन अवार्ड
50M+ उपयोगकर्ता
इस लेख को Speechify के साथ सुनें!
speechify logo

स्पीच सिंथेसिस, या मानव आवाज का कृत्रिम उत्पादन, पिछले 70 वर्षों में बहुत आगे बढ़ चुका है। चाहे आप वर्तमान में टेक्स्ट-टू-स्पीच सेवाओं का उपयोग किताबें सुनने, अध्ययन करने, या अपने लिखित कार्य को प्रूफरीड करने के लिए करते हों, इसमें कोई संदेह नहीं है कि टेक्स्ट-टू-स्पीच सेवाओं ने विभिन्न पेशों में लोगों के लिए जीवन को आसान बना दिया है।

यहां, हम देखेंगे कि टेक्स्ट-टू-स्पीच प्रोसेसिंग कैसे काम करती है, और कैसे सहायक तकनीक समय के साथ बदल गई है।

परिचय

1700 के दशक में, रूसी प्रोफेसर क्रिश्चियन क्रैट्ज़ेंस्टीन ने ध्वनिक अनुनादक बनाए जो मानव आवाज की ध्वनि की नकल करते थे। दो दशक बाद, VODER (वॉयस ऑपरेटिंग डेमोंस्ट्रेटर) ने न्यूयॉर्क वर्ल्ड फेयर में बड़ी सुर्खियाँ बटोरीं जब निर्माता होमर डडली ने भीड़ को दिखाया कि कैसे मानव भाषण कृत्रिम तरीकों से बनाया जा सकता है। इस उपकरण को बजाना कठिन था - डडली को फुट पेडल का उपयोग करके मूल आवृत्ति को नियंत्रित करना पड़ता था।

1800 के दशक की शुरुआत में, चार्ल्स व्हीटस्टोन ने पहला यांत्रिक स्पीच सिंथेसाइज़र विकसित किया। इसने आर्टिकुलेटरी सिंथेसिस उपकरणों और प्रौद्योगिकियों के तेजी से विकास की शुरुआत की।

यह तय करना कठिन हो सकता है कि एक अच्छा टेक्स्ट-टू-स्पीच प्रोग्राम क्या बनाता है, लेकिन जीवन की कई चीजों की तरह, जब आप इसे सुनते हैं तो आप इसे जानते हैं। एक उच्च-गुणवत्ता वाला टेक्स्ट-टू-स्पीच प्रोग्राम प्राकृतिक ध्वनि वाली आवाजें प्रदान करता है जिसमें वास्तविक जीवन की अभिव्यक्ति और स्वर होता है।

टेक्स्ट-टू-स्पीच तकनीक दृष्टिहीन और अन्य विकलांगताओं के साथ रहने वाले लोगों को काम में सफल होने और दूसरों के साथ संवाद करने के लिए आवश्यक जानकारी प्राप्त करने में मदद कर सकती है। यह सॉफ़्टवेयर छात्रों और भारी पढ़ाई के बोझ वाले अन्य लोगों को चलते-फिरते मानव भाषण के माध्यम से अपनी जानकारी सुनने की अनुमति भी देता है। सिंथेटिक भाषण लोगों को कम समय में अधिक काम करने की अनुमति देता है, और वीडियो गेम निर्माण से लेकर भाषा प्रसंस्करण में अंतर वाले लोगों की मदद करने तक विभिन्न सेटिंग्स में उपयोगी हो सकता है।

1950 और 60 के दशक

1950 के दशक के अंत में, पहले स्पीच सिंथेसिस सिस्टम बनाए गए थे। ये सिस्टम कंप्यूटर-आधारित थे। 1961 में, बेल लैब्स के भौतिक विज्ञानी जॉन लैरी केली जूनियर ने एक आईबीएम कंप्यूटर का उपयोग करके भाषण का सिंथेसिस किया। उनके वोकोडर (वॉयस रिकॉर्डर सिंथेसाइज़र) ने डेज़ी बेल गीत को फिर से बनाया।

जब केली अपने वोकोडर को परिपूर्ण कर रहे थे, 2001: ए स्पेस ओडिसी के लेखक आर्थर सी. क्लार्क ने अपनी पुस्तक की पटकथा में केली के प्रदर्शन का उपयोग किया। दृश्य के दौरान HAL 9000 कंप्यूटर डेज़ी बेल गाता है।

1966 में, रैखिक भविष्यवाणी कोडिंग दृश्य में आई। भाषण कोडिंग का यह रूप फुमितादा इताकुरा और शुजो साइटो के तहत विकसित होना शुरू हुआ। बिष्णु एस. अटल और मैनफ्रेड आर. श्रेडर ने भी रैखिक भविष्यवाणी कोडिंग के विकास में योगदान दिया।

1970 के दशक

1975 में, इताकुरा द्वारा लाइन स्पेक्ट्रल पेयर्स विधि विकसित की गई थी। इस उच्च-संपीड़न भाषण कोडिंग विधि ने इताकुरा को भाषण विश्लेषण और संश्लेषण के बारे में अधिक जानने में मदद की, कमजोर बिंदुओं को खोजने और उन्हें बेहतर बनाने का तरीका खोजने में मदद की।

इस वर्ष, MUSA भी जारी किया गया था। इस स्टैंड-अलोन स्पीच सिंथेसिस सिस्टम ने एक एल्गोरिदम का उपयोग करके इतालवी को जोर से पढ़ा। तीन साल बाद जारी एक संस्करण इतालवी में गा सकता था।

70 के दशक में, पहला आर्टिकुलेटरी सिंथेसाइज़र विकसित किया गया और मानव वोकल ट्रैक्ट पर आधारित था। पहला ज्ञात सिंथेसाइज़र टॉम बेयर, पॉल मर्मेलस्टीन, और फिलिप रुबिन द्वारा हस्किन्स प्रयोगशालाओं में विकसित किया गया था। इस तिकड़ी ने 60 और 70 के दशक में बेल प्रयोगशालाओं में बनाए गए वोकल ट्रैक्ट मॉडलों से जानकारी का उपयोग किया।

1976 में, दृष्टिहीनों के लिए कर्ज़वील रीडिंग मशीनें पेश की गईं। जबकि ये उपकरण आम जनता के लिए बहुत महंगे थे, पुस्तकालय अक्सर दृष्टिहीन लोगों के लिए किताबें सुनने के लिए उन्हें प्रदान करते थे।

रैखिक भविष्यवाणी कोडिंग सिंथेसाइज़र चिप्स के लिए शुरुआती बिंदु बन गई। टेक्सास इंस्ट्रूमेंट्स एलपीसी स्पीच चिप्स और 1970 के दशक के अंत के स्पीक एंड स्पेल खिलौनों ने सिंथेसाइज़र चिप तकनीक का उपयोग किया। ये खिलौने मानव आवाज संश्लेषण के उदाहरण थे जिनमें सटीक स्वर थे, जो उस समय की आमतौर पर रोबोटिक ध्वनि वाली सिंथेसाइज़्ड आवाजों से अलग थे। इस दशक के दौरान भाषण संश्लेषण की क्षमता वाले कई हैंडहेल्ड इलेक्ट्रॉनिक्स लोकप्रिय हो गए, जिनमें दृष्टिहीनों के लिए टेलीसेन्सरी सिस्टम्स स्पीच+ कैलकुलेटर शामिल था। फिडेलिटी वॉयस चेस चैलेंजर, एक शतरंज कंप्यूटर जो भाषण का सिंथेसिस कर सकता था, 1979 में जारी किया गया था।

1980 के दशक

1980 के दशक में, भाषण संश्लेषण ने वीडियो गेम की दुनिया में हलचल मचाना शुरू कर दिया। 1980 में स्ट्रैटोवॉक्स (एक शूटिंग शैली का आर्केड गेम) को सन इलेक्ट्रॉनिक्स द्वारा जारी किया गया था। मैनबिकी शोजो (अंग्रेजी में अनुवादित 'शॉपलिफ्टिंग गर्ल') पहला व्यक्तिगत कंप्यूटर गेम था जिसमें भाषण संश्लेषण की क्षमता थी। इलेक्ट्रॉनिक गेम मिल्टन भी 1980 में जारी किया गया था - यह मिल्टन ब्रैडली कंपनी का पहला इलेक्ट्रॉनिक गेम था जिसमें मानव आवाज़ को संश्लेषित करने की क्षमता थी।

1983 में, एक स्वतंत्र ध्वनिक-यांत्रिक भाषण मशीन जिसे DECtalk कहा जाता था, आई। DECtalk शब्दों की ध्वन्यात्मक वर्तनी को समझता था, जिससे असामान्य शब्दों का अनुकूलित उच्चारण संभव हो सका। इन ध्वन्यात्मक वर्तनी में एक स्वर संकेतक भी शामिल हो सकता था जिसे DECtalk ध्वन्यात्मक घटकों का उच्चारण करते समय उपयोग करता था। इसने DECtalk को गाने की अनुमति दी।

80 के दशक के अंत में, स्टीव जॉब्स ने नेक्स्ट बनाया, एक प्रणाली जिसे ट्रिलियम साउंड रिसर्च द्वारा विकसित किया गया था। जबकि नेक्स्ट सफल नहीं हुआ, जॉब्स ने अंततः 90 के दशक में इस प्रोग्राम को एप्पल के साथ मिला दिया।

1990 का दशक

प्रारंभिक संस्करणों के संश्लेषित टेक्स्ट-टू-स्पीच सिस्टम स्पष्ट रूप से रोबोटिक लगते थे, लेकिन 80 के दशक के अंत और 90 के दशक की शुरुआत में यह बदलने लगा। नरम व्यंजन बोलने वाली मशीनों को इलेक्ट्रॉनिक धार खोने और अधिक मानवीय ध्वनि बनाने की अनुमति देते हैं। 1990 में, एटी एंड टी बेल लैबोरेटरीज में एन सिरडल ने एक महिला भाषण संश्लेषक आवाज विकसित की। इंजीनियरों ने 90 के दशक के दौरान आवाजों को अधिक प्राकृतिक बनाने के लिए काम किया।

1999 में, माइक्रोसॉफ्ट ने नैरेटर जारी किया, जो एक स्क्रीन रीडर समाधान है जो अब माइक्रोसॉफ्ट विंडोज की हर प्रति में शामिल है।

2000 का दशक

2000 के दशक के दौरान भाषण संश्लेषण को कुछ समस्याओं का सामना करना पड़ा, क्योंकि डेवलपर्स संश्लेषित भाषण के लिए सहमत मानकों को बनाने के लिए संघर्ष कर रहे थे। चूंकि भाषण अत्यधिक व्यक्तिगत होता है, इसलिए दुनिया भर के लोगों के लिए ध्वन्यात्मक, द्विध्वन्य, स्वर, स्वर, पैटर्न प्लेबैक और उतार-चढ़ाव के उचित उच्चारण पर सहमत होना कठिन होता है।

90 के दशक में फॉर्मेंट संश्लेषण भाषण ऑडियो की गुणवत्ता भी अधिक चिंता का विषय बन गई, क्योंकि इंजीनियरों और शोधकर्ताओं ने देखा कि प्रयोगशाला में संश्लेषित भाषण को चलाने के लिए उपयोग की जाने वाली प्रणालियों की गुणवत्ता अक्सर उस उपकरण से कहीं अधिक उन्नत होती थी जो उपयोगकर्ता के पास होता था। भाषण संश्लेषण के बारे में सोचते समय, कई लोग स्टीफन हॉकिंग की आवाज़ संश्लेषक के बारे में सोचते हैं, जिसने थोड़ी मानवीय ध्वनि के साथ एक रोबोटिक ध्वनि वाली आवाज़ प्रदान की।

2005 में, शोधकर्ताओं ने अंततः कुछ सहमति बनाई और एक सामान्य भाषण डेटासेट का उपयोग करना शुरू किया, जिससे उन्हें उच्च-स्तरीय भाषण संश्लेषण प्रणालियों को बनाते समय एक ही बुनियादी आदर्शों से काम करने की अनुमति मिली।

2007 में, एक अध्ययन किया गया जिसमें दिखाया गया कि श्रोता यह पता लगा सकते हैं कि बोलने वाला व्यक्ति मुस्कुरा रहा है या नहीं। शोधकर्ता यह पता लगाने के लिए काम करना जारी रख रहे हैं कि इस जानकारी का उपयोग अधिक प्राकृतिक भाषण पहचान और भाषण संश्लेषण सॉफ़्टवेयर बनाने के लिए कैसे किया जाए।

2010 का दशक

आज, भाषण संकेतों का उपयोग करने वाले भाषण संश्लेषण उत्पाद हर जगह हैं, जैसे सिरी से लेकर एलेक्सा तक। इलेक्ट्रॉनिक भाषण संश्लेषक न केवल जीवन को आसान बनाते हैं - वे जीवन को अधिक मजेदार भी बनाते हैं। चाहे आप टीटीएस सिस्टम का उपयोग करके चलते-फिरते उपन्यास सुन रहे हों या आप ऐसे ऐप्स का उपयोग कर रहे हों जो विदेशी भाषा सीखना आसान बनाते हैं, यह संभावना है कि आप अपने न्यूरल नेटवर्क को दैनिक आधार पर सक्रिय करने के लिए टेक्स्ट टू स्पीच तकनीक का उपयोग कर रहे हैं।

भविष्य

आने वाले वर्षों में, यह संभावना है कि आवाज़ संश्लेषण तकनीक मस्तिष्क का एक मॉडल बनाने पर ध्यान केंद्रित करेगी ताकि यह बेहतर ढंग से समझा जा सके कि हम अपने दिमाग में भाषण डेटा को कैसे रिकॉर्ड करते हैं। भाषण प्रौद्योगिकी यह समझने के लिए भी काम करेगी कि भाषण में भावना की क्या भूमिका होती है, और इस जानकारी का उपयोग एआई आवाज़ें बनाने के लिए करेगी जो वास्तविक मनुष्यों से अप्रभेद्य हों।

वॉयस सिंथेसिस टेक्नोलॉजी में नवीनतम: स्पीचिफाई

पहले के भाषण संश्लेषण प्रौद्योगिकी से संक्रमण के बारे में सीखते समय, यह कल्पना करना अद्भुत है कि विज्ञान कितनी दूर आ गया है। आज, स्पीचिफाई जैसे ऐप्स किसी भी टेक्स्ट को ऑडियो फाइलों में अनुवाद करना आसान बनाते हैं। केवल एक बटन के स्पर्श (या ऐप पर टैप) के साथ, स्पीचिफाई वेबसाइटों, दस्तावेज़ों और टेक्स्ट की छवियों को प्राकृतिक ध्वनि वाले भाषण में अनुवाद करने में सक्षम है। स्पीचिफाई की लाइब्रेरी आपके सभी उपकरणों में सिंक होती है, जिससे चलते-फिरते सीखना और काम करना आपके लिए सरल हो जाता है। एप्पल के ऐप स्टोर और एंड्रॉइड के गूगल प्ले में स्पीचिफाई ऐप देखें।  

सामान्य प्रश्न

टेक्स्ट-टू-स्पीच का आविष्कार किसने किया?

अंग्रेजी के लिए टेक्स्ट-टू-स्पीच का आविष्कार नोरिको उमेडा ने किया था। यह प्रणाली 1968 में जापान के इलेक्ट्रोटेक्निकल प्रयोगशाला में विकसित की गई थी।

टेक्स्ट-टू-स्पीच का उद्देश्य क्या है?

कई लोग टेक्स्ट-टू-स्पीच तकनीक का उपयोग करते हैं। जो लोग अपनी जानकारी ऑडियो फॉर्मेट में प्राप्त करना पसंद करते हैं, टीटीएस तकनीक उनके लिए आवश्यक जानकारी प्राप्त करना आसान बना सकती है, बिना किताब के सामने घंटों बिताए। व्यस्त पेशेवर भी टीटीएस तकनीक का उपयोग करते हैं ताकि वे अपने काम के शीर्ष पर बने रह सकें जब वे कंप्यूटर स्क्रीन के सामने बैठने में असमर्थ होते हैं। कई प्रकार की टीटीएस तकनीक मूल रूप से दृष्टिबाधित लोगों के लिए विकसित की गई थी, और टीटीएस अभी भी उन लोगों के लिए एक शानदार तरीका है जो देखने में कठिनाई का सामना करते हैं, ताकि वे आवश्यक जानकारी प्राप्त कर सकें।

आप भाषण को कैसे संश्लेषित करते हैं?

रिकॉर्ड किए गए भाषण के टुकड़े विभिन्न इकाइयों में एक डेटाबेस में संग्रहीत होते हैं। सॉफ़्टवेयर यूनिट चयन के माध्यम से ऑडियो फाइलें तैयार करता है। वहां से, एक आवाज बनाई जाती है। अक्सर, किसी प्रोग्राम की आउटपुट रेंज जितनी बड़ी होती है, उतना ही प्रोग्राम उपयोगकर्ताओं को स्पष्ट आवाज़ प्रदान करने में संघर्ष करता है।

सबसे उन्नत AI आवाजों का आनंद लें, असीमित फाइलें, और 24/7 समर्थन

मुफ्त में आज़माएं
tts banner for blog

इस लेख को साझा करें

Tyler Weitzman

टायलर वेट्ज़मैन

कंप्यूटर साइंस में एमएस, स्टैनफोर्ड यूनिवर्सिटी, डिस्लेक्सिया और एक्सेसिबिलिटी के समर्थक, स्पीचिफाई के सीईओ/संस्थापक

टायलर वेट्ज़मैन स्पीचिफाई के सह-संस्थापक, हेड ऑफ आर्टिफिशियल इंटेलिजेंस और अध्यक्ष हैं, जो दुनिया की नंबर 1 टेक्स्ट-टू-स्पीच ऐप है, जिसे 100,000 से अधिक 5-स्टार समीक्षाएं मिली हैं। वेट्ज़मैन स्टैनफोर्ड यूनिवर्सिटी के स्नातक हैं, जहां उन्होंने गणित में बीएस और आर्टिफिशियल इंटेलिजेंस ट्रैक में कंप्यूटर साइंस में एमएस प्राप्त किया। उन्हें इंक. मैगज़ीन द्वारा शीर्ष 50 उद्यमियों में चुना गया है, और उन्हें बिजनेस इनसाइडर, टेकक्रंच, लाइफहैकर, सीबीएस, और अन्य प्रकाशनों में चित्रित किया गया है। वेट्ज़मैन की मास्टर्स डिग्री का शोध आर्टिफिशियल इंटेलिजेंस और टेक्स्ट-टू-स्पीच पर केंद्रित था, जहां उनका अंतिम पेपर शीर्षक था: “क्लोनबॉट: व्यक्तिगत संवाद-प्रतिक्रिया भविष्यवाणियाँ।”

speechify logo

Speechify के बारे में

#1 टेक्स्ट टू स्पीच रीडर

Speechify दुनिया का अग्रणी टेक्स्ट टू स्पीच प्लेटफॉर्म है, जिसे 50 मिलियन से अधिक उपयोगकर्ताओं द्वारा भरोसा किया जाता है और इसके टेक्स्ट टू स्पीच iOS, एंड्रॉइड, क्रोम एक्सटेंशन, वेब ऐप, और मैक डेस्कटॉप ऐप्स पर 500,000 से अधिक पांच सितारा समीक्षाओं का समर्थन प्राप्त है। 2025 में, एप्पल ने Speechify को प्रतिष्ठित एप्पल डिज़ाइन अवार्ड से सम्मानित किया, इसे “एक महत्वपूर्ण संसाधन जो लोगों को उनकी ज़िंदगी जीने में मदद करता है” कहा। Speechify 60+ भाषाओं में 1,000+ प्राकृतिक ध्वनियों वाली आवाज़ें प्रदान करता है और लगभग 200 देशों में उपयोग किया जाता है। सेलिब्रिटी आवाज़ों में शामिल हैं स्नूप डॉग, मिस्टर बीस्ट, और ग्विनिथ पाल्ट्रो। रचनाकारों और व्यवसायों के लिए, Speechify स्टूडियो उन्नत उपकरण प्रदान करता है, जिसमें शामिल हैं एआई वॉइस जेनरेटर, एआई वॉइस क्लोनिंग, एआई डबिंग, और इसका एआई वॉइस चेंजर। Speechify अपने उच्च गुणवत्ता वाले, किफायती टेक्स्ट टू स्पीच एपीआई के साथ अग्रणी उत्पादों को भी शक्ति प्रदान करता है। द वॉल स्ट्रीट जर्नल, सीएनबीसी, फोर्ब्स, टेकक्रंच, और अन्य प्रमुख समाचार आउटलेट्स में प्रदर्शित, Speechify दुनिया का सबसे बड़ा टेक्स्ट टू स्पीच प्रदाता है। अधिक जानने के लिए जाएं speechify.com/news, speechify.com/blog, और speechify.com/press