Social Proof

Microsoft VALL-E क्या है?

स्पीचिफाई दुनिया का नंबर 1 ऑडियो रीडर है। किताबें, दस्तावेज़, लेख, पीडीएफ, ईमेल - जो कुछ भी आप पढ़ते हैं - उसे तेजी से पूरा करें।

प्रमुख प्रकाशनों में

forbes logocbs logotime magazine logonew york times logowall street logo
इस लेख को Speechify के साथ सुनें!
Speechify

Microsoft VALL-E नवीनतम तकनीकी प्रगति का प्रतिनिधित्व करता है जो पूरी तरह से प्राकृतिक ध्वनि वाले TTS को शक्ति प्रदान कर सकता है। यहां तकनीक का विस्तृत विश्लेषण है।

टेक्स्ट टू स्पीच तकनीक ने विशेष रूप से पिछले कुछ वर्षों में बड़े पैमाने पर प्रगति की है। कृत्रिम बुद्धिमत्ता में सुधार के कारण, आज का TTS मानव भाषण की नकल करते हुए उच्च गुणवत्ता वाले रीडआउट प्रदान कर सकता है।

Microsoft का VALL-E नवीनतम तकनीकी समाधान है जो टेक्स्ट टू स्पीच को बिल्कुल असाधारण बना सकता है। यह शून्य-शॉट मशीन लर्निंग पर आधारित एक न्यूरल कोडेक भाषा मॉडल है।

यदि पिछला वाक्य विज्ञान-कथा तकनीकी शब्दजाल जैसा लगता है, तो चिंता न करें। हम नीचे दिए गए लेख में VALL-E के पीछे के जटिल अवधारणाओं को समझाएंगे।

Microsoft VALL-E की व्याख्या

एआई मॉडल तेजी से शक्ति में बढ़ रहे हैं। अब तक, हर कोई OpenAI के ChatGPT के बारे में जानता है, जो शायद एआई को वास्तविक व्यक्ति जैसा दिखने के सबसे करीब है। और आपने शायद DALL-E इंजन से कुछ एआई-संचालित कला देखी होगी।

OpenAI जैसी स्टार्टअप्स के अलावा, Microsoft जैसी वैश्विक कंपनियां एआई क्षेत्र में महत्वपूर्ण खिलाड़ी रही हैं।

Microsoft के शोधकर्ता हाल ही में टेक्स्ट टू स्पीच सिंथेसिस में प्रगति पर काम कर रहे हैं। VALL-E इसका प्रतिनिधित्व करता है।

नई एआई संभवतः TTS परिदृश्य में एक गेम-चेंजर होगी क्योंकि यह एक छोटे ऑडियो नमूने के आधार पर मानव-समान भाषण उत्पन्न कर सकती है। VALL-E के लिए विशिष्ट वक्ता के पैटर्न को पकड़ने के लिए तीन-सेकंड का ध्वनिक संकेत पर्याप्त है।

वक्ता संकेत प्राप्त करने के बाद, एआई मानव की आवाज की नकल कर सकता है और यहां तक कि उनके भावनात्मक स्वर का अनुकरण भी कर सकता है। समान रूप से प्रभावशाली, VALL-E अनदेखे वक्ता के ध्वनिक वातावरण को संरक्षित करता है।

सरल शब्दों में, VALL-E मॉडल वक्ता समानता में उत्कृष्ट है। आप इसे GitHub पर कार्रवाई में सुन सकते हैं, जहां Microsoft ने ऑडियो उदाहरणों के साथ एआई की विस्तृत व्याख्या साझा की है।

बेशक, ऐसी तकनीक के कई संभावित उपयोग हैं, जैसे पॉडकास्ट और ऑडियोबुक बनाना। संभावनाएं और बढ़ सकती हैं क्योंकि VALL-E GPT-3 जैसे जनरेटिव मॉडलों के साथ संयोजन करता है।

लेकिन VALL-E जैसी तकनीक का उपयोग अधिक दुर्भावनापूर्ण उद्देश्यों के लिए भी किया जा सकता है।

चूंकि VALL-E एक वास्तविक व्यक्ति की तरह डरावनी आवाज कर सकता है, यह देखना आसान है कि कैसे दुर्भावनापूर्ण अभिनेता गैर-सहमति, हानिकारक डीपफेक जैसे घोटालों के लिए तकनीक का उपयोग कर सकते हैं। ऐसी संभावनाओं ने Microsoft को एक नैतिकता वक्तव्य जारी करने के लिए प्रेरित किया।

वक्तव्य में, कंपनी ने विशिष्ट भाषण संपादन मॉडलों की वकालत की जो मूल वक्ता से सहमति सुनिश्चित करेंगे।

लेकिन VALL-E के संभावित उपयोगों के आसपास की विवादास्पद बातें भविष्य के लिए एक विचार हैं। फिलहाल, एक अधिक रोमांचक सवाल सामने है:

एआई केवल तीन-सेकंड के ऑडियो को आधार नमूने के रूप में लेकर जटिल पैटर्न की नकल कैसे करता है?

अप्रत्याशित रूप से, उत्तर काफी जटिल है।

VALL-E के पास व्यापक प्रशिक्षण डेटा था, जिसमें हजारों घंटे के अंग्रेजी भाषण शामिल थे। इसने एआई को सहज अंग्रेजी भाषा भाषण अनुकरण के लिए तैयार किया। हालांकि, VALL-E आपका साधारण TTS सिस्टम नहीं है - यह अत्याधुनिक मशीन-लर्निंग तकनीक द्वारा संचालित है।

हम पहले ही तकनीक का नाम बता चुके हैं: शून्य-शॉट न्यूरल कोडेक भाषा मॉडल। आइए देखें कि ये शब्द व्यवहार में क्या अर्थ रखते हैं।

शून्य-शॉट न्यूरल कोडेक भाषा मॉडलों को समझना

सरल शब्द से शुरू करते हुए, "शून्य-शॉट" टेक्स्ट टू स्पीच इंजनों के लिए एक विशिष्ट तकनीक को संदर्भित करता है। यह पहले से अज्ञात डेटा के आधार पर एआई-जनित भाषण की अनुमति देता है। दूसरे शब्दों में, कंप्यूटर उस टेक्स्ट को जोर से पढ़ सकता है जिसे उसने पहले कभी "देखा" नहीं है।

और भी प्रभावशाली, शून्य-शॉट तकनीक मशीन को बिना किसी अतिरिक्त प्रशिक्षण के रीडआउट उत्पन्न करने की अनुमति देती है। मूल रूप से, यह उसी तरह है जैसे मनुष्य पहले से अपरिचित टेक्स्ट को उस भाषा में पढ़ सकते हैं जिसे वे पहले से जानते हैं।

जटिल भाग की ओर बढ़ते हुए, "न्यूरल कोडेक भाषा मॉडल" को और अधिक विश्लेषण की आवश्यकता है।

TTS इंजन लिखित टेक्स्ट के आधार पर वेवफॉर्म बनाने के लिए ऑडियो कोडेक्स पर निर्भर करते हैं। कोडेक एआई को लिखित अक्षरों, शब्दों और वाक्यों को संबंधित ध्वनियों में अनुवाद करने में मदद करता है। एक न्यूरल कोडेक भी यही उद्देश्य पूरा करता है लेकिन यह एक मजबूत न्यूरल नेटवर्क पर आधारित होता है।

बेशक, यह एक अतिरिक्त प्रश्न उठाता है: एक न्यूरल नेटवर्क क्या है?

हम इसे यहां व्यापक स्ट्रोक में समझाएंगे बिना और गहराई में जाए। एक न्यूरल नेटवर्क मानव मस्तिष्क के कार्य करने के तरीके की नकल करने का प्रयास करता है। नेटवर्क कृत्रिम न्यूरॉन्स जिन्हें नोड्स कहा जाता है, से बना होता है, जो परतों में जुड़े और व्यवस्थित होते हैं।

जटिल संरचना तथाकथित गहन शिक्षण को सक्षम बनाती है, जिससे मशीन को अपरिचित पैटर्न विकसित करने और अनुकूलित करने में अधिक सक्षम बनाता है।

न्यूरल कोडेक भाषा मॉडल को शक्ति देता है, जो इस टेक्स्ट टू स्पीच समीकरण का दूसरा हिस्सा है।

भाषा मॉडल किसी भी टेक्स्ट इनपुट को वास्तविक भाषा के संदर्भ में समझने के लिए एक डेटासेट का उपयोग करता है। दूसरे शब्दों में, यह मशीन के लिए टेक्स्ट को "समझने" का तरीका है।

VALL-E के मामले में, फेसबुक के मेटा द्वारा संकलित ऑडियो लाइब्रेरी LibriLight ने AI के भाषा मॉडल की नींव के रूप में कार्य किया।

स्पीचिफाई के साथ अत्याधुनिक TTS तकनीक को क्रियान्वित होते हुए सुनें

हालांकि VALL-E अभी तक जनता के लिए उपलब्ध नहीं है, आप स्पीचिफाई के साथ एक उन्नत टेक्स्ट टू स्पीच इंजन की आवाज़ सुन सकते हैं। स्पीचिफाई एक TTS सेवा है जो लगभग किसी भी स्रोत से टेक्स्ट को जोर से पढ़ सकती है।

चाहे आप इसे लिखित टेक्स्ट दें, वेब सामग्री, या एक स्कैन किया हुआ पृष्ठ, स्पीचिफाई इसे तुरंत पढ़ेगा। और भी बेहतर, इंजन में नैरेशन आवाज़ें हैं जो प्राकृतिक लगती हैं। सामान्य रोबोटिक TTS इंजनों के विपरीत, स्पीचिफाई एक मशीन की तुलना में अधिक मानव की तरह लगता है।

इसके अलावा, आप स्पीचिफाई के पढ़ने के तरीके को समायोजित कर सकते हैं। अपनी पसंदीदा भाषा, कथावाचक, और पढ़ने की गति चुनें, और किसी भी टेक्स्ट को ठीक उसी तरह सुनें जैसा आप चाहते हैं।

यदि यह सब रोमांचक लगता है, तो आप आज ही स्पीचिफाई को मुफ्त में आज़मा सकते हैं

सामान्य प्रश्न

क्या लोग Vall-E का उपयोग कर सकते हैं?

VALL-E के दुरुपयोग को लेकर कई चिंताएँ हैं। पहचान की चोरी एक विशेष रूप से चिंताजनक संभावना है। इस कारण से, माइक्रोसॉफ्ट ने VALL-E को सार्वजनिक रूप से उपलब्ध नहीं कराने का निर्णय लिया है।

माइक्रोसॉफ्ट AI क्या है?

माइक्रोसॉफ्ट AI कोई विशेष उत्पाद नहीं है। इसके बजाय, कंपनी का कार्यक्रम AI विकास ढांचे के रूप में कार्य करता है। माइक्रोसॉफ्ट AI में डेटा विज्ञान समाधान, संवादात्मक AI, रोबोटिक्स, मशीन लर्निंग, और उद्योग में अन्य प्रगति शामिल हैं।

वॉइस-ड्रिवन इंटरफेस क्या है?

वॉइस-ड्रिवन इंटरफेस वही है जैसा यह सुनाई देता है - एक उपयोगकर्ता इंटरफेस जिससे आप वॉइस कमांड के माध्यम से बातचीत करते हैं। यह तकनीक स्मार्ट उपकरणों में पहले से ही आम है – जैसे अमेज़न का एलेक्सा, एप्पल का सिरी, माइक्रोसॉफ्ट का कोरटाना, या गूगल का असिस्टेंट।

रोबोट क्या है?

"रोबोट" शब्द का अर्थ है कोई भी मशीन जो स्वचालित रूप से काम करती है। ऐसी मशीनें मानव श्रम के प्रतिस्थापन के रूप में डिज़ाइन की जाती हैं। लोकप्रिय मीडिया में सामान्य चित्रण के बावजूद, अधिकांश रोबोट मानवाकृति नहीं होते। वास्तव में, उनके पास भौतिक रूप भी नहीं हो सकता है। उदाहरण के लिए, आज के लोकप्रिय वर्चुअल असिस्टेंट भी रोबोट के रूप में गिने जाते हैं।

Cliff Weitzman

क्लिफ वेट्ज़मैन

क्लिफ वेट्ज़मैन डिस्लेक्सिया के समर्थक और स्पीचिफाई के सीईओ और संस्थापक हैं, जो दुनिया का नंबर 1 टेक्स्ट-टू-स्पीच ऐप है, जिसे 100,000 से अधिक 5-स्टार समीक्षाएं मिली हैं और यह ऐप स्टोर में न्यूज़ और मैगज़ीन श्रेणी में पहले स्थान पर है। 2017 में, वेट्ज़मैन को फोर्ब्स 30 अंडर 30 सूची में शामिल किया गया था, उनके काम के लिए जो उन्होंने सीखने की अक्षमताओं वाले लोगों के लिए इंटरनेट को अधिक सुलभ बनाने में किया। क्लिफ वेट्ज़मैन को एडसर्ज, इंक., पीसी मैग, एंटरप्रेन्योर, मैशेबल, और अन्य प्रमुख आउटलेट्स में चित्रित किया गया है।