माइक्रोसॉफ्ट टेक्स्ट टू स्पीच
प्रमुख प्रकाशनों में
व्यवसाय, गेमिंग और रोज़मर्रा की कंप्यूटिंग में माइक्रोसॉफ्ट का दबदबा है, लेकिन क्या माइक्रोसॉफ्ट TTS अपनी प्रतिष्ठा पर खरा उतर सकता है?
टेक्स्ट टू स्पीच (TTS) समाधान सहायक तकनीक का एक अनिवार्य हिस्सा बन गए हैं, जो अनगिनत पीसी उपयोगकर्ताओं को लिखित शब्द के साथ बातचीत करने में मदद करते हैं, चाहे वह मनोरंजन के लिए हो, स्कूल के लिए हो या काम के लिए।
जैसा कि आप कल्पना कर सकते हैं, TTS बाजार कुछ हद तक संतृप्त है, जिसमें चुनने के लिए दर्जनों ऐप्स और ब्राउज़र एक्सटेंशन हैं। इनमें से अधिकांश काफी सहायक हैं, और वे आपकी उत्पादकता के लिए चमत्कार करेंगे और आपको एक अधिक उपयोगकर्ता-अनुकूल अनुभव देंगे। आज, हम माइक्रोसॉफ्ट के TTS समाधान — Azure पर ध्यान केंद्रित करेंगे।
माइक्रोसॉफ्ट टेक्स्ट टू स्पीच क्या है?
तो फिर Azure क्या है? इस प्रश्न का उत्तर देने के लिए, हम एक और प्रश्न पूछ सकते हैं: क्या आप प्राकृतिक ध्वनि वाले वॉयसओवर के साथ सामग्री बनाने की शक्ति चाहते हैं या अपनी पसंदीदा पृष्ठों को सुनना चाहते हैं, जिसमें कई अनुकूलन योग्य पैरामीटर होंगे जो आपको भाषण दर, स्वर, उच्चारण और बाकी सब कुछ समायोजित करने देंगे? माइक्रोसॉफ्ट Azure आपको यह सब करने देता है — और भी बहुत कुछ।
Azure एक क्लाउड प्लेटफ़ॉर्म है जो संभावनाओं से भरा हुआ है। Azure कॉग्निटिव सेवाओं के अलावा जो शानदार टेक्स्ट टू स्पीच और स्पीच-टू-टेक्स्ट समाधान प्रदान करती हैं, आप Azure क्लाउड स्टोरेज और एनालिटिक्स का उपयोग कर सकते हैं ताकि बिना किसी जटिल मशीन लर्निंग को सीखे अपनी उत्पादकता को और भी आगे बढ़ा सकें।
विभिन्न ओपन-सोर्स समाधानों के साथ संगत होने के कारण, Azure काफी लचीला भी है। कस्टम-निर्मित ऐप्स में वॉयसओवर को शामिल करना और आपकी लक्षित दर्शकों को गहन मशीन लर्निंग के लाभों का लाभ उठाने देना पहले से कहीं अधिक आसान हो गया है, विशेष रूप से Azure द्वारा आपके निपटान में सौ से अधिक भाषाएं और भाषा वेरिएंट उपलब्ध कराए जाएंगे।
अपने iPhone या कंप्यूटर पर माइक्रोसॉफ्ट के टेक्स्ट टू स्पीच ऐप का उपयोग कैसे करें
अपने डिवाइस पर माइक्रोसॉफ्ट Azure सेट करना काफी सरल है, और आधिकारिक Azure वेबसाइट पर साइन अप करने के लिए कुछ ही क्लिक की आवश्यकता होती है। हालांकि, यदि आपका कंप्यूटर उपयोग Outlook, Word, PowerPoint, Docs, और OneNote तक सीमित है, तो आपको कुछ भी डाउनलोड करने की आवश्यकता नहीं होगी क्योंकि उन कार्यक्रमों में एक अंतर्निहित स्पीच सिंथेसिस समाधान होता है जिसे Speak कहा जाता है।
हालांकि यह उच्च-गुणवत्ता वाली स्पीच सेवा नहीं हो सकती है, लेकिन जब आप जल्दी में होते हैं तो Speak काम आता है, और इसे कॉन्फ़िगर करना बहुत आसान है:
- कस्टमाइज़ टूलबार विकल्प पर क्लिक करें, क्लिक करें
- अधिक कमांड विकल्प चुनें
- सभी कमांड पर क्लिक करें
- Speak खोजें, उस पर क्लिक करें, और फिर Add पर क्लिक करें
माइक्रोसॉफ्ट के टेक्स्ट टू स्पीच एप्लिकेशन के विकल्प
जैसा कि हमने परिचय में उल्लेख किया है, टेक्स्ट रीडर बहुतायत में हैं, पेशेवर ऐप्स से लेकर जो केवल उनकी कीमतों से ही आपको चौंका देंगे, GitHub पर मुश्किल से तैयार स्पीच रिकग्निशन SDKs तक। यदि माइक्रोसॉफ्ट का टेक्स्ट टू स्पीच वॉयस असिस्टेंट आपकी पसंद नहीं है, या यदि आप कुछ विविधता की तलाश में हैं, तो हमारे पास कुछ विकल्प हैं जो निश्चित रूप से आपकी रुचि को बढ़ाएंगे।
स्पीचिफाई
#1 पर है स्पीचिफाई, शीर्ष रेटेड TTS टूल जो लगभग किसी भी चीज़ को ऑडियो फ़ाइल में बदल देगा। यह सभी माइक्रोसॉफ्ट एप्लिकेशन के साथ काम करता है, और इसके स्पीच मॉडल आपको अवाक कर देंगे। इसे शानदार स्पीच API क्षमताओं के साथ जोड़ें, और आपके पास एक बहुमुखी समाधान है जो आपकी सभी आवश्यकताओं और उपयोग मामलों को पूरा करेगा।
अमेज़न पॉली
#2 पर है अमेज़न पॉली, एक शानदार समाधान जो अपनी प्राकृतिक ध्वनि वाली आवाज़ों और कई बोलने की शैलियों के लिए प्रसिद्ध है। यह कई भाषाओं का समर्थन करता है, और इसकी न्यूरल टेक्स्ट टू स्पीच तकनीक आपको बहुत सारे अनुकूलन योग्य सेटिंग्स देगी, जिनके साथ आप जब चाहें अपने पहले से ही प्रामाणिक ध्वनि वाले प्लेबैक में मसाला जोड़ सकते हैं।
गूगल क्लाउड टेक्स्ट टू स्पीच
#3 पर है गूगल का क्लाउड टेक्स्ट टू स्पीच। स्वाभाविक रूप से, जहां भी तकनीकी प्रगति की जा रही है, गूगल वहां होगा, और TTS क्षेत्र कोई अपवाद नहीं है। गूगल का समाधान स्पीच सिंथेसिस मार्कअप भाषा (SSML) के बारे में है, और यह प्रति-कैरेक्टर आधार पर काम करता है, इसलिए यदि आप एक बार के प्रोजेक्ट पर काम कर रहे हैं तो यह एक उपयोगी और सस्ती पसंद है।
आईबीएम वॉटसन टेक्स्ट टू स्पीच
आईबीएम वॉटसन #4 स्थान पर है। जो वॉटसन को प्रतिस्पर्धा से अलग करता है वह है कॉर्पोरेट वातावरण में इसकी बहुमुखी प्रतिभा। अर्थात्, आप इसे वर्चुअल असिस्टेंट या ग्राहक सहायता उपकरण और एक टेक्स्ट टू स्पीच समाधान के रूप में उपयोग कर सकते हैं। इसके अलावा, यह सुपर किफायती है, इसलिए यदि आप कुछ लचीला खोज रहे हैं तो आपको कहीं और बेहतर सौदा नहीं मिलेगा।
रीडस्पीकर
#5 पर हमारे पास एक अनुभवी है — Readspeaker। लगभग पच्चीस वर्षों के अनुभव के साथ, Readspeaker ने TTS को एक कला के रूप में विकसित किया है। यह सौ से अधिक भाषाओं का समर्थन करता है, और यह स्पीच स्टूडियो और ई-लर्निंग के लिए शानदार है क्योंकि यह ऑनलाइन और ऑफलाइन दोनों तरह से काम कर सकता है।
नेचुरलरीडर
#6 है नेचुरलरीडर। यह ऐप वास्तविक समय में सिंथेसाइज्ड स्पीच के साथ बेहतरीन काम करता है, और यह आपके पीसी पर उपयोग की जाने वाली लगभग सभी ऐप्स के साथ काम करता है। लेकिन, नेचुरलरीडर को हमारी सूची में स्थान दिलाने वाला इसका तथाकथित रीडर मोड है जो आपके टेक्स्ट से सभी अनावश्यक सामग्री, जैसे विज्ञापन, को हटा देता है।
वॉइसड्रीम रीडर
#7 पर हमारे पास है वॉइसड्रीम रीडर, जो आज के लिए हमारा अंतिम माइक्रोसॉफ्ट एज़्योर टेक्स्ट टू स्पीच विकल्प है। दुर्भाग्यवश, जबकि वॉइसड्रीम रीडर कुछ सरल कार्यों के लिए अच्छा है, कई उपयोगकर्ता इसकी पहुंच और खराब सिंकिंग विकल्पों की कमी की शिकायत करते हैं। लेकिन, अगर आपको एक त्वरित समाधान की आवश्यकता है और सबसे उन्नत न्यूरल TTS और एंड-टू-एंड तकनीक की परवाह नहीं है, तो वॉइसड्रीम एक पर्याप्त काम करेगा।
सामान्य प्रश्न
क्या विंडोज 10 TTS मुफ्त है?
विंडोज 10 के लिए कई TTS समाधान उपलब्ध हैं। इनमें से कुछ मुफ्त हैं, जबकि अन्य नहीं हैं। विंडोज 10 के साथ आने वाला बिल्ट-इन स्पीक विकल्प, जो आउटलुक और वर्ड जैसे ऐप्स में काम करता है, मुफ्त है, लेकिन कस्टम न्यूरल वॉयस विकल्पों और अन्य विशेषताओं के साथ अधिक परिष्कृत समाधान, जैसे माइक्रोसॉफ्ट एज़्योर, के लिए सदस्यता की आवश्यकता होती है।
सबसे यथार्थवादी TTS आवाज़ कौन सी है?
सबसे यथार्थवादी TTS आवाज़ें अधिक उन्नत TTS उपकरणों जैसे अमेज़न पॉली और स्पीचिफाई की होती हैं। यथार्थवाद का स्तर भाषा, स्पीच मॉडल, और आपके द्वारा चुने गए मापदंडों पर निर्भर करेगा।
टेक्स्ट टू स्पीच और वॉयस रिकग्निशन में क्या अंतर है?
जबकि कई TTS प्रोग्राम टेक्स्ट टू स्पीच और वॉयस रिकग्निशन दोनों विकल्प प्रदान करते हैं, दोनों को भ्रमित नहीं करना महत्वपूर्ण है। टेक्स्ट टू स्पीच विकल्प टेक्स्ट इनपुट को ऑडियो फॉर्मेट में बदल देंगे, जिससे आप अन्य कार्यों को करते समय टेक्स्ट के साथ जुड़ सकते हैं। दूसरी ओर, वॉयस रिकग्निशन मानव आवाज़ के विश्लेषण को संदर्भित करता है, चाहे वह उनकी व्याख्या के लिए हो या पहचान के लिए।
क्लिफ वेट्ज़मैन
क्लिफ वेट्ज़मैन डिस्लेक्सिया के समर्थक और स्पीचिफाई के सीईओ और संस्थापक हैं, जो दुनिया का नंबर 1 टेक्स्ट-टू-स्पीच ऐप है, जिसे 100,000 से अधिक 5-स्टार समीक्षाएं मिली हैं और यह ऐप स्टोर में न्यूज़ और मैगज़ीन श्रेणी में पहले स्थान पर है। 2017 में, वेट्ज़मैन को फोर्ब्स 30 अंडर 30 सूची में शामिल किया गया था, उनके काम के लिए जो उन्होंने सीखने की अक्षमताओं वाले लोगों के लिए इंटरनेट को अधिक सुलभ बनाने में किया। क्लिफ वेट्ज़मैन को एडसर्ज, इंक., पीसी मैग, एंटरप्रेन्योर, मैशेबल, और अन्य प्रमुख आउटलेट्स में चित्रित किया गया है।