गूगल क्लाउड टेक्स्ट टू स्पीच एपीआई के बारे में सब कुछ जानें
क्या आप हमारे टेक्स्ट टू स्पीच रीडरकी तलाश कर रहे हैं?
प्रमुख प्रकाशनों में
- टेक्स्ट टू स्पीच
- एपीआई
- गूगल क्लाउड एपीआई
- गूगल टेक्स्ट टू स्पीच एपीआई विशेषताएँ
- Google Text to Speech API की लागत कितनी है?
- अक्षर और बाइट्स में क्या अंतर है?
- Google Cloud Platform Text to Speech API प्रोजेक्ट कैसे सेटअप करें?
- Text to Speech API को कैसे निष्क्रिय करें
- Google Text to Speech API के साथ शुरुआत करें
- Google Cloud Text to Speech API इन भाषाओं का समर्थन करता है:
- गूगल क्लाउड एपीआई कैसे काम करता है?
- गूगल टेक्स्ट टू स्पीच एपीआई का उपयोग करने के कुछ तरीके
- गूगल क्लाउड टीटीएस एपीआई के सर्वोत्तम विकल्प
- गूगल टेक्स्ट टू स्पीच एपीआई अक्सर पूछे जाने वाले प्रश्न
जनरेटिव एआई और कृत्रिम बुद्धिमत्ता ने लंबा सफर तय किया है। टेक्स्ट टू स्पीच एक अपेक्षाकृत पुरानी अवधारणा है, यह काफी समय से मौजूद है। यहाँ बहुत कुछ है...
जनरेटिव एआई और कृत्रिम बुद्धिमत्ता ने लंबा सफर तय किया है। टेक्स्ट टू स्पीच एक अपेक्षाकृत पुरानी अवधारणा है, यह काफी समय से मौजूद है। यहाँ बहुत कुछ है जिसे समझना और वर्गीकृत करना है और मैं इसे सभी कोणों से देखूंगा। चाहे आप एक शुरुआती हों या प्रो, यह गूगल टेक्स्ट टू स्पीच एपीआई के लिए समग्र स्पष्टता लाएगा।
ठीक है, किसी भी विषय में गहराई से जाने से पहले, यह आवश्यक है कि हम बुनियादी नियम स्थापित करें। चलिए कुछ शब्दों को परिभाषित करते हैं और अपनी नींव बनाते हैं ताकि हम उस पर मजबूती से टिक सकें।
यहाँ दो तकनीकों को अलग करते हैं; टेक्स्ट टू स्पीच और एपीआई, और गूगल क्लाउड की भूमिका क्या है।
संपादक का नोट: अग्रणी टेक्स्ट टू स्पीच एपीआई की तलाश में हैं? स्पीचिफाई के अच्छी तरह से प्रलेखित और उपयोग में आसान टेक्स्ट टू स्पीच एपीआई को देखें।
टेक्स्ट टू स्पीच
मैंने इस विषय पर व्यापक रूप से लिखा है और आप मेरा टेक्स्ट टू स्पीच क्या है ब्लॉग पढ़ सकते हैं और स्पीच सिंथेसिस पर भी पढ़ सकते हैं ताकि इस विषय पर अच्छी पकड़ बना सकें। ये अधिक गहराई में जाते हैं और आप उन्हें अभी के लिए छोड़ सकते हैं। मैं उन्हें कुछ वाक्यों में संक्षेपित करूंगा।
टेक्स्ट टू स्पीच एक तकनीक पर निर्भर करता है जिसे स्पीच सिंथेसिस कहा जाता है, जो शब्दों को एआई जनित आवाज में बदलता है। इसके उपयोग के मामले बहुतायत में हैं। पढ़ने में बाधा वाले लोगों की मदद करने से लेकर जैसे डिस्लेक्सिया और खराब दृष्टि वाले लोग, उन लोगों तक जो बस दक्षता के मार्ग पर हैं।
एपीआई
एपीआई का मतलब एप्लिकेशन प्रोग्रामिंग इंटरफेस है। यह बस दो अनुप्रयोगों के बीच एक पुल के रूप में कार्य करता है। यदि आप एक ऐसा ऐप विकसित कर रहे थे जिसमें ऑडियो सामग्री थी और टेक्स्ट टू स्पीच कार्यक्षमता की आवश्यकता थी, तो आपको टेक्स्ट टू स्पीच कार्यक्षमता को स्वयं बनाना होगा, या आप बस एक मौजूदा टेक्स्ट टू स्पीच एपीआई से कनेक्ट कर सकते हैं।
आप अपने ऐप को बनाने पर ध्यान केंद्रित करेंगे और टेक्स्ट टू स्पीच कार्यक्षमता को सिंथेसाइज़ करने के लिए एक तृतीय-पक्ष एपीआई पर भरोसा करेंगे।
गूगल क्लाउड एपीआई
यह वह जगह है जहाँ गूगल क्लाउड खेल में आता है। गूगल ने एक मजबूत टेक्स्ट टू स्पीच एपीआई विकसित किया है और इसे विभिन्न शुल्क संरचनाओं में डेवलपर्स को पेश करता है। कोई भी डेवलपर जो कस्टम ऐप्स या वेब ऐप्स बनाना चाहता है जिसमें टेक्स्ट टू स्पीच कार्यक्षमता की आवश्यकता होती है, वह गूगल के टीटीएस फीचर्स का उपयोग करके उस अंतर को आसानी से पाट सकता है। हाँ, टीटीएस का मतलब टेक्स्ट टू स्पीच है।
गूगल क्लाउड कंसोल पर क्विकस्टार्ट खोजें https://cloud.google.com/। आप ट्यूटोरियल पा सकते हैं, अपनी सेवा खाता प्रबंधित कर सकते हैं, वेवनेट आवाज़ों तक पहुंच सकते हैं और अधिक।
गूगल क्लाउड स्वयं गूगल द्वारा पेश किया गया एक क्लाउड प्लेटफॉर्म है और यह कई मॉड्यूलर सेवाएं प्रदान करता है। आप इनमें से एक, कई, या सभी सेवाओं का उपयोग कर सकते हैं। आपको बस प्रत्येक एपीआई के प्रमाणीकरण के लिए एक्सेस कुंजियाँ बनानी होंगी - पुल। अधिकांश, यदि सभी नहीं, सेवाओं की लागत होती है हालांकि एक मुफ्त सीमा हो सकती है।
गूगल ने 2014 में डीपमाइंड को इसके टेक्स्ट टू स्पीच तकनीक और न्यूरल नेटवर्क विकास में काम के लिए खरीदा। इसलिए, यदि आप डीपमाइंड के बारे में सुनते हैं, तो यह अब गूगल डीपमाइंड है और वे सभी एक ही हैं।
अब जब हमारे पास एक ठोस समझ है, तो चलिए गूगल क्लाउड टेक्स्ट टू स्पीच एपीआई में गहराई से जाते हैं।
गूगल टेक्स्ट टू स्पीच एपीआई विशेषताएँ
गूगल एक वैश्विक तकनीकी अग्रणी और नेता है, इसमें कोई संदेह नहीं है। जब टीटीएस एपीआई की बात आती है, तो आप विश्व स्तरीय विशेषताओं की उम्मीद कर सकते हैं जो लगातार विकसित होती रहती हैं।
उच्च गुणवत्ता वाली आवाज़
गूगल की टेक्स्ट टू स्पीच आवाज़ें उद्योग में कुछ बेहतरीन हैं। वे बहुत ही मानव जैसी लगती हैं और प्राकृतिक ध्वनि के साथ आती हैं। टीटीएस अपने शुरुआती चरणों में है और जो सबसे अच्छी तरह से ऑडियो को मानव की तरह बोलने के लिए सिंथेसाइज़ कर सकता है, वह इस दौड़ को जीतेगा।
आवाज़ों का चयन
गूगल का दावा है कि आवाज़ों का सबसे व्यापक चयन है ताकि आपका प्रोजेक्ट अन्य 1000 की तरह न लगे या इससे भी बदतर, आपके प्रतिस्पर्धियों के ऐप की तरह।
अपनी खुद की आवाज़ बनाएं
यह वॉयस क्लोनिंग तकनीक के करीब है। आप अपनी कस्टम आवाज़ बना सकते हैं, खुद को या किसी और को रिकॉर्ड करके, उनकी अनुमति के साथ। आप इस नमूने का उपयोग कर सकते हैं ताकि यह आपकी सभी टेक्स्ट को जोर से पढ़े।
न्यूरल आवाज़ें
न्यूरल आवाज़ें उपलब्ध आवाज़ों में सबसे बेहतरीन गुणवत्ता प्रदान करती हैं। आप इन आवाज़ों को अंतरराष्ट्रीय स्तर पर भी उपयोग कर सकते हैं ताकि आपकी अंतरराष्ट्रीय दर्शक संख्या बढ़ सके।
स्टूडियो आवाज़ें
स्टूडियो आवाज़ें उच्चतम श्रेणी की आवाज़ें हैं और ये बहुत ही पेशेवर लगती हैं, जैसे कि पारंपरिक तरीके से रिकॉर्ड की गई हों।
आवाज़ ट्यूनिंग
एक आवाज़ चुनें और फिर गति, पिच और अन्य सेटिंग्स को समायोजित करें ताकि आप आवाज़ के स्वर को अपनी पसंद के अनुसार अनुकूलित कर सकें।
Google Text to Speech API की लागत कितनी है?
यह सब आवाज़ की गुणवत्ता और आपके टेक्स्ट की लंबाई पर निर्भर करता है। जितनी अधिक प्राकृतिक आवाज़ आप चाहते हैं, उतनी ही महंगी होगी। हालांकि, यहां महंगा एक सापेक्ष शब्द है। उच्च गुणवत्ता वाली आवाज़ें भी अपेक्षाकृत सस्ती हैं।
आवाज़ का प्रकार | मासिक मुफ्त | मुफ्त उपयोग के बाद |
न्यूरल2 आवाज़ें | 0 से 1 मिलियन बाइट्स | $16 प्रति एक मिलियन बाइट्स |
पॉलीग्लॉट आवाज़ें | 0 से 1 मिलियन बाइट्स | $16 प्रति एक मिलियन बाइट्स |
स्टूडियो आवाज़ें | 0 से 100,000 बाइट्स | $160 प्रति एक मिलियन बाइट्स |
मानक आवाज़ें | 0 से 4 मिलियन अक्षर | $4 प्रति एक मिलियन अक्षर |
वेवनेट आवाज़ें | 0 से 1 मिलियन अक्षर | $16 प्रति एक मिलियन अक्षर |
अक्षर और बाइट्स में क्या अंतर है?
जैसा कि आप देख सकते हैं, कीमतें आवाज़ की गुणवत्ता के आधार पर काफी भिन्न होती हैं। टेक्स्ट को आवाज़ में बदलने के लिए आवश्यक ऑडियो एन्कोडिंग और प्रोसेसिंग प्रत्येक स्तर पर भिन्न होती है। उदाहरण के लिए, निम्न स्तर की मानक आवाज़ों के लिए, कीमतें कम होती हैं और इन्हें अक्षरों के आधार पर गिना जाता है।
इसका मतलब है, यदि आपके प्रोजेक्ट में 4 मिलियन अक्षर हैं, तो उन अक्षरों को आवाज़ में बदलने के लिए आपको $16 खर्च करने होंगे।
दूसरी ओर, स्टूडियो आवाज़ों के लिए अधिक प्रोसेसिंग पावर की आवश्यकता होती है और इन्हें बाइट्स के आधार पर चार्ज किया जाता है। कुछ भाषाओं में, जैसे जापानी में, एक ही अक्षर कई बाइट्स से मिलकर बन सकता है।
इसलिए सबसे सटीक मूल्य निर्धारण के लिए यह जानना महत्वपूर्ण है कि आप किस भाषा पर काम कर रहे हैं और प्रत्येक अक्षर के लिए औसत बाइट्स की संख्या का एक बुनियादी समझ होना चाहिए और उसके अनुसार अनुमान लगाना चाहिए।
Google Cloud Platform Text to Speech API प्रोजेक्ट कैसे सेटअप करें?
- Google Cloud खाता बनाएं या इस पृष्ठ पर लॉगिन करें
- एक नया प्रोजेक्ट बनाएं और इसे उचित नाम दें
- बिलिंग विधि जोड़ें। आपको केवल आपके उपयोग के लिए ही चार्ज किया जाएगा।
- फिर अपने प्रोजेक्ट को चुनें और इसे एक बिलिंग खाते से जोड़ें।
- Text-to-Speech API को सक्रिय करें। पृष्ठ के शीर्ष पर स्थित खोज उत्पाद और संसाधन बार पर जाएं, और "speech" टाइप करें।
- दिखाए गए परिणामों में से, Cloud Text-to-Speech API चुनें
- अपने विकास वातावरण के लिए प्रमाणीकरण सेट करें। निर्देशों के लिए, Text-to-Speech के लिए प्रमाणीकरण सेट करें देखें।
आप अपने प्रोजेक्ट से जोड़े बिना भी Text-to-Speech आज़मा सकते हैं:
- TRY THIS API विकल्प चुनें।
- अपने प्रोजेक्ट के साथ उपयोग के लिए Text-to-Speech API को सक्षम करने के लिए, ENABLE पर क्लिक करें।
अधिक सहायता के लिए Google Cloud दस्तावेज़ देखें।
Text to Speech API को कैसे निष्क्रिय करें
Text-to-Speech API को निष्क्रिय करने के लिए, अपने Google Cloud Platform डैशबोर्ड पर जाएं और API बॉक्स के भीतर "Go to APIs overview" लिंक पर क्लिक करें। Text-to-Speech API को ढूंढें और फिर उस पर क्लिक करें, उसके बाद पृष्ठ के शीर्ष पर "DISABLE API" बटन का चयन करें।
Google Text to Speech API के साथ शुरुआत करें
अब जब आपका प्रोजेक्ट सेट हो गया है, तो आप कमांड लाइन का उपयोग करके शुरुआत कर सकते हैं।
gcloud init
स्थानीय प्रमाणीकरण बनाएं
gcloud auth application-default login
अब आप एक क्लाइंट लाइब्रेरी इंस्टॉल कर सकते हैं। इस उदाहरण में, हम Node.js देखेंगे
npm install --save @google-cloud/text-to-speech
Google Cloud Text to Speech API इन भाषाओं का समर्थन करता है:
- गो
- जावा
- नोड.जेएस
- सी++
- सी#
- पीएचपी
- पायथन
- रूबी
- टाइपस्क्रिप्ट
- टेरेफॉर्म
- वाईएएमएल
गूगल क्लाउड एपीआई कैसे काम करता है?
यह सब एक साधारण एपीआई कॉल से शुरू होता है। आप अपने टेक्स्ट को एक ट्रांसक्रिप्ट कॉल में भेजेंगे और फिर आपको आपके बोले गए टेक्स्ट की एक ऑडियो फाइल प्राप्त होगी। अपनी रिक्वेस्ट के साथ, आप विशेष आवश्यकताएँ बना सकते हैं। एक आवाज़, एक भाषा चुनें, और फिर टेक्स्ट टू स्पीच एपीआई आपको ऑडियो फाइल वापस भेजेगा।
आप टेक्स्ट टू स्पीच क्लाइंट लाइब्रेरीज़ को कैसे इंस्टॉल और उपयोग करें, यह यहां सीख सकते हैं। हमारे कोड नमूने नोड.जेएस के लिए होंगे। लेकिन आप पायथन से पीएचपी तक कुछ भी चुन सकते हैं। जो भी आपको सुविधाजनक लगे।
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);
और बस इतना ही। आपने गूगल क्लाउड टेक्स्ट टू स्पीच एपीआई सेट अप किया और टेक्स्ट को स्पीच में बदलने के लिए अपनी पहली रिक्वेस्ट भेजी। आप फाइल को विभिन्न फॉर्मेट्स में वापस प्राप्त कर सकते हैं; ओजीजी से एमपी3 तक।
गूगल टेक्स्ट टू स्पीच एपीआई का उपयोग करने के कुछ तरीके
गूगल टेक्स्ट-टू-स्पीच (टीटीएस) एपीआई विभिन्न उद्योगों में विभिन्न उपयोग मामलों के लिए एक बहुमुखी समाधान प्रदान करता है। कुछ सामान्य उपयोग मामलों में शामिल हैं:
- दृष्टिहीन उपयोगकर्ताओं के लिए टेक्स्ट-टू-स्पीच: एप्लिकेशन में टीटीएस को लागू करना ताकि लिखित सामग्री को बोले गए शब्दों में बदला जा सके, जिससे दृष्टिहीन उपयोगकर्ताओं के लिए डिजिटल जानकारी सुलभ हो सके।
- स्वचालित फोन सिस्टम: ग्राहक सेवा या सूचना हॉटलाइन में इंटरैक्टिव वॉयस रिस्पांस सिस्टम के लिए प्राकृतिक ध्वनि वाले प्रॉम्प्ट और प्रतिक्रियाएं बनाने के लिए टीटीएस का उपयोग करना।
- मीडिया सामग्री के लिए वॉयसओवर: वीडियो, पॉडकास्ट, या अन्य मल्टीमीडिया सामग्री के लिए प्राकृतिक ध्वनि वाले वॉयसओवर उत्पन्न करना ताकि उपयोगकर्ता अनुभव को बढ़ाया जा सके।
- अनुवादित सामग्री के लिए टेक्स्ट-टू-स्पीच: अनुवादित टेक्स्ट को बोले गए शब्दों में बदलना ताकि भाषा सीखने, अंतरराष्ट्रीय संचार, या विभिन्न भाषाओं में सामग्री खपत को सुगम बनाया जा सके।
- डिस्लेक्सिक उपयोगकर्ताओं के लिए पढ़ने में सहायता: डिस्लेक्सिया या पढ़ने में कठिनाई वाले व्यक्तियों को लिखित सामग्री का उपभोग करने में सहायता प्रदान करने के लिए टीटीएस कार्यक्षमता प्रदान करना।
- एप्लिकेशन में वॉयस नेविगेशन: नेविगेशन एप्लिकेशन में टीटीएस को एकीकृत करना ताकि मोड़-दर-मोड़ दिशा-निर्देश या स्थान-आधारित जानकारी श्रव्य रूप में प्रदान की जा सके।
- शैक्षिक सामग्री के लिए टेक्स्ट-टू-स्पीच: शैक्षिक टेक्स्ट सामग्री को बोले गए शब्दों में बदलकर ई-लर्निंग अनुभवों को बढ़ाना, समझ और जुड़ाव में सहायता करना।
- उत्पादकता ऐप्स के लिए स्पीच सिंथेसिस: उत्पादकता उपकरणों, जैसे नोट-लेखन या कार्य प्रबंधन ऐप्स में टीटीएस को एकीकृत करना, ताकि बोले गए फीडबैक या जानकारी पुनः प्राप्त की जा सके।
- वर्चुअल असिस्टेंट्स के लिए प्राकृतिक आवाज़: प्राकृतिक ध्वनि वाले टीटीएस के साथ वॉयस असिस्टेंट्स को सशक्त बनाना ताकि उपयोगकर्ता इंटरैक्शन में सुधार हो सके और जानकारी को वार्तालाप के तरीके में प्रदान किया जा सके।
- श्रव्य अलर्ट और सूचनाएं: इंटरनेट ऑफ थिंग्स (IoT) उपकरणों पर श्रव्य अलर्ट, सूचनाएं, या स्थिति अपडेट प्रदान करने के लिए टीटीएस का उपयोग करना ताकि उपयोगकर्ता जागरूकता बढ़ सके।
गूगल क्लाउड टीटीएस एपीआई के सर्वोत्तम विकल्प
मेरे अंतिम ज्ञान अपडेट के अनुसार जनवरी 2022 में, गूगल टेक्स्ट-टू-स्पीच एपीआई के कई विकल्प उपलब्ध हैं। ध्यान रखें कि इन सेवाओं की लोकप्रियता और क्षमताएं तब से बदल सकती हैं। यहां कुछ उल्लेखनीय विकल्प दिए गए हैं:
- स्पीचिफाई टेक्स्ट टू स्पीच एपीआई: हम एक टेक्स्ट-टू-स्पीच एपीआई के विकास की घोषणा करते हुए रोमांचित हैं, जो स्पीचिफाई की सबसे प्राकृतिक और प्रिय एआई आवाज़ों को सीधे दुनिया भर के डेवलपर्स तक पहुंचाता है। आज ही अपनी सीट सुरक्षित करें।
- अमेज़न पॉली: अमेज़न वेब सर्विसेज (AWS) द्वारा पेश किया गया, पॉली विभिन्न भाषाओं और आवाज़ों में प्राकृतिक ध्वनि संश्लेषण प्रदान करता है। यह अन्य AWS सेवाओं के साथ अच्छी तरह से एकीकृत होता है।
- माइक्रोसॉफ्ट एज़्योर स्पीच सर्विस: एज़्योर स्पीच सर्विस में टेक्स्ट-टू-स्पीच क्षमताएं शामिल हैं और यह वॉयस असिस्टेंट्स, नेविगेशन सिस्टम्स और अन्य अनुप्रयोगों का समर्थन करता है।
- आईबीएम वॉटसन टेक्स्ट टू स्पीच: आईबीएम वॉटसन एक टेक्स्ट टू स्पीच सेवा प्रदान करता है जो डेवलपर्स को लिखित टेक्स्ट को विभिन्न आवाज़ों का उपयोग करके प्राकृतिक ध्वनि में बदलने की अनुमति देता है।
- न्युएंस कम्युनिकेशंस: न्युएंस स्वास्थ्य सेवा, ऑटोमोटिव और ग्राहक सेवा में अनुप्रयोगों के लिए टेक्स्ट-टू-स्पीच सहित भाषण और आवाज़ पहचान समाधान की एक श्रृंखला प्रदान करता है।
- सेरेप्रोक: सेरेप्रोक एक टेक्स्ट-टू-स्पीच प्रौद्योगिकी कंपनी है जो एक्सेसिबिलिटी, मनोरंजन और संचार जैसे अनुप्रयोगों के लिए उच्च गुणवत्ता वाली सिंथेटिक आवाज़ें प्रदान करती है।
- आईस्पीच: आईस्पीच क्लाउड-आधारित टेक्स्ट-टू-स्पीच सेवाएं प्रदान करता है जो कई भाषाओं और आवाज़ों का समर्थन करता है। यह मोबाइल ऐप्स और वेबसाइटों सहित विभिन्न अनुप्रयोगों के लिए उपयुक्त है।
- रिस्पॉन्सिववॉइस: रिस्पॉन्सिववॉइस एक सरल और किफायती टेक्स्ट-टू-स्पीच एपीआई है जो कई भाषाओं का समर्थन करता है और विभिन्न वेब-आधारित अनुप्रयोगों में उपयोग किया जा सकता है।
- नियोस्पीच: नियोस्पीच प्राकृतिक ध्वनि वाली आवाज़ों पर ध्यान केंद्रित करते हुए टेक्स्ट-टू-स्पीच समाधान प्रदान करता है। उनकी तकनीक ई-लर्निंग और मनोरंजन जैसे अनुप्रयोगों में उपयोग की जाती है।
- रीडस्पीकर: रीडस्पीकर ऑनलाइन और ऑफलाइन टेक्स्ट-टू-स्पीच समाधान प्रदान करता है जो वेबसाइटों, ई-लर्निंग और एक्सेसिबिलिटी सेवाओं सहित विविध अनुप्रयोगों के लिए है।
- अकैपेलाबॉक्स: अकैपेला ग्रुप एक क्लाउड-आधारित टेक्स्ट-टू-स्पीच एपीआई, अकैपेलाबॉक्स प्रदान करता है, जो विभिन्न उद्योगों में अनुप्रयोगों के लिए कई भाषाओं और आवाज़ों का समर्थन करता है।
गूगल टेक्स्ट टू स्पीच एपीआई अक्सर पूछे जाने वाले प्रश्न
गूगल के पास आवाज़ों के कई स्तर हैं और लगभग प्रत्येक स्तर में एक मुफ्त सीमा होती है। उदाहरण के लिए, मानक आवाज़ें पहले एक मिलियन बाइट्स तक मुफ्त हैं। उसके बाद यह प्रति मिलियन बाइट्स $16 है। तो हाँ, यह सीमित अक्षरों या बाइट्स के साथ मुफ्त हो सकता है।
बस https://cloud.google.com/text-to-speech/ पर एक खाता बनाएं और वहां दिए गए चरणों का पालन करें। इसके अलावा, मैंने इस ब्लॉग में प्रक्रिया का विस्तार से वर्णन किया है, जो ऊपर है।
आप अपने गूगल क्लाउड खाते में लॉग इन करके और फिर एक प्रोजेक्ट बनाकर गूगल टेक्स्ट टू स्पीच एपीआई कुंजी प्राप्त कर सकते हैं। एक बार जब आप अपना प्रोजेक्ट बना लेते हैं, तो आप एक एपीआई कुंजी उत्पन्न कर सकते हैं।
गूगल टेक्स्ट टू स्पीच एपीआई के लिए यूआरएल https://cloud.google.com/text-to-speech/ है।
तकनीकी रूप से गूगल क्लाउड के लिए कोई मुफ्त परीक्षण अवधि नहीं है। गूगल क्लाउड के भीतर कई सेवाएं हैं और प्रत्येक सेवा की अपनी शर्तें और मुफ्त स्तर होते हैं।
नहीं। गूगल क्लाउड टेक्स्ट टू स्पीच एपीआई के लिए इंटरनेट कनेक्शन की आवश्यकता होती है।
गूगल क्लाउड सेवाओं के लिए प्रमाणीकरण, जिसमें टेक्स्ट-टू-स्पीच एपीआई शामिल है, एपीआई कुंजियों, OAuth 2.0, या सेवा खातों का उपयोग करके किया जा सकता है। उपयुक्त प्रमाणीकरण विधि उपयोग के मामले और एप्लिकेशन के प्रकार पर निर्भर करती है।
मैं इसे 5 सितारे दूंगा। इसका उपयोग करना आसान है, खोज सुविधा शानदार है और इसका सबसे अधिक उपयोग किया जाता है। मूल्य निर्धारण उचित है और यह कुल मिलाकर एक शानदार उत्पाद है।
Google टेक्स्ट-टू-स्पीच API विभिन्न प्रोग्रामिंग भाषाओं के लिए क्लाइंट लाइब्रेरी प्रदान करता है, जिसमें Python भी शामिल है। यह RESTful API अनुरोधों का समर्थन करता है, जिससे यह उन भाषाओं के साथ संगत हो जाता है जो HTTP अनुरोध कर सकती हैं।
Google टेक्स्ट-टू-स्पीच API को एक एंड्रॉइड ऐप में एकीकृत करने के लिए TextToSpeech क्लास का उपयोग करना और API अनुरोध करना शामिल है। विस्तृत निर्देश एंड्रॉइड डेवलपर्स के लिए आधिकारिक दस्तावेज़ में पाए जा सकते हैं।
Google टेक्स्ट-टू-स्पीच API को एक जावास्क्रिप्ट एप्लिकेशन में लागू करने के लिए, आप API एंडपॉइंट पर HTTP अनुरोध कर सकते हैं। इस प्रक्रिया में उपयुक्त API अनुरोध का निर्माण और आपके जावास्क्रिप्ट कोड में प्रतिक्रिया को संभालना शामिल है। विवरण के लिए आधिकारिक दस्तावेज़ देखें।
क्लिफ वेट्ज़मैन
क्लिफ वेट्ज़मैन डिस्लेक्सिया के समर्थक और स्पीचिफाई के सीईओ और संस्थापक हैं, जो दुनिया का नंबर 1 टेक्स्ट-टू-स्पीच ऐप है, जिसे 100,000 से अधिक 5-स्टार समीक्षाएं मिली हैं और यह ऐप स्टोर में न्यूज़ और मैगज़ीन श्रेणी में पहले स्थान पर है। 2017 में, वेट्ज़मैन को फोर्ब्स 30 अंडर 30 सूची में शामिल किया गया था, उनके काम के लिए जो उन्होंने सीखने की अक्षमताओं वाले लोगों के लिए इंटरनेट को अधिक सुलभ बनाने में किया। क्लिफ वेट्ज़मैन को एडसर्ज, इंक., पीसी मैग, एंटरप्रेन्योर, मैशेबल, और अन्य प्रमुख आउटलेट्स में चित्रित किया गया है।