جنریٹو اے آئی اور مصنوعی ذہانت نے خوب ترقی کی ہے۔ ٹیکسٹ ٹو اسپیچ ایک نسبتاً پرانا تصور ہے، یہ کافی عرصے سے چل رہا ہے۔ یہاں جاننے اور شیئر کرنے کو بہت کچھ ہے، میں اسے آسان الفاظ میں سمجھاؤں گا۔ چاہے آپ بالکل نئے ہوں یا پروفیشنل، یہ گوگل ٹیکسٹ ٹو اسپیچ API کو سمجھنے میں آپ کے کام آئے گا۔
آگے بڑھنے سے پہلے، کچھ بنیادی اصول طے کرنا ضروری ہیں۔ چند اصطلاحات صاف کر کے اپنی بنیاد مضبوط بناتے ہیں۔
آئیے یہاں دو ٹیکنالوجیز کو الگ الگ دیکھتے ہیں: ٹیکسٹ ٹو اسپیچ اور API، اور جانتے ہیں کہ گوگل کلاؤڈ کا کردار کیا ہے۔
ایڈیٹر نوٹ: بہترین ٹیکسٹ ٹو اسپیچ API ڈھونڈ رہے ہیں؟ سپیچیفائی کا مکمل ڈاکیومینٹڈ اور آسان ٹیکسٹ ٹو اسپیچ API دیکھیں۔
ٹیکسٹ ٹو اسپیچ
میں نے اس موضوع پر تفصیل سے لکھا ہے، آپ میرا ٹیکسٹ ٹو اسپیچ کیا ہے بلاگ دیکھ سکتے ہیں اور اسپیچ سنتھیسس کے بارے میں بھی پڑھ سکتے ہیں۔ یہ گہرائی میں ہیں، ابھی چھوڑ بھی سکتے ہیں۔ میں اسے چند جملوں میں سمیٹ دیتا ہوں۔
ٹیکسٹ ٹو اسپیچ ایک ٹیکنالوجی ہے جو اسپیچ سنتھیسس پر چلتی ہے اور الفاظ کو AI کے ذریعے بولے گئے جملوں میں بدل دیتی ہے۔ اس کے بے شمار فائدے ہیں، ڈسلیکسیا یا کمزور بصارت کے باعث پڑھنے میں مشکل رکھنے والوں سے لے کر صرف اپنی پروڈکٹیویٹی بڑھانے تک۔
API
API کا مطلب ہے ایپلیکیشن پروگرامنگ انٹرفیس۔ سادہ الفاظ میں یہ دو ایپس کے درمیان پل ہے۔ اگر آپ کوئی ایپ بنا رہے ہیں جس میں آڈیو مواد ہو اور ٹیکسٹ ٹو اسپیچ چاہیے تو یا تو آپ کو ٹیکسٹ ٹو اسپیچ خود تیار کرنا ہوگا یا کسی ٹیکسٹ ٹو اسپیچ API سے کنیکٹ ہونا ہوگا۔
آپ اپنی ایپ پر فوکس رکھیں گے اور تھرڈ پارٹی API کے ذریعے ٹیکسٹ ٹو اسپیچ کی سہولت اٹھا سکتے ہیں۔
گوگل کلاؤڈ API
یہیں پر گوگل کلاؤڈ کا کردار سامنے آتا ہے۔ گوگل نے ٹیکسٹ ٹو اسپیچ کے لیے طاقتور API بنایا ہے اور اسے مختلف قیمتوں پر ڈیویلپرز کو پیش کیا ہے۔ کوئی بھی ڈیویلپر اپنی ایپس یا ویب ایپس میں ٹیکسٹ ٹو اسپیچ کا فیچر شامل کرنا چاہے تو گوگل کی TTS فیچر استعمال کر کے باآسانی یہ کام کر سکتا ہے۔ TTS ٹیکسٹ ٹو اسپیچ کا مخفف ہے۔
گوگل کلاؤڈ کنسول پر کوئیک اسٹارٹ دیکھیں https://cloud.google.com/۔ آپ یہاں ٹیوٹوریلز، سروس اکاؤنٹس، ویونوئٹ وائسز وغیرہ سب کچھ پا سکتے ہیں۔
گوگل کلاؤڈ خود ایک کلاؤڈ پلیٹ فارم ہے اور کئی ماڈیولز مہیا کرتا ہے۔ آپ ضرورت کے مطابق جو بھی سروس چاہیں استعمال کریں۔ ہر API کے لیے ایکسس کیز بنانی پڑتی ہیں۔ زیادہ تر سروسز چارجز کے ساتھ ہیں، البتہ فری کوٹہ بھی مل سکتا ہے۔
گوگل نے 2014 میں ڈیپ مائنڈ کو اس کی ٹیکسٹ ٹو اسپیچ ٹیکنالوجی اور نیورل نیٹورک ڈیویلپمنٹ کے کام کے باعث خریدا۔ اب ڈیپ مائنڈ، گوگل ڈیپ مائنڈ کہلاتا ہے اور دونوں ایک ہی فیملی ہیں۔
ہم نے بنیادی بات سمجھ لی ہے، اب گوگل کلاؤڈ ٹیکسٹ ٹو اسپیچ API کو ذرا تفصیل سے دیکھتے ہیں۔
گوگل ٹیکسٹ ٹو اسپیچ API کی خصوصیات
گوگل ایک عالمی ٹیکنالوجی لیڈر ہے۔ TTS API میں آپ کو عالمی معیار کی خصوصیات ملتی ہیں جو مسلسل اپ ڈیٹ اور بہتر ہوتی رہتی ہیں۔
اعلی معیار کی آواز
گوگل کی ٹیکسٹ ٹو اسپیچ وائسز انڈسٹری میں بہترین مانی جاتی ہیں۔ یہ آوازیں نہایت قدرتی اور انسان جیسی محسوس ہوتی ہیں۔ جو TTS آواز کو جتنا فطری بناتا ہے، وہی مارکیٹ میں آگے رہتا ہے۔
آوازوں کا انتخاب
گوگل سب سے زیادہ وائسز فراہم کرنے کا دعویٰ کرتا ہے، جس سے آپ کا پراجیکٹ نمایاں رہے گا اور باقی ایپس جیسا نہیں لگے گا۔
اپنی آواز تخلیق کریں
یہ تقریباً وائس کلوننگ ٹیک کے جیسا ہے۔ آپ اپنی یا کسی اور کی اجازت سے آواز ریکارڈ کر کے اپنی مرضی کی وائس بنا سکتے ہیں جو آپ کے تمام ٹیکسٹ کو پڑھ سکے۔
نیورل وائسز
نیورل وائسز سب سے بہتر کوالٹی کی ہیں۔ آپ اپنی انٹرنیشنل آڈینس بڑھانے کے لیے انہیں مختلف زبانوں میں آزما سکتے ہیں۔
اسٹوڈیو وائسز
اسٹوڈیو وائسز سب سے اعلیٰ معیار کی ہیں اور کافی پروفیشنل لگتی ہیں، جیسے روایتی اسٹوڈیو میں ریکارڈ کی گئی ہوں۔
وائس ٹیوننگ
کوئی بھی وائس منتخب کریں اور اس کی سپیڈ، پچ وغیرہ سیٹ کریں تاکہ آواز اور لہجہ پوری طرح اپنی مرضی کے مطابق بنا سکیں۔
گوگل ٹیکسٹ ٹو اسپیچ API کی قیمت کیا ہے؟
سب کچھ وائس کوالٹی اور ٹیکسٹ کی لمبائی پر منحصر ہے۔ جتنی زیادہ قدرتی آواز چاہیے ہوگی اتنی ہی قیمت بڑھے گی، البتہ مجموعی طور پر قیمتیں نسبتاً مناسب ہیں۔
| وائس ٹائپ | ماہانہ فری | فری حد کے بعد |
| نیورل2 وائسز | 0 تا 10 لاکھ بائٹس | $16 فی دس لاکھ بائٹس |
| پولی گلاٹ وائسز | 0 تا 10 لاکھ بائٹس | $16 فی دس لاکھ بائٹس |
| اسٹوڈیو وائسز | 0 تا 1 لاکھ بائٹس | $160 فی دس لاکھ بائٹس |
| اسٹینڈرڈ وائسز | 0 تا 40 لاکھ حروف | $4 فی دس لاکھ حروف |
| ویونوئٹ وائسز | 0 تا 10 لاکھ حروف | $16 فی دس لاکھ حروف |
کریکٹرز اور بائٹس میں کیا فرق ہے؟
جیسا کہ آپ دیکھ رہے ہیں، قیمت کا تعین وائس کوالٹی سے ہوتا ہے۔ ٹیکسٹ کو آواز میں بدلنے کے عمل کی پیچیدگی ہر ٹیئر پر مختلف ہے۔ مثلاً اسٹینڈرڈ وائسز میں حساب حرفوں سے ہوتا ہے اور قیمت نسبتاً کم ہے۔
اس کا مطلب یہ ہوا کہ اگر آپ کے پراجیکٹ میں 40 لاکھ حروف ہوں تو اسٹینڈرڈ وائسز کے ساتھ یہ تقریباً $16 میں کنورٹ ہو جائیں گے۔
دوسری طرف اسٹوڈیو وائسز میں پروسیسنگ زیادہ درکار ہوتی ہے اور یہ بائٹس کی بنیاد پر چارج ہوتی ہیں، جیسے جاپانی میں ایک کریکٹر میں کئی بائٹس ہو سکتی ہیں۔
درست قیمت جاننے کے لیے یہ سمجھنا ضروری ہے کہ آپ کون سی زبان استعمال کر رہے ہیں اور ہر حرف کے اوسط بائٹس کو ذہن میں رکھنا کتنا اہم ہے۔
گوگل کلاؤڈ پلیٹ فارم پر ٹیکسٹ ٹو اسپیچ API کیسے سیٹ اپ کریں؟
- گوگل کلاؤڈ اکاؤنٹ بنائیں یا یہاں لاگ اِن کریں
- نیا پراجیکٹ بنائیں اور اسے کوئی مناسب نام دیں
- بلنگ طریقہ شامل کریں۔ جتنا استعمال ہوگا اتنا ہی چارج ہو گا۔
- اپنا پراجیکٹ منتخب کریں اور اسے بلنگ اکاؤنٹ سے لنک کریں۔
- ٹیکسٹ ٹو اسپیچ API ایکٹیویٹ کریں۔ سرچ بار میں "speech" لکھیں۔
- نتائج میں سے Cloud Text-to-Speech API منتخب کریں
- ڈویلپمنٹ انوائرمنٹ کے لیے اوتھینٹیکیشن سیٹ اپ کریں۔ ہدایات کے لیے: Set up authentication for Text-to-Speech دیکھیں۔
بغیر پراجیکٹ لنک کے بھی Text-to-Speech آزما سکتے ہیں:
- TRY THIS API آپشن منتخب کریں۔
- اپنے پراجیکٹ کے لیے Text-to-Speech API کو استعمال کے لیے ENABLE پر کلک کریں۔
مزید مدد کے لیے گوگل کلاؤڈ ڈاکیومنٹیشن دیکھیں۔
Text to Speech API کو کیسے غیر فعال کریں؟
Text-to-Speech API غیر فعال کرنے کے لیے اپنے گوگل کلاؤڈ پلیٹ فارم ڈیش بورڈ میں جائیں، APIs باکس میں "Go to APIs overview" پر کلک کریں، Text-to-Speech API کو تلاش کر کے اس پر کلک کریں، پھر سب سے اوپر موجود "DISABLE API" بٹن دبا دیں۔
گوگل ٹیکسٹ ٹو اسپیچ API کے ساتھ شروعات کریں
اب جب پراجیکٹ تیار ہو چکا ہے تو آپ کمانڈ لائن سے شروعات کر سکتے ہیں۔
gcloud initلوکل اوتھینٹیکیشن بنائیں
gcloud auth application-default loginاب کلائنٹ لائبریری انسٹال کریں۔ اس مثال میں Node.js استعمال کیا گیا ہے
npm install --save @google-cloud/text-to-speechگوگل کلاؤڈ ٹیکسٹ ٹو اسپیچ API یہ زبانیں سپورٹ کرتا ہے:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
گوگل کلاؤڈ API کیسے کام کرتا ہے؟
سارا عمل ایک سادہ API کال سے شروع ہوتا ہے۔ آپ اپنا ٹیکسٹ بھیجتے ہیں، اور جواب میں آپ کو آڈیو فائل ملتی ہے۔ ریکویسٹ میں آپ اپنی پسند کی زبان اور وائس منتخب کر سکتے ہیں، پھر ٹیکسٹ ٹو اسپیچ API آپ کے لیے آڈیو فائل تیار کرتا ہے۔
آپ ٹیکسٹ ٹو اسپیچ کلائنٹ لائبریری کو کیسے انسٹال اور استعمال کریں، یہ سب یہاں دیکھ سکتے ہیں۔ ہمارے کوڈ سیمپلز Node.js کے ہیں، لیکن آپ Python سے لے کر PHP تک کچھ بھی استعمال کر سکتے ہیں۔
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);بس اتنا ہی! آپ نے گوگل کلاؤڈ ٹیکسٹ ٹو اسپیچ API سیٹ اپ کر لیا اور پہلی ٹیکسٹ ٹو اسپیچ ریکویسٹ بھیج دی۔ آپ مختلف فارمیٹس میں فائل نکال سکتے ہیں: OGG سے لے کر MP3 تک۔
گوگل ٹیکسٹ ٹو اسپیچ API کے استعمال کے چند طریقے
گوگل ٹیکسٹ ٹو اسپیچ (TTS) API مختلف شعبوں کے لیے کئی انداز سے استعمال ہو سکتا ہے۔ چند عام یوز کیسز:
- نظر کی کمزوری والے صارفین کے لیے: ایپ میں TTS شامل کر کے تحریر کو بولی میں بدلنا تاکہ نظر کے مسائل رکھنے والوں کے لیے آسانی ہو۔
- آٹو فون سسٹمز: کسٹمر سروس یا ہاٹ لائن میں قدرتی آواز میں ہدایات اور جوابات۔
- میڈیا وائس اوورز: ویڈیوز یا پوڈکاسٹ کے لیے قدرتی وائس اوورز بنانا۔
- ترجمہ شدہ مواد کے لیے: ترجمہ شدہ مواد کو آواز میں بدلنا تاکہ زبان سیکھنے یا بین الاقوامی کمیونی کیشن میں مدد ملے۔
- ڈسلیکسک صارفین کے لیے: پڑھنے میں دقت والے افراد کی مدد کے لیے TTS فیچر رکھنا۔
- نیویگیشن ایپس میں وائس گائیڈ: نیویگیشن ایپس میں سن کر ہدایات یا مقام کی معلومات دینا۔
- تعلیمی مواد کے لیے: تعلیمی مواد کو زبانی سنانا، سیکھنے اور دلچسپی میں اضافہ کرنا۔
- پروڈکٹیویٹی ایپس میں: نوٹس وغیرہ سننے کے لیے TTS فیچر شامل کرنا۔
- ورچوئل اسسٹنٹس کے لیے قدرتی آواز: TTS سے بہتر گفتگو اور انفارمیشن ڈلیوری ممکن بنانا۔
- آواز پر مبنی الرٹس و نوٹیفیکیشنز: IoT ڈیوائسز پر سننے والے الرٹس اور اپڈیٹس دینا۔
گوگل کلاؤڈ TTS API کے بہترین متبادل
جنوری 2022 تک میری معلومات کے مطابق، گوگل ٹیکسٹ ٹو اسپیچ API کے کئی متبادل موجود ہیں۔ ان کی مقبولیت اور فیچرز وقت کے ساتھ بدل سکتے ہیں۔ یہاں چند مشہور آپشنز ہیں:
- Speechify Text to Speech API: Speechify Text to Speech API 1000 سے زیادہ قدرتی اور احساسی AI وائسز 60+ زبانوں اور لہجوں میں پیش کرتا ہے۔ آج ہی نشست بک کریں۔
- Amazon Polly: ایمیزون کی یہ سروس کئی زبانوں اور وائسز میں قدرتی آواز دیتی ہے اور دیگر AWS سروسز کے ساتھ آسانی سے جوڑی جا سکتی ہے۔
- Microsoft Azure Speech Service: ایزور اسپیچ سروس میں Text to Speech سمیت کئی فیچرز ہیں، جو کئی ایپس جیسے وائس اسسٹنٹس یا نیویگیشن میں استعمال ہوتے ہیں۔
- IBM Watson Text to Speech: آئی بی ایم واٹسن ٹیکسٹ کو مختلف وائسز میں قدرتی اسپیچ میں بدل دیتا ہے۔
- Nuance Communications: نیونس ہیلتھ کیئر، آٹو اور کسٹمر سروس ایپس میں ٹیکسٹ ٹو اسپیچ سمیت وائس ریکگنیشن کے حل فراہم کرتا ہے۔
- CereProc: سیرپراک ایک ٹیکسٹ ٹو اسپیچ کمپنی ہے جو معذوری، تفریح اور کمیونی کیشن کے لیے اعلیٰ معیار کی وائسز دیتی ہے۔
- iSpeech: آئی اسپیچ کثیر لسانی وائسز کے ساتھ کلاؤڈ پر مبنی ٹیکسٹ ٹو اسپیچ فراہم کرتا ہے، موبائل ایپس اور ویب سائٹس کے لیے موزوں۔
- ResponsiveVoice: ResponsiveVoice ایک سادہ اور کم لاگت ٹیکسٹ ٹو اسپیچ API ہے جو کئی زبانوں کے لیے ویب ایپس میں استعمال ہو سکتی ہے۔
- Neospeech: Neospeech قدرتی وائس پر فوکس کے ساتھ ٹیکسٹ ٹو اسپیچ ٹیکنالوجی فراہم کرتا ہے، مثلاً ای لرننگ اور تفریح میں۔
- ReadSpeaker: ReadSpeaker آن لائن اور آف لائن ٹیکسٹ ٹو اسپیچ سروسز دیتا ہے، ویب سائٹس، تعلیم اور معذوری سے جڑی سروسز کے لیے موزوں۔
- Acapelabox: Acapela گروپ کلاؤڈ پر مبنی ٹیکسٹ ٹو اسپیچ API Acapelabox پیش کرتا ہے، جو کئی زبانوں اور وائسز کو سپورٹ کرتا ہے۔
عمومی سوالات
گوگل کے پاس وائسز کے کئی لیولز ہیں اور تقریباً ہر لیول پر فری حد موجود ہے۔ مثلاً اسٹینڈرڈ وائسز پہلے ایک ملین بائٹس تک فری ہیں، بعد میں $16 فی ملین بائٹس۔ یعنی محدود حرفوں یا بائٹس تک یہ مفت ہے۔
سادہ سا اکاؤنٹ بنائیں https://cloud.google.com/text-to-speech/ پر اور وہاں دی گئی ہدایات پر عمل کریں۔ میں نے یہ بلاگ میں بھی تفصیل سے سمجھایا ہے۔
گوگل اکاؤنٹ میں لاگ اِن ہو کر نیا پراجیکٹ بنائیں۔ اس کے بعد اسی پراجیکٹ کے لیے اپنی API key جنریٹ کریں۔
گوگل ٹیکسٹ ٹو اسپیچ API کا یو آر ایل ہے https://cloud.google.com/text-to-speech/
ٹیکنیکلی گوگل کلاؤڈ کے لیے کوئی ایک مشترکہ فری ٹرائل نہیں۔ کئی سروسز ہیں اور ہر ایک کے اپنے اصول اور فری لیولز ہیں۔
نہیں، گوگل کلاؤڈ ٹیکسٹ ٹو اسپیچ API کے لیے انٹرنیٹ کنیکشن ضروری ہے۔
گوگل کلاؤڈ کی سروسز، مثلاً ٹیکسٹ ٹو اسپیچ API کے لیے API key، OAuth 2.0 یا سروس اکاؤنٹس کے ذریعے اوتھینٹیکیشن کی جا سکتی ہے۔ درست طریقہ آپ کے یوز کیس اور ایپ پر منحصر ہوتا ہے۔
میں اسے 5 اسٹار دوں گا۔ استعمال میں آسان، سرچ فیچر عمدہ اور عام یوزرز میں مقبول ہے۔ قیمت مناسب ہے، مجموعی طور پر اچھا پروڈکٹ ہے۔
گوگل ٹیکسٹ ٹو اسپیچ API مختلف پروگرامنگ زبانوں، مثلاً Python وغیرہ کے لیے کلائنٹ لائبریریز فراہم کرتا ہے۔ یہ RESTful API کو بھی سپورٹ کرتا ہے، اس لیے آپ اسے تقریباً ہر زبان میں استعمال کر سکتے ہیں جو HTTP ریکویسٹ بھیج سکتی ہو۔
اینڈرائیڈ ایپ میں گوگل ٹیکسٹ ٹو اسپیچ API کے لیے TextToSpeech کلاس کے ساتھ API ریکویسٹ استعمال ہوتی ہے۔ مکمل ہدایات اینڈرائیڈ ڈویلپرز کی آفیشل ڈاکیومنٹیشن میں دستیاب ہیں۔
جاوا اسکرپٹ ایپ میں گوگل ٹیکسٹ ٹو اسپیچ API کے لیے HTTP ریکویسٹ بھیجنا ہوتی ہے۔ اس پروسیس میں درست API ریکویسٹ بنانا اور جواب کو ہینڈل کرنا شامل ہے۔ تفصیل آفیشل ڈاکیومنٹیشن میں موجود ہے۔

