بہت سے لوگ روزانہ ٹیکسٹ ٹو اسپیچ سروسز اور ورچوئل اسسٹنٹس استعمال کرتے ہیں، اکثر یہ جانتے بھی نہیں کہ ان میں بہت سی چیزیں مشترک ہیں۔ جیسے جیسے ٹیکنالوجی آگے بڑھ رہی ہے، روزمرہ ایپس کا معیار بھی پہلے سے کہیں بہتر ہوتا جا رہا ہے۔
یہی بات ٹی ٹی ایس ایپس اور وی اے پر بھی صادق آتی ہے۔ چند کمپنیاں اس میدان میں سب سے آگے ہیں، جن میں ایک گوگل بھی ہے جس نے ویو نیٹ ٹیکنالوجی متعارف کروائی۔
گوگل ویو نیٹ کیا ہے؟
ویو نیٹ ایک مصنوعی نیورل نیٹ ورک ہے جو خام آڈیو بنانے کے لیے تیار کیا گیا ہے۔ اس کے پیچھے ٹیم ڈیپ مائنڈ ہے، جو لندن کی ایک فرم ہے اور آرٹیفیشل انٹیلیجنس میں ماہر ہے۔ اس ٹیکنالوجی کے آنے سے گوگل کلاؤڈ پلیٹ فارم میں بڑی تبدیلی آئی اور سب کچھ ایک نئے درجے پر چلا گیا۔
گوگل کی ڈیپ مائنڈ نے پچھلے ٹیکسٹ ٹو اسپیچ سسٹمز کے مقابلے میں سب سے بڑی بہتری یہ دی کہ اس کی آواز کہیں زیادہ قدرتی لگتی ہے۔ 2016 میں جب اسے متعارف کرایا گیا تو اُس وقت کے ٹی ٹی ایس سسٹمز اصل جیسی آواز پیدا نہیں کر پاتے تھے۔
ویو نیٹ ٹیکسٹ ٹو اسپیچ ہر لحاظ سے ان سے بہتر نکلی۔ اس ٹیک کا بنیادی آئیڈیا سادہ ہے۔ سافٹ ویئر خام آڈیو فائلز مثلاً WAV کو ان پٹ کے طور پر لیتا ہے اور گوگل API اور API کی سے جڑتا ہے۔
آج ہم ان ہی پیچیدہ الگورتھمز کی بدولت اس ٹیکنالوجی کو بے شمار طریقوں سے استعمال کر سکتے ہیں۔ دنیا بھر کی کئی کمپنیاں بہترین پراڈکٹ پیش کرنے کے لیے ایک دوسرے سے آگے بڑھنے کی کوشش کر رہی ہیں۔ اس سے صارفین کو فائدہ ہے، کیونکہ انہیں اپنی ضرورت کے مطابق زیادہ اور بہتر آپشنز ملتے ہیں۔
ویو نیٹ کس طرح کام کرتی ہے
ویو نیٹ ایف این این (فِیڈ فارورڈ نیورل نیٹ ورک) کی ایک قسم ہے، جسے ڈیپ کونولوشنل نیورل نیٹ ورک بھی کہتے ہیں۔ سی این این ان پٹ سے خام سگنل لیتا ہے اور ہر نمونے پر الگ آؤٹ پٹ تیار کرتا ہے۔
پورا ڈھانچہ مشین لرننگ، نیچرل لینگویج پروسیسنگ، ڈیپ لرننگ اور مشین انٹیلیجنس پر کھڑا ہے۔ پہلے ٹیکسٹ ٹو اسپیچ ایپس میں فونیِمز کا ڈیٹا بیس بنایا جاتا تھا، اور ایپ وہی یونٹس جوڑتی تھی جو سب سے زیادہ موزوں لگتے۔
ایسا نظام بنانا آسان کام نہیں۔ سافٹ ویئر کو زبان کے اصول، ردھم اور ڈائنامکس سمجھنا ضروری ہے، ورنہ آواز کھوکھلی اور غیر قدرتی محسوس ہوتی ہے۔
اکثر ٹیکسٹ ٹو اسپیچ پروگرامز کی طرح، ویو نیٹ بھی اصل آڈیو ویوفارمز، جیسے پیرا میٹرک یا کونکیٹی نیٹیو، استعمال کرتی ہے۔ اس طرح سافٹ ویئر زبان کے اصولوں (یعنی آوازوں) کو دیکھتا ہے اور وقت کے ساتھ ان میں آنے والی تبدیلیوں کو سمجھتا ہے۔
اس سے پروگرام ایسے پیٹرن سیکھ لیتا ہے جو انسانی تقریر سے بہت ملتے جلتے سنائی دیتے ہیں۔ دلچسپ بات یہ ہے کہ یہ سب کچھ صرف ان پٹ کی معلومات کی بنیاد پر تیار ہوتا ہے۔
اس کا سیدھا مطلب یہ ہے کہ اگر آپ مثلاً اطالوی بولتے ہیں تو پروگرام اطالوی لہجے میں تقریر بنانے میں مدد دے سکتا ہے۔ اُس وقت یہ بڑی پیش رفت تھی اور اس نے دیگر ٹیکسٹ ٹو اسپیچ APIs کے لیے بھی راہ ہموار کی۔
ویو نیٹ کے عملی مثالیں
جب گوگل نے یہ سافٹ ویئر متعارف کرایا تو اسے حقیقت میں استعمال کرنے کے لیے بہت زیادہ پروسیسنگ پاور درکار تھی، مگر اگلے چند سالوں میں تصویر یکسر بدل گئی۔ سب سے پہلے اسی API نے گوگل اسسٹنٹ کی آوازوں کو طاقت دی، جو کمپنی نے مختلف پلیٹ فارمز پر مہیا کیں۔
ویو نیٹ ٹی ٹی ایس سافٹ ویئر کے لیے بھی لاجواب ٹول ہے۔ اس کی آواز کہیں زیادہ قدرتی لگتی ہے اور استعمال کا تجربہ مزید خوشگوار بن جاتا ہے۔ آپ اسے خبریں، پوڈ کاسٹس کے ٹرانسکرپٹس یا کوئی بھی دوسرا مواد سننے کے لیے استعمال کر سکتے ہیں۔
اور یہ تو بس شروعات ہے۔ یہی عمل بولنے میں مشکل رکھنے والے افراد کو بھی آواز مہیا کرنے میں مدد دے سکتا ہے۔ وائس سنتھیسس اصل آواز کی نقل ہے اور اس کی صلاحیت واقعی حیران کن ہے۔ مثلاً ایسے لوگ اپنی آواز کا نمونہ ریکارڈ کر کے ٹیکسٹ ٹو اسپیچ ٹولز سے جوڑ سکتے ہیں اور یوں اپنی ہی جیسی آواز واپس پا سکتے ہیں۔
ابھی ہمیں نہیں معلوم کہ مستقبل میں ٹی ٹی ایس پروگرامز کہاں تک جائیں گے، لیکن امید رکھی جا سکتی ہے کہ نتائج شاندار ہوں گے۔ اس فیلڈ کی اچھی بات یہ ہے کہ متعدد کمپنیاں ایک ساتھ ٹی ٹی ایس پروڈکٹس پر کام کر رہی ہیں۔
جب سب ایک مقصد کے لیے مل کر کام کریں تو نتیجہ عموماً بہترین ہی نکلتا ہے۔
اسپیچیفائی - سپیچ سنتھیسس
ان پروگرامز میں ایک نمایاں نام اسپیچیفائی ہے۔ یہ ٹیکسٹ ٹو اسپیچ ایپ ہے جو تقریباً ہر ڈیوائس پر چل جاتی ہے۔ یہ iOS، اینڈرائیڈ، میک اور یہاں تک کہ گوگل کروم ایکسٹینشن کی صورت میں بھی دستیاب ہے۔
اسپیچیفائی تقریباً ہر قسم کا مواد پڑھ سکتی ہے۔ یہ آپ کو PDFs، ڈاکس، ای میلز یا ڈیوائس میں موجود تقریباً کچھ بھی آواز کے ذریعے سنا سکتی ہے۔ اس ایپ کی سب سے بڑی خوبی اس کی ورسٹائلٹی اور کسٹمائزیشن ہے۔
آپ پڑھنے کی رفتار بدل سکتے ہیں، مختلف آوازیں منتخب کر سکتے ہیں، پچ ایڈجسٹ کر سکتے ہیں وغیرہ۔ اسپیچیفائی میں OCR فنکشن بھی موجود ہے، یعنی آپ کتاب کی تصویر کھینچیں، اور ایپ وہی متن آپ کو سنا دے گی۔
ایپ خاص طور پر ڈسلیکسیا، اے ڈی ڈی، زبان سیکھنے والوں یا ان سب کے لیے ڈیزائن کی گئی ہے جو کتاب پڑھتے ہوئے بھی پروڈکٹیو رہنا چاہتے ہیں۔ یہ آل ان ون ایپ ہے جو آپ کے پڑھنے کا انداز بدل دے گی۔
اسپیچیفائی نہایت سادہ اور آسان ہے، اور اسے استعمال کرنا سیکھنے کے لیے لمبا چوڑا ٹیوٹوریل درکار نہیں پڑتا۔
اکثر پوچھے گئے سوالات
ویو نیٹ کس کام آتی ہے؟
یہ ایک ڈیپ نیورل نیٹ ورک ہے جو خام آڈیو پیدا کر سکتا ہے۔ یہ حقیقت پسندانہ ویو نیٹ آوازوں کے ساتھ ٹیکسٹ ٹو اسپیچ سنتھیسس فراہم کرتا ہے، اور اصل سپیچ ریکارڈنگ سے تربیت دی جا سکتا ہے۔ اسی وجہ سے اس نے گوگل کلاؤڈ ٹی ٹی ایس سے بہتر کارکردگی دکھائی ہے۔
فی الحال یہ سافٹ ویئر گوگل اسسٹنٹ کی آوازوں کے لیے استعمال ہو رہا ہے۔
ویو نیٹ ماڈل کیا ہے؟
یہ ماڈل پکسل سی این این آرکیٹیکچر پر مبنی ہے۔ خام آؤٹ پٹ کے لیے درکار دور رس ڈیپنڈنسیز سنبھالنے کے لیے اس میں ڈائی لیٹڈ کاؤزل کنولوشنز استعمال ہوتی ہیں۔
ڈائی لیٹڈ سی این این ایس کی موجودگی تربیت کو نسبتاً آسان اور تیز بناتی ہے، اور یہ ہزار لیئرز تک پیچھے جا سکتی ہیں۔ یہی ٹیکنالوجی اسے حقیقی وقت سے تقریباً 20 گنا تیز کام کرنے کی صلاحیت دیتی ہے۔
ویو نیٹ اور کونولوشنل نیورل نیٹ ورکس میں فرق؟
یہ سافٹ ویئر دراصل ڈیپ کونولوشنل نیورل نیٹ ورک یعنی سی این این پر مبنی ہے، یعنی ویو نیٹ خود سی این این ہی کا ایک استعمال ہے۔ اسی طرز کی ٹیکنالوجی مائیکروسافٹ، ایمازون (SSML کے ساتھ) وغیرہ بھی اپنائے ہوئے ہیں، اور یہی بہترین معیار کی بنیاد ہے۔
بہترین ٹیکسٹ ٹو اسپیچ ایپ کے لیے اسپیچیفائی آزمائیں۔ اگرچہ دیگر پلیٹ فارمز کے بھی اپنے فائدے ہیں، لیکن اسپیچیفائی سب کے لیے سیدھی، جھنجھٹ سے پاک اور آسان ہے۔

