آواز سازی (ٹیکسٹ ٹو اسپیچ) ایسی ٹیکنالوجی ہے جو لکھا ہوا متن پڑھ کر سناتی ہے۔ یہ معذور افراد کی معاونت، زبان سیکھنے، جی پی ایس نیویگیشن اور بہت سے دوسرے مقامات پر کام آتی ہے۔ اوپن سورس کے عام ہونے سے کئی ٹیکسٹ ٹو اسپیچ ٹولز سامنے آئے ہیں۔ یہ مضمون اوپن سورس وائس سنتھیسائزرز پر روشنی ڈالتا ہے۔
سب سے پہلے یہ سمجھنا ضروری ہے کہ ہر اسپیچ سنتھیسز ٹول اوپن سورس نہیں ہوتا۔ مثلاً گوگل ٹیکسٹ ٹو اسپیچ (TTS) ایک مضبوط API فراہم کرتا ہے، لیکن اوپن سورس نہیں۔ اسی طرح Amazon Polly بھی اوپن سورس نہیں ہے۔
اس کے برعکس کوکی اے آئی ایک اعلی معیار کا اوپن سورس TTS ٹولکِٹ ہے، جو GitHub پر دستیاب ہے۔ یہ Mozilla کے TTS پراجیکٹ سے نکلا ہے اور مضبوط CLI فراہم کرتا ہے۔ کوکی Tacotron2 کی مدد سے نئی آوازیں deep learning کے ذریعے تخلیق کرتا ہے۔
مائکروسافٹ اسپیچ پلیٹ فارم بھی اوپن سورس نہیں، البتہ ڈویلپرز کے لیے ونڈوز پر SAPI5 API فراہم کرتا ہے۔
اچھی بات یہ ہے کہ اوپن سورس دنیا میں اسپیچ ریکگنیشن ٹولز کی کمی نہیں۔ ایک اہم مثال CMU Sphinx ہے، جو Carnegie Mellon یونیورسٹی میں تیار کیا گیا۔
اعلی معیار کے اوپن سورس وائس سنتھیسز ٹولز میں یہ سافٹ ویئر نمایاں ہیں:
- eSpeak: ہلکا پھلکا اوپن سورس اسپیچ سنتھیسائزر جو کئی زبانوں کو سپورٹ کرتا ہے۔ ونڈوز، لینکس اور خاص طور پر چھوٹے روبوٹس کے لیے موزوں ہے۔
- Mycroft: اوپن سورس وائس اسسٹنٹ جو machine learning کے ذریعے TTS اور اسپیچ ریکگنیشن انجام دیتا ہے۔
- MaryTTS: جاوا میں لکھا گیا لچکدار اور کثیر اللسانی اوپن سورس TTS پلیٹ فارم۔
- Mozilla TTS: ڈیپ لرننگ پر مبنی TTS انجن، جو Common Voice project کا حصہ ہے اور وائس ایپس کے لیے ڈیٹا سیٹ تیار کرنے پر مرکوز ہے۔
- Festival Speech Synthesis System: برطانیہ میں تیار کردہ یہ فریم ورک مختلف آوازیں اور فیچرز مہیا کرتا ہے۔
- Flite (Festival-lite): Festival پر مبنی ہلکا اسپیچ سنتھیسائز انجن، جو ایمبیڈڈ سسٹمز کے لیے موزوں ہے۔
- HTS: HMM بیسڈ اسپیچ سنتھیسز سسٹم، جو text سے مصنوعی آوازیں تیار کرنے کے لیے استعمال ہوتا ہے اور اعلی معیار فراہم کرتا ہے۔
- Docker: اگرچہ یہ خود TTS ٹول نہیں، لیکن کوکی جیسے کئی TTS ٹولز Docker میں چلائے جا سکتے ہیں، جس سے portability بڑھتی ہے۔
ہر ٹول کے اپنے فائدے اور کمزوریاں ہیں۔ اوپن سورس وائس سنتھیسائزرز ڈویلپرز اور صارفین کو مفت، حسب ضرورت اور کمیونٹی کی مدد سے چلنے والے پلیٹ فارم مہیا کرتے ہیں۔ عموماً ان کے ساتھ pretrained ماڈل بھی ملتے ہیں، مگر سیٹ اپ اور استعمال کے لیے تکنیکی مہارت درکار ہو سکتی ہے۔ بعض میں کوالٹی یا زبانوں کی حد بندی بھی ہو سکتی ہے۔
اوپن سورس ٹیکنالوجی کی بدولت وائس سنتھیسائزر اور TTS سسٹمز مسلسل ترقی کر رہے ہیں۔ یہ real-time ایپس اور مشین لرننگ، دیپ لرننگ اور AI کے مستقبل کے لیے نہایت مفید ہیں۔

