وائس کلوننگ، جو کسی شخص کی تقریر کو حقیقت کے قریب نقل کرنے کے لیے بنائی گئی ہے، وقت کے ساتھ بہت ترقی کر چکی ہے۔ اسپیکر ویری فکیشن ٹو ٹیکسٹ ٹو اسپیچ (SV2TTS) سے بولنے والے کی آواز نکال کر مصنوعی تقریر تیار کی جاتی ہے۔
وائس کلوننگ سافٹ ویئر کیسے کام کرتا ہے؟
وائس کلوننگ سافٹ ویئر عموماً ڈیپ لرننگ فریم ورک PyTorch سے بنائے جاتے ہیں۔ انہیں آواز کی نقل کے لیے اسپیکر کی آڈیو فائلیں درکار ہوتی ہیں۔ پھر یہی ڈیٹا سیٹ ماڈلز کو ٹرین کرنے کے لیے استعمال ہوتا ہے۔
سافٹ ویئر تین اہم حصوں پر مشتمل ہوتا ہے: اینکوڈر، سنتھیسائزر اور ووکوڈر۔ اینکوڈر آواز سے ایمبیڈ بناتا ہے، سنتھیسائزر سپیکٹروگرام تیار کرتا ہے اور ووکوڈر اسے سنی جانے والی تقریر میں بدل دیتا ہے۔
یہ ٹیکنالوجی CPU اور GPU دونوں پر چلتی ہے، کچھ سافٹ ویئر CUDA کے ذریعے تیز لرننگ کے لیے بھی موزوں ہیں۔ CPU پر چلانا ممکن ہے، مگر اصل وقت کی وائس کلوننگ کے لیے GPU بہتر رہتا ہے۔
وائس کلوننگ گٹ ہب کے اثرات
گٹ ہب ایک اوپن سورس پلیٹ فارم ہے، جہاں وائس کلوننگ کے کئی رپوز (ریپوزیٹریز) موجود ہیں۔ وائس کلوننگ گٹ ہب پروجیکٹس مثلاً CorentinJ اور BenaAndrew کے پراجیکٹس ڈویلپرز کو مل کر کام کرنے اور بہتری کا موقع دیتے ہیں۔ یہ اکثر پری ٹرینڈ ماڈلز بھی فراہم کرتے ہیں، جس سے نئے یوزرز کے لیے ماہر بنے بغیر وائس کلوننگ آزمانا آسان ہو جاتا ہے۔
کئی گٹ ہب پراجیکٹس جیسے Real-Time-Voice-Cloning، ٹیکسٹ ٹو اسپیچ (TTS) اور وائس کنورژن کے اسکرپٹس مہیا کرتے ہیں۔ demo_toolbox.py جیسے ٹولز سے یوزر تجربہ کر سکتے ہیں، جبکہ README.md میں انسٹالیشن اور استعمال کا مکمل طریقہ درج ہوتا ہے۔
وائس کلوننگ کے مقاصد اور خصوصیات
وائس کلوننگ مختلف مقاصد کے لیے استعمال ہوتی ہے، جیسے انٹرٹینمنٹ، دسترس اور فراڈ کی شناخت۔ اس سے ملٹی اسپیکر ٹیکسٹ ٹو اسپیچ ممکن ہوتا ہے اور ایسے افراد کی آواز واپس لائی جا سکتی ہے جو بیماری کے باعث بول نہیں سکتے۔
وائس کلوننگ سافٹ ویئر کی خصوصیات میں منفرد انداز کی نقل، مختلف زبانیں، طے شدہ رفتار و آہنگ، اور لینکس جیسی OS سپورٹ شامل ہیں۔ یہ APIs بھی دیتے ہیں تاکہ آسانی سے دوسری ایپس میں جوڑا جا سکے۔
ٹاپ 9 وائس کلوننگ سافٹ ویئر
- Speechify وائس کلوننگ: Speechify وائس کلوننگ بہترین ہے۔ بس براؤزر میں ریکارڈ دبائیں اور 30 سیکنڈ بولیں، Speechify AI فوراً آپ کی آواز کلون کر دے گا۔
- Real-Time-Voice-Cloning: گٹ ہب پر اوپن سورس پراجیکٹ جو پائتھن کی بنیاد پر کم ڈیٹا میں تقریباً اصل وقت میں وائس کلوننگ مہیا کرتا ہے۔
- iSpeech: ایک اعلی معیار کا TTS حل جو وائس کلوننگ سمیت دیگر آواز سروسز دیتا ہے۔
- Resemble AI: ایک جدید پلیٹ فارم جو اپنی مرضی کی وائس کلوننگ اور سادہ API پیش کرتا ہے۔
- Lyrebird: اب Descript کا حصہ، Lyrebird اپنی بہترین وائس کلوننگ صلاحیتوں سے مشہور تھا، اور منفرد 'ڈیجیٹل وائس' بناتا تھا۔
- CereVoice Me: CereProc کی سروس، جو یوزرز کی ریکارڈنگ سے منفرد TTS وائس تیار کرتی ہے۔
- Voicepods: جدید AI سے ٹیکسٹ کو اصل جیسی آواز میں بدلتا ہے اور وائس کلوننگ بھی کرتا ہے۔
- Modulate: یوزرز کو اپنی پسند کے منفرد 'وائس اسکنز' بنانے دیتا ہے۔
- Voicery: اعلی معیار کی تقریری ترکیب اور حسب ضرورت وائس کے لیے معروف ہے۔
ان سافٹ ویئر کے لیے عموماً pip install، requirements.txt کی تکمیل اور ہدایات پر عمل ضروری ہوتا ہے۔ زیادہ تر پراجیکٹس Jupyter نوٹ بکس، CLI یا Google Colab بھی سپورٹ کرتے ہیں۔

