সাম্প্রতিক বছরে ডিপফেইক প্রযুক্তিতে বড় অগ্রগতি হয়েছে। ভিডিও ডিপফেইকের পাশাপাশি, অডিও ডিপফেইক বা ভয়েস ক্লোনিং দ্রুত এগোচ্ছে, যা কৃত্রিম বুদ্ধিমত্তা (AI) ও মেশিন লার্নিংয়ের নানা কৌশল ব্যবহার করে।
ডিপফেইক কী? ভয়েস ক্লোনিং কী?
ডিপফেইক হলো কৃত্রিম মিডিয়া, যেখানে কারো মুখ বা কণ্ঠ অন্য কারো দিয়ে বদলে দেওয়া হয়, আর তাতে খুবই বিশ্বাসযোগ্য ভুয়া অডিও বা ভিডিও ক্লিপ তৈরি হয়। আর ভয়েস ক্লোনিং মানে টেক্সট-টু-স্পিচ (TTS) সিস্টেম ব্যবহার করে মানুষের কণ্ঠ খুব উচ্চ মানে নকল করা। দুই ক্ষেত্রেই ডিপ লার্নিং ব্যবহৃত হয়, যা মানব মস্তিষ্কের মতো সিদ্ধান্ত নিতে তথ্য বিশ্লেষণ করে।
অডিও ও ভয়েস ক্লোনিং ডিপফেইক করা সম্ভব?
অডিও ডিপফেইক বা ভয়েস ক্লোনিং এখন একেবারেই সম্ভব। এসব সিস্টেম বড় ভয়েস ডেটাসেট বিশ্লেষণে মেশিন লার্নিং অ্যালগরিদম ব্যবহার করে। মডেল যথেষ্ট প্রশিক্ষিত হলে, তা নির্দিষ্ট কণ্ঠের টোন, উচ্চতা ও বৈশিষ্ট্য নকল করে নতুন অডিও বানাতে পারে। একে স্পিচ সিন্থেসিসও বলে।
অডিও ডিপফেইক ও ভয়েস ক্লোনিং তৈরি
অডিও ডিপফেইক তৈরির তিনটি ধাপ: তথ্য সংগ্রহ, প্রশিক্ষণ, উৎপাদন। প্রথমে টার্গেট কণ্ঠের অনেক অডিও নমুনা দরকার হয়। তথ্য যত বেশি, ফল তত ভালো হয়। এরপর সংগৃহীত অডিও দিয়ে ডিপ লার্নিং মডেলকে প্রশিক্ষণ দেওয়া হয়। সবশেষে, সেই মডেল দিয়ে একেবারে নতুন অডিও তৈরি করা যায়। গিটহাবে এসবের জন্য বেশ কিছু ওপেন সোর্স প্ল্যাটফর্মও আছে।
ভয়েস ক্লোনিং বনাম ডিপফেইক
ভয়েস ক্লোনিং ও ডিপফেইক একই ধরনের প্রযুক্তি ব্যবহার করলেও উদ্দেশ্য সবসময় এক হয় না। ভয়েস ক্লোনিং সাধারণত পডকাস্ট, অডিওবুক বা বাক প্রতিবন্ধীদের সহায়তার মতো কাজে ব্যবহৃত হয়। ডিপফেইক বেশি দেখা যায় ক্ষতিকর বা বিভ্রান্তিকর ভুয়া অডিও তৈরিতে।
অডিও ডিপফেইক ও ভয়েস ক্লোন চেনার উপায়
উচ্চ মানের কারণে অডিও ডিপফেইক বা ভয়েস ক্লোন চেনা কঠিন হতে পারে। তবু অস্বাভাবিক টোন, রিদম, উচ্চারণের খটকা, বা অদ্ভুত ব্যাকগ্রাউন্ড নয়েজ এগুলো শনাক্ত করতে সাহায্য করতে পারে। ডিপ লার্নিং মডেলে এমবেডিং মেট্রিক দিয়ে কোন অডিও আসল তা মিলিয়ে দেখা হয়। বহু সংস্থা ও গবেষক মেশিন লার্নিং ব্যবহার করে ডিপফেইক ধরার নানা পদ্ধতি তৈরি করেছে।
ডিপফেইকের আইনগত দিক
বিশ্বজুড়ে ডিপফেইকের বৈধতা এক নয়। কোথাও প্রতারণা, তথ্য বিকৃতি বা কারও ক্ষতির উদ্দেশ্যে ডিপফেইক বানানো বেআইনি। উদাহরণ হিসেবে নিউ ইয়র্কে ডিজিটাল ছদ্মবেশ নিয়ে বিশেষ আইন হয়েছে। তবে প্রযুক্তির গতির সঙ্গে আইনশৃঙ্খলা অনেক সময়ই তাল মিলিয়ে চলতে পারে না।
ভয়েস ক্লোনিংয়ের উপকারিতা ও ডিপফেইক ইমপ্যাক্ট
ডিপফেইক বড় হুমকি হতে পারে, বিশেষত ফোন কল বা সোশ্যাল মিডিয়ায় ভুয়া অডিও ছড়ালে, কিন্তু ভয়েস ক্লোনিংয়ের অনেক ভালো ব্যবহারও আছে। যেমন ভয়েসওভার, ট্রান্সক্রিপশন, কৃত্রিম কণ্ঠ তৈরি ইত্যাদি কাজে এটা বেশ উপকারী।
তবে এর অপব্যবহারের ঝুঁকিও কম নয়। নিখুঁত অডিও ডিপফেইকে অপরাধীরা কারো কণ্ঠ নকল করে প্রতারণা, ব্ল্যাকমেইল বা ভুয়া খবর ছড়াতে পারে।
অডিও ডিপফেইক ও ভয়েস ক্লোনিংয়ের জন্য শীর্ষ ৯ সফটওয়ার বা অ্যাপ
- Speechify Voice Cloning: Speechify voice cloning ব্যবহার করা সবচেয়ে সহজগুলোর একটি। সঙ্গে সঙ্গেই কণ্ঠ ক্লোন করে। শুধু ব্রাউজারে ৩০ সেকেন্ড রেকর্ড করুন, AI তাৎক্ষণিকভাবে আপনার কণ্ঠ ক্লোন করবে।
- Resemble AI: কাস্টম AI ভয়েস তৈরি করতে দেয়।
- Descript: শক্তিশালী অডিও এডিটিং টুল আর ডিপফেইক ভয়েস জেনারেটর দেয়।
- Lyrebird: Descript-এর AI গবেষণা বিভাগ, ভয়েস সিন্থেসিসে বিশেষ দক্ষ।
- iSpeech: উচ্চ মানের TTS ও ভয়েস ক্লোনিং সরবরাহ করে।
- CereProc: স্বতন্ত্র, স্বাভাবিক শোনায় এমন AI-ভিত্তিক কণ্ঠ তৈরি করে।
- Real-Time Voice Cloning: গিটহাবে থাকা এক ওপেন সোর্স প্রকল্প, যা রিয়েল-টাইমে কণ্ঠ ক্লোন করতে পারে।
- Azure Cognitive Services: Microsoft-এর স্পিচ সার্ভিস, যেখানে TTS ও ভয়েস কনভার্সনসহ নানা ফিচার আছে।
- Voicery: প্রকৃতির মতো স্বাভাবিক শোনায়, এমন কৃত্রিম কণ্ঠ তৈরি করে।
প্রতিটি সেবার বৈশিষ্ট্য, দাম ও মান আলাদা, তাই আগে ভালোভাবে দেখে নিজের প্রয়োজন অনুযায়ী বেছে নিন।
AI যত উন্নত হচ্ছে, অডিও ডিপফেইক ও ভয়েস ক্লোনিংও তত ছড়িয়ে পড়ছে। তাই প্রযুক্তি, সুবিধা আর সামাজিক প্রভাব সম্পর্কে জানা এখন অত্যন্ত জরুরি।

