টেক্সট-টু-স্পিচ প্রযুক্তি সাম্প্রতিক বছরগুলোতে অনেক দূর এগিয়েছে। কৃত্রিম বুদ্ধিমত্তার সহায়তায়, আজকের TTS এখন মানুষের মতো স্বর ও ভঙ্গি অনুকরণে বেশ দক্ষ।
Microsoft-এর VALL-E এমন এক নতুন প্রযুক্তি, যা টেক্সট-টু-স্পিচকে অবিশ্বাস্যরকম বাস্তব শোনাতে পারে। এটি একটি নিউরাল কোডেক ভাষা মডেল, জিরো-শট মেশিন লার্নিংভিত্তিক।
আগের বাক্যটি যদি শক্ত মনে হয়, ভাবনা নেই। নিচে VALL-E-র এসব জটিল ধারণা ধীরে-সুস্থে সহজ ভাষায় বোঝানো হয়েছে।
Microsoft VALL-E ব্যাখ্যা
এআই মডেলগুলো দ্রুত আরও শক্তিশালী হচ্ছে। অনেকেই ChatGPT-এর কথা জানেন, যা মানুষের সঙ্গে কথা বলার মতোই স্বাভাবিক এক এআই। DALL-E দিয়ে বানানো এআই ছবি-ইলাস্ট্রেশনও কমবেশি দেখেছেনই।
OpenAI-র মতো স্টার্টআপ ছাড়াও, Microsoft-এর মতো বড় বড় কোম্পানিও AI দুনিয়ায় বড় খেলোয়াড়।
Microsoft-এর গবেষকেরা সাম্প্রতিক টেক্সট-টু-স্পিচ সিন্থেসিসে বড় উন্নতি এনেছেন। VALL-E সেই কাজেরই ফল।
এই নতুন এআই TTS জগতে বড় বদল আনতে পারে, কারণ এটি মাত্র তিন সেকেন্ডের স্যাম্পল দিয়েই নির্দিষ্ট মানুষের কণ্ঠস্বর প্রায় হুবহু নকল করতে সক্ষম।
স্পিকার প্রম্পট পেলে, AI শুধু মানুষের কণ্ঠস্বরই নকল করে না, তাদের আবেগ-অনুভূতির ভঙ্গিও অনুকরণ করতে পারে। এমনকি ব্যাকগ্রাউন্ডের পরিবেশও বেশ ভালোভাবে ধরে রাখতে পারে।
সহজ ভাষায়, VALL-E নকল করতে একেবারে ওস্তাদ। GitHub-এ Microsoft অডিও নমুনা আর সেই সঙ্গে AI কীভাবে কাজ করে তার ব্যাখ্যাও শেয়ার করেছে।
বিভিন্নভাবে এই প্রযুক্তি কাজে লাগতে পারে, যেমন পডকাস্ট বা অডিওবুক তৈরি করা। ভবিষ্যতে GPT-3-এর সঙ্গে একীভূত হয়ে একেবারে নতুনভাবে বিকশিত হবে।
তবে VALL-E-র মতো প্রযুক্তি খারাপ উদ্দেশ্যেও ব্যবহার হওয়ার ঝুঁকি আছে।
VALL-E বাস্তব কণ্ঠের মতো শোনাতে পারে বলে, কেউ কেউ ক্ষতিকর ডিপফেইক, প্রতারণা বা স্ক্যামের মতো কাজেও এটি ব্যবহার করতে পারে। তাই Microsoft আলাদা করে একটি নৈতিক বিবৃতি দিয়েছে।
Microsoft তাদের সেই বিবৃতিতে বলেছে, স্পিকারের অনুমতি নিশ্চিত করতে বিশেষ ধরনের স্পিচ এডিটিং মডেল ব্যবহার করা উচিত।
VALL-E-র পার্শ্বপ্রতিক্রিয়া ভবিষ্যতে আরও পরিষ্কার হবে। আপাতত আমাদের মাথায় ঘোরে একটাই টানটান প্রশ্ন:
কীভাবে AI মাত্র তিন সেকেন্ডের অডিও থেকে এত জটিল অনুকরণ করতে পারে?
অবাক হওয়ার কিছু নেই, উত্তরটা যথেষ্ট জটিলই।
VALL-E বিপুল পরিমাণ ইংরেজি স্পিচ ডেটা দিয়ে প্রশিক্ষিত হয়েছে, যা AI-কে দুর্দান্ত মানের ইংরেজি কণ্ঠ তৈরি করতে সক্ষম করেছে। এটি সাধারণ TTS নয়—এটি একেবারে সর্বাধুনিক মেশিন লার্নিং দিয়ে চালিত।
এই প্রযুক্তির নাম আগেই বলা হয়েছে: জিরো-শট নিউরাল কোডেক ভাষা মডেল। এবার একে টুকরো টুকরো করে বুঝে নেওয়া যাক।
জিরো-শট নিউরাল কোডেক ভাষা মডেল ব্যাখ্যা
সহজভাবে বললে, “জিরো-শট” প্রযুক্তি এমন এক ক্ষমতা, যেখানে একেবারে নতুন ডেটা দিয়েও AI স্বচ্ছন্দে স্পিচ তৈরি করতে পারে। মানে, আগে কখনো না দেখা শব্দও অনায়াসে পড়ে শোনাতে পারে।
আরও মজার ব্যাপার হলো, জিরো-শট প্রযুক্তিতে বাড়তি আলাদা প্রশিক্ষণ ছাড়াই AI নতুন টেক্সট তুলে নিয়ে পড়ে ফেলতে পারে—যেমন মানুষ প্রথমবার পড়া লেখা পড়ে।
এবার আসি জটিল অংশে: “নিউরাল কোডেক ভাষা মডেল” কথাটার একটু খোলাসা দরকার।
TTS ইঞ্জিন অডিও কোডেক ব্যবহার করে। কোডেক AI-কে টেক্সটকে শব্দে রূপান্তর করতে সাহায্য করে। নিউরাল কোডেক একই কাজ করে, শুধু সবটাই নিউরাল নেটওয়ার্কের ওপর দাঁড়িয়ে।
তবে, এখানে আরেকটি প্রশ্ন আসে: নিউরাল নেটওয়ার্ক আবার কী?
অনেক গভীরে না গিয়ে, সহজ করে বললে: নিউরাল নেটওয়ার্ক মানুষের মস্তিষ্কের আদলে গড়া, অসংখ্য আর্টিফিশিয়াল নিউরন—বা নোড—দিয়ে বানানো স্তরবিন্যাসযুক্ত এক কাঠামো।
এই জটিল কাঠামোই ডিপ লার্নিংকে সম্ভব করে তোলে, যা এআই-কে অচেনা প্যাটার্নের সঙ্গেও নিজেদের মানিয়ে নিতে সাহায্য করে।
নিউরাল কোডেক টেক্সট-টু-স্পিচের ভাষা মডেল চালাতে সাহায্য করে।টেক্সট-টু-স্পিচ সমীকরণের এক গুরুত্বপূর্ণ অংশ এটি।
ভাষা মডেল যেকোনো লেখা আসল ভাষার মতো করে বুঝতে বিশাল ডেটাসেটের ওপর ভর করে। অর্থাৎ, AI লেখার মানে যেন মানুষের মতোই ‘বুঝে’, তারপর সেই অনুযায়ী প্রতিক্রিয়া দেয়।
VALL-E-র ক্ষেত্রে, Meta-র LibriLight অডিও লাইব্রেরি ছিল এই ভাষা মডেলের প্রধান ভিত্তি।
Speechify-এ আধুনিক TTS প্রযুক্তি শুনুন
VALL-E এখনও সবার জন্য উন্মুক্ত না হলেও, Speechify-এ চাইলে আধুনিক টেক্সট-টু-স্পিচ ইঞ্জিন কেমন শোনায় তা নিজের কানে শুনে দেখতে পারেন। এটি প্রায় যেকোনো সোর্স থেকে টেক্সট তুলে পড়ে শোনাতে পারে।
আপনি লিখিত টেক্সট, ওয়েব পেজ, এমনকি স্ক্যানড পেজ দিলেও Speechify সঙ্গে সঙ্গে পড়ে শোনাবে। এর কণ্ঠস্বরও বেশ প্রাকৃতিক। পুরোনো রোবোটিক TTS-এর তুলনায় অনেক বেশি মানুষের মতো শোনায়।
Speechify কীভাবে পড়বে তা পুরোই নিজের মতো করে কাস্টমাইজ করতে পারেন: ভাষা, বক্তা, গতি বেছে নিন, তারপর যেভাবে স্বচ্ছন্দ লাগে সেভাবেই শুনুন।
সবকিছু ভালো লাগলে, Speechify ফ্রি ট্রাই করে দেখুন।
FAQ
সাধারণ ব্যবহারকারীরা কি VALL-E ব্যবহার করতে পারে?
VALL-E-র অপব্যবহার নিয়ে যথেষ্ট উদ্বেগ আছে। পরিচয় চুরি বা ছদ্মবেশে প্রতারণার ঝুঁকি এ ক্ষেত্রে সবচেয়ে বেশি। এই কারণেই Microsoft এখনো এটি সাধারণ ব্যবহারকারীদের জন্য উন্মুক্ত করেনি।
Microsoft AI কী?
Microsoft AI কোনো নির্দিষ্ট পণ্য নয়। এটি এআই বিকাশের জন্য একধরনের সমন্বিত ফ্রেমওয়ার্ক, যেখানে ডেটা সায়েন্স, কথোপকথনের এআই, রোবোটিক্স, মেশিন লার্নিংসহ নানারকম সমাধান একত্রে থাকে।
ভয়েস-ড্রাইভেন ইন্টারফেস কী?
ভয়েস-ড্রাইভেন ইন্টারফেস বলতে বোঝায়—যে ইন্টারফেস আপনি ভয়েস কমান্ড দিয়ে চালান। স্মার্ট ডিভাইসে এ প্রযুক্তি এখন খুবই সাধারণ—যেমন Alexa, Siri, Cortana, বা Google Assistant।
রোবোট কী?
“রোবোট” শব্দটি স্বয়ংক্রিয়ভাবে কাজ করা যেকোনো মেশিনকে বোঝায়। এসব মূলত মানুষের কাজের বিকল্প বা সহায়ক হিসেবে তৈরি। অধিকাংশ রোবোট মানবদেহের মতো দেখতে নয়—অনেক সময় শারীরিক রূপই থাকে না। যেমন, ভার্চুয়াল অ্যাসিস্ট্যান্টেরাও একধরনের রোবোট হিসেবেই ধরা যায়।

