টেক্সট টু স্পিচ (TTS) এবং ভয়েস সিন্থেসিস আজকের আধুনিক প্রযুক্তি মনে হলেও, এদের শিকড় ছড়িয়ে আছে বহু শতাব্দী জুড়ে।
শুরুতে যান্ত্রিক যন্ত্রে মানুষের কথা নকল করার চেষ্টা থেকে শুরু করে আজকের কৃত্রিম বুদ্ধিমত্তা ও ডিপ লার্নিং—সারা পথটাই ছিল বেশ রোমাঞ্চকর।
এই নিবন্ধে আমরা টেক্সট টু স্পিচ ও ভয়েস সিন্থেসিসের ইতিহাস একটু গভীরে গিয়ে দেখব এবং ভবিষ্যতের সম্ভাবনাগুলোরও ঝলক ধরার চেষ্টা করব।
শুরুর যুগ থেকে আধুনিক ব্যবহারে টেক্সট টু স্পিচ ও ভয়েস সিন্থেসিস
১৮ ও ১৯ শতক
টেক্সট টু স্পিচ ও ভয়েস সিন্থেসিসের ভিত্তি গড়ে ওঠে ১৮ ও ১৯ শতকে। তখন যান্ত্রিক যন্ত্র দিয়ে কৃত্রিমভাবে বক্তৃতা বানানোর প্রথম পরীক্ষা-নিরীক্ষা শুরু হয়। ১৭৭০-এর দশকে, হাঙ্গেরিয়ান উদ্ভাবক ওল্ফগ্যাং ভন কেমফেলেন ‘অ্যাকোস্টিক-মেকানিক্যাল স্পিচ মেশিন’ বানান, যা মানুষের স্বরযন্ত্রের পথ অনুকরণ করে তৈরি। এতে বেলো, রিড ও পাইপ থাকত এবং স্বরবর্ণ ও ব্যঞ্জনবর্ণের ধ্বনি বের করা যেত।
১৮শ শতকের শেষ দিকে, ইংরেজ পদার্থবিদ চার্লস হুইটস্টোন কেমফেলেনের যন্ত্রের আরও উন্নত সংস্করণ ‘স্পিকিং মেশিন’ বানান, যা বিভিন্ন বাদ্যযন্ত্রের শব্দও তুলতে পারত। যদিও এর মূল লক্ষ্য ছিল না বক্তৃতা তৈরি, তবু যান্ত্রিকভাবে শব্দ বানানোর ধারনাকে অনেকটাই সামনে নিয়ে আসে।
১৯শ শতকে ফাবারের ‘কৃত্রিম বক্তৃতা’ যন্ত্রসহ আরও অনেক রকম ডিভাইস তৈরি হয়, যেগুলোতে যান্ত্রিক ও বায়ু-চালিত পদ্ধতিতে বক্তৃতা তৈরির চেষ্টা করা হতো।
প্রারম্ভিক ২০ শতক ও প্রথম সম্পূর্ণ বৈদ্যুতিক বক্তৃতা সিন্থেসিস
২০ শতকের গোড়ার দিকে হোমার ডাডলি সম্পূর্ণ বৈদ্যুতিক বক্তৃতা সিন্থেসিস সিস্টেম ‘ভোকোডার’ তৈরি করেন, যা নিউ জার্সির বেল ল্যাবে আরও উন্নত করা হয়।
ডাডলির ভোকোডার রেজোনেটর ও ফিল্টার ব্যবহার করে কৃত্রিম বক্তৃতা তৈরি করত। ১৯৩৯–১৯৪০ সালের নিউ ইয়র্ক ওয়ার্ল্ডস ফেয়ারে ভোডার নামের যন্ত্রটি কীবোর্ড ও ফুট প্যাডেল দিয়ে নিয়ন্ত্রণ করা হত।
১৯৫০-এর দশক থেকে ১৯৭০-এর শেষ পর্যন্ত – সিন্থেসাইজারের উত্থান
১৯৫১ সালে ডাডলির কাজ থেকে অনুপ্রাণিত হয়ে ড. ফ্রাঙ্কলিন এস. কুপার হ্যাসকিন্স ল্যাবরেটরিতে ‘প্যাটার্ন প্লেব্যাক’ তৈরি করেন। এতে রেকর্ড করা শব্দ বিশ্লেষণ করে তার তরঙ্গ বা ‘স্পেকট্রোগ্রাফিক প্যাটার্ন’ ডেটা আকারে রাখা হতো, পরে সেগুলো চালিয়ে কৃত্রিম শব্দ তৈরি করা যেত।
১৯৭৬ সালে কার্জভেইল রিডিং মেশিনের মাধ্যমে প্রথম বানিজ্যিকভাবে সফল টেক্সট টু স্পিচ পদ্ধতি আসে। এতে আগে থেকে সংরক্ষিত ধ্বনি ও শব্দ জুড়ে বাক্য তৈরি করা হতো। মূলত দৃষ্টিপ্রতিবন্ধী ব্যবহারকারীদের জন্য বানানো হলেও, পরে এটি বেশ জনপ্রিয় হয়ে ওঠে।
১৯৭৮ সালে টেক্সাস ইন্সট্রুমেন্টস স্পিচ সিন্থেসিস চিপ তৈরি শুরু করে, যা পরে ভিডিও গেম ও কম্পিউটার অ্যাপ্লিকেশনে ব্যবহৃত হয়। এই প্রযুক্তি পরে DECtalk-এ যায়, যা প্রতিবন্ধী ব্যবহারকারীদের জন্য উচ্চমানের কণ্ঠস্বর সরবরাহ করত।
আধুনিক টেক্সট টু স্পিচ সিস্টেম
সাম্প্রতিক সময়ে নিউরাল নেটওয়ার্ক দিয়ে কণ্ঠ তৈরিতে বড় ধরনের পরিবর্তন এসেছে। গুগল, মাইক্রোসফটের মতো সংস্থাগুলো বিশাল ডেটাসেট বিশ্লেষণ করে এমন TTS তৈরি করেছে, যা স্বাভাবিক কথোপকথনের খুব কাছাকাছি শোনায়।
আরেকটি গুরুত্বপূর্ণ অগ্রগতি হলো ইউনিট সিলেকশন ও কনক্যাটেনেটিভ সিন্থেসিস। এতে আগে থেকে রাখা ছোট ছোট বক্তৃতা টুকরো (যেমন ডিফোন বা পুরো শব্দ) জুড়ে আরও প্রাণবন্ত কথন তৈরি হয়। Speechify, অ্যাপলের সিরি, অ্যামাজন অ্যালেক্সা, আর আগের IBM ViaVoice–এ এই কৌশল ব্যবহার হয়েছে।
সাম্প্রতিক বছরগুলোতে স্পিচ রিকগনিশন প্রযুক্তিও অনেক দূর এগিয়েছে, ফলে আরও উন্নত মানের TTS বানানো সম্ভব হচ্ছে। মানুষের ভাষা লিখিত রূপে ধরতে এ ধরনের প্রযুক্তি বড় ভূমিকা রাখছে।
এছাড়া এখন স্পিচে প্রসোডি ও ইনটোনেশন ভালোভাবে যোগ করা হচ্ছে, ফলে বক্তৃতা আরও জীবন্ত শোনায়, ঠিকঠাক বিরতি, জোর আর স্বরের ওঠানামা ধরা যায়। বিশেষ করে ইংরেজির মতো ভাষায়, যেখানে উচ্চারণ বদলালে অর্থও বদলে যেতে পারে, সেখানে প্রসোডি ভীষণ গুরুত্বপূর্ণ।
ডিপ লার্নিং ও ভবিষ্যৎ প্রযুক্তি
TTS প্রযুক্তির ভবিষ্যৎ এখন খুবই উজ্জ্বল। কৃত্রিম বুদ্ধিমত্তা ও ডিপ লার্নিংয়ের জোরে স্বাভাবিক কথার মতোই আন্তরিক, সূক্ষ্ম আর আবেগঘন বক্তৃতা তৈরি করা সম্ভব হবে।
বিশেষ করে ভার্চুয়াল অ্যাসিস্ট্যান্ট ও চ্যাটবট বানাতে এই প্রযুক্তি সত্যিকারের কাজে লাগবে। ব্যবহারকারীরাও আরামে, স্বচ্ছন্দে ডিভাইসের সঙ্গে কথা বলতে পারবে।
এছাড়া টেক্সট-টু-ফোনিম রূপান্তর (ফোনেটিক ট্র্যান্সক্রিপশন) আরও নিখুঁত হবে। মেশিন যত ভালো করে মানুষের কথা বুঝতে শিখবে, স্পিচ-টু-টেক্সট ততই ধারাবাহিকভাবে উন্নতি পাবে।
শেষ পর্যন্ত টেক্সট টু স্পিচ প্রযুক্তি আরও সহজলভ্য হবে এবং একেবারে দৈনন্দিন জীবনের অংশ হয়ে যাবে। আরও বেশি ডিভাইস ইন্টারনেট অব থিংসের সঙ্গে যুক্ত হলে আমরা সরাসরি কণ্ঠ দিয়েই সেগুলো নিয়ন্ত্রণ করতে পারব, যা জীবনকে আরও স্বচ্ছন্দ আর সুবিধাজনক করে তুলবে।
Speechify–এর সাথে টেক্সট টু স্পিচ বিপ্লবে যোগ দিন
আপনি যদি এমন শক্তিশালী টেক্সট টু স্পিচ টুল চান, যা খুব স্বাভাবিক ও উচ্চমানের কথন তৈরি করতে পারে, তাহলে Speechify–ই আপনার জন্য ঠিক ঠিক।
Speechify–এর উন্নত ফরমান্ট সিন্থেসিস প্রযুক্তি ব্যবহার করে খুবই প্রাকৃতিক শোনার মতো শব্দ তৈরি হয়—আগের সেই একঘেয়ে রোবটিক কণ্ঠের সঙ্গে কোনও মিল নেই। এমন মানের কণ্ঠ দেখে স্টিফেন হকিং–এর মতো লেখকরাও মুগ্ধ হতেন।
Speechify ব্যবহার করাও খুব সহজ—শুধু অফিসিয়াল ওয়েবসাইটে গিয়ে বা অ্যাপ নামিয়ে আপনার লেখা দিন। তারপর পছন্দমতো কণ্ঠ বেছে নিন, গতি বা টোন ঠিক করুন, আর শোনা শুরু করুন! Speechify দুর্দান্ত মানের কথন তৈরি করে, যা ই-লার্নিং, ভিডিও,পডকাস্ট আর প্রেজেন্টেশনের জন্য একেবারে মানানসই। চাইলে নিজের কাস্টম কণ্ঠ বানিয়ে YouTube ও অন্য সোশ্যাল চ্যানেলেও ব্যবহার করতে পারবেন।
কম মানের TTS নিয়ে আপস করবেন না—Speechify একবার ব্যবহার করে দেখুন আর টেক্সট টু স্পিচের ভবিষ্যৎ নিজের কানেই শুনে নিন।
প্রশ্নোত্তর
বিশ্বের প্রথম স্পিচ সিন্থেসাইজার কে তৈরি করেন?
হোমার ডাডলি ১৯৩০-এর দশকে নিউ ইয়র্কের বেল ল্যাবে বিশ্বের প্রথম স্পিচ সিন্থেসাইজার তৈরি করেন।
স্পিচ সিন্থেসিসের উদ্দেশ্য কী?
স্পিচ সিন্থেসিসের মূল লক্ষ্য হলো লেখা বিশ্লেষণ করে, তার ভাষাগত ও ফ্রিকোয়েন্সি বৈশিষ্ট্য ধরে কৃত্রিম বক্তৃতা তৈরি করা।
TTS কোন চারভাবে ব্যবহার হতে পারে?
TTS ব্যবহৃত হয় প্রবেশগম্যতা বাড়াতে, বিনোদনে, ভাষা শেখায় এবং ভয়েস-ভিত্তিক সেবা স্বয়ংক্রিয়করণে।
টেক্সট টু স্পিচের কিছু সুবিধা কী কী?
টেক্সট টু স্পিচ দৃষ্টিপ্রতিবন্ধী এবং ব্যস্ত ব্যবহারকারীদের জন্য লেখা শোনাকে সহজ করে, শেখার গতি বাড়ায় এবং অডিওর মাধ্যমে কনটেন্ট গ্রহণে উৎপাদনশীলতা বাড়ায়।
টেক্সট-টু-স্পিচ সিন্থেসিসে সবচেয়ে চমকপ্রদ মুহূর্ত কোনটি?
চার্লস হুইটস্টোনের যান্ত্রিক বক্তৃতা যন্ত্রের আবিষ্কার ছিল টেক্সট টু স্পিচের ইতিহাসে এক বিশেষ চমকপ্রদ অধ্যায়।

