টেক্সট টু স্পিচ ও ভয়েস সিন্থেসিসের ইতিহাস কী?

টেক্সট টু স্পিচ (TTS) এবং ভয়েস সিন্থেসিস আজকের আধুনিক প্রযুক্তি মনে হলেও, এদের শিকড় ছড়িয়ে আছে বহু শতাব্দী জুড়ে।

শুরুতে যান্ত্রিক যন্ত্রে মানুষের কথা নকল করার চেষ্টা থেকে শুরু করে আজকের কৃত্রিম বুদ্ধিমত্তা ও ডিপ লার্নিং—সারা পথটাই ছিল বেশ রোমাঞ্চকর।

এই নিবন্ধে আমরা টেক্সট টু স্পিচ ও ভয়েস সিন্থেসিসের ইতিহাস একটু গভীরে গিয়ে দেখব এবং ভবিষ্যতের সম্ভাবনাগুলোরও ঝলক ধরার চেষ্টা করব।

শুরুর যুগ থেকে আধুনিক ব্যবহারে টেক্সট টু স্পিচ ও ভয়েস সিন্থেসিস

১৮ ও ১৯ শতক

টেক্সট টু স্পিচ ও ভয়েস সিন্থেসিসের ভিত্তি গড়ে ওঠে ১৮ ও ১৯ শতকে। তখন যান্ত্রিক যন্ত্র দিয়ে কৃত্রিমভাবে বক্তৃতা বানানোর প্রথম পরীক্ষা-নিরীক্ষা শুরু হয়। ১৭৭০-এর দশকে, হাঙ্গেরিয়ান উদ্ভাবক ওল্ফগ্যাং ভন কেমফেলেন ‘অ্যাকোস্টিক-মেকানিক্যাল স্পিচ মেশিন’ বানান, যা মানুষের স্বরযন্ত্রের পথ অনুকরণ করে তৈরি। এতে বেলো, রিড ও পাইপ থাকত এবং স্বরবর্ণ ও ব্যঞ্জনবর্ণের ধ্বনি বের করা যেত।

১৮শ শতকের শেষ দিকে, ইংরেজ পদার্থবিদ চার্লস হুইটস্টোন কেমফেলেনের যন্ত্রের আরও উন্নত সংস্করণ ‘স্পিকিং মেশিন’ বানান, যা বিভিন্ন বাদ্যযন্ত্রের শব্দও তুলতে পারত। যদিও এর মূল লক্ষ্য ছিল না বক্তৃতা তৈরি, তবু যান্ত্রিকভাবে শব্দ বানানোর ধারনাকে অনেকটাই সামনে নিয়ে আসে।

১৯শ শতকে ফাবারের ‘কৃত্রিম বক্তৃতা’ যন্ত্রসহ আরও অনেক রকম ডিভাইস তৈরি হয়, যেগুলোতে যান্ত্রিক ও বায়ু-চালিত পদ্ধতিতে বক্তৃতা তৈরির চেষ্টা করা হতো।

প্রারম্ভিক ২০ শতক ও প্রথম সম্পূর্ণ বৈদ্যুতিক বক্তৃতা সিন্থেসিস

২০ শতকের গোড়ার দিকে হোমার ডাডলি সম্পূর্ণ বৈদ্যুতিক বক্তৃতা সিন্থেসিস সিস্টেম ‘ভোকোডার’ তৈরি করেন, যা নিউ জার্সির বেল ল্যাবে আরও উন্নত করা হয়।

ডাডলির ভোকোডার রেজোনেটর ও ফিল্টার ব্যবহার করে কৃত্রিম বক্তৃতা তৈরি করত। ১৯৩৯–১৯৪০ সালের নিউ ইয়র্ক ওয়ার্ল্ডস ফেয়ারে ভোডার নামের যন্ত্রটি কীবোর্ড ও ফুট প্যাডেল দিয়ে নিয়ন্ত্রণ করা হত।

১৯৫০-এর দশক থেকে ১৯৭০-এর শেষ পর্যন্ত – সিন্থেসাইজারের উত্থান

১৯৫১ সালে ডাডলির কাজ থেকে অনুপ্রাণিত হয়ে ড. ফ্রাঙ্কলিন এস. কুপার হ্যাসকিন্স ল্যাবরেটরিতে ‘প্যাটার্ন প্লেব্যাক’ তৈরি করেন। এতে রেকর্ড করা শব্দ বিশ্লেষণ করে তার তরঙ্গ বা ‘স্পেকট্রোগ্রাফিক প্যাটার্ন’ ডেটা আকারে রাখা হতো, পরে সেগুলো চালিয়ে কৃত্রিম শব্দ তৈরি করা যেত।

১৯৭৬ সালে কার্জভেইল রিডিং মেশিনের মাধ্যমে প্রথম বানিজ্যিকভাবে সফল টেক্সট টু স্পিচ পদ্ধতি আসে। এতে আগে থেকে সংরক্ষিত ধ্বনি ও শব্দ জুড়ে বাক্য তৈরি করা হতো। মূলত দৃষ্টিপ্রতিবন্ধী ব্যবহারকারীদের জন্য বানানো হলেও, পরে এটি বেশ জনপ্রিয় হয়ে ওঠে।

১৯৭৮ সালে টেক্সাস ইন্সট্রুমেন্টস স্পিচ সিন্থেসিস চিপ তৈরি শুরু করে, যা পরে ভিডিও গেম ও কম্পিউটার অ্যাপ্লিকেশনে ব্যবহৃত হয়। এই প্রযুক্তি পরে DECtalk-এ যায়, যা প্রতিবন্ধী ব্যবহারকারীদের জন্য উচ্চমানের কণ্ঠস্বর সরবরাহ করত।

আধুনিক টেক্সট টু স্পিচ সিস্টেম

সাম্প্রতিক সময়ে নিউরাল নেটওয়ার্ক দিয়ে কণ্ঠ তৈরিতে বড় ধরনের পরিবর্তন এসেছে। গুগল, মাইক্রোসফটের মতো সংস্থাগুলো বিশাল ডেটাসেট বিশ্লেষণ করে এমন TTS তৈরি করেছে, যা স্বাভাবিক কথোপকথনের খুব কাছাকাছি শোনায়।

আরেকটি গুরুত্বপূর্ণ অগ্রগতি হলো ইউনিট সিলেকশন ও কনক্যাটেনেটিভ সিন্থেসিস। এতে আগে থেকে রাখা ছোট ছোট বক্তৃতা টুকরো (যেমন ডিফোন বা পুরো শব্দ) জুড়ে আরও প্রাণবন্ত কথন তৈরি হয়। Speechify, অ্যাপলের সিরি, অ্যামাজন অ্যালেক্সা, আর আগের IBM ViaVoice–এ এই কৌশল ব্যবহার হয়েছে।

সাম্প্রতিক বছরগুলোতে স্পিচ রিকগনিশন প্রযুক্তিও অনেক দূর এগিয়েছে, ফলে আরও উন্নত মানের TTS বানানো সম্ভব হচ্ছে। মানুষের ভাষা লিখিত রূপে ধরতে এ ধরনের প্রযুক্তি বড় ভূমিকা রাখছে।

এছাড়া এখন স্পিচে প্রসোডি ও ইনটোনেশন ভালোভাবে যোগ করা হচ্ছে, ফলে বক্তৃতা আরও জীবন্ত শোনায়, ঠিকঠাক বিরতি, জোর আর স্বরের ওঠানামা ধরা যায়। বিশেষ করে ইংরেজির মতো ভাষায়, যেখানে উচ্চারণ বদলালে অর্থও বদলে যেতে পারে, সেখানে প্রসোডি ভীষণ গুরুত্বপূর্ণ।

ডিপ লার্নিং ও ভবিষ্যৎ প্রযুক্তি

TTS প্রযুক্তির ভবিষ্যৎ এখন খুবই উজ্জ্বল। কৃত্রিম বুদ্ধিমত্তা ও ডিপ লার্নিংয়ের জোরে স্বাভাবিক কথার মতোই আন্তরিক, সূক্ষ্ম আর আবেগঘন বক্তৃতা তৈরি করা সম্ভব হবে।

বিশেষ করে ভার্চুয়াল অ্যাসিস্ট্যান্ট ও চ্যাটবট বানাতে এই প্রযুক্তি সত্যিকারের কাজে লাগবে। ব্যবহারকারীরাও আরামে, স্বচ্ছন্দে ডিভাইসের সঙ্গে কথা বলতে পারবে।

এছাড়া টেক্সট-টু-ফোনিম রূপান্তর (ফোনেটিক ট্র্যান্সক্রিপশন) আরও নিখুঁত হবে। মেশিন যত ভালো করে মানুষের কথা বুঝতে শিখবে, স্পিচ-টু-টেক্সট ততই ধারাবাহিকভাবে উন্নতি পাবে।

শেষ পর্যন্ত টেক্সট টু স্পিচ প্রযুক্তি আরও সহজলভ্য হবে এবং একেবারে দৈনন্দিন জীবনের অংশ হয়ে যাবে। আরও বেশি ডিভাইস ইন্টারনেট অব থিংসের সঙ্গে যুক্ত হলে আমরা সরাসরি কণ্ঠ দিয়েই সেগুলো নিয়ন্ত্রণ করতে পারব, যা জীবনকে আরও স্বচ্ছন্দ আর সুবিধাজনক করে তুলবে।

Speechify–এর সাথে টেক্সট টু স্পিচ বিপ্লবে যোগ দিন

আপনি যদি এমন শক্তিশালী টেক্সট টু স্পিচ টুল চান, যা খুব স্বাভাবিক ও উচ্চমানের কথন তৈরি করতে পারে, তাহলে Speechify–ই আপনার জন্য ঠিক ঠিক।

Speechify–এর উন্নত ফরমান্ট সিন্থেসিস প্রযুক্তি ব্যবহার করে খুবই প্রাকৃতিক শোনার মতো শব্দ তৈরি হয়—আগের সেই একঘেয়ে রোবটিক কণ্ঠের সঙ্গে কোনও মিল নেই। এমন মানের কণ্ঠ দেখে স্টিফেন হকিং–এর মতো লেখকরাও মুগ্ধ হতেন।

Speechify ব্যবহার করাও খুব সহজ—শুধু অফিসিয়াল ওয়েবসাইটে গিয়ে বা অ্যাপ নামিয়ে আপনার লেখা দিন। তারপর পছন্দমতো কণ্ঠ বেছে নিন, গতি বা টোন ঠিক করুন, আর শোনা শুরু করুন! Speechify দুর্দান্ত মানের কথন তৈরি করে, যা ই-লার্নিং, ভিডিও,পডকাস্ট আর প্রেজেন্টেশনের জন্য একেবারে মানানসই। চাইলে নিজের কাস্টম কণ্ঠ বানিয়ে YouTube ও অন্য সোশ্যাল চ্যানেলেও ব্যবহার করতে পারবেন।

কম মানের TTS নিয়ে আপস করবেন না—Speechify একবার ব্যবহার করে দেখুন আর টেক্সট টু স্পিচের ভবিষ্যৎ নিজের কানেই শুনে নিন।

প্রশ্নোত্তর

বিশ্বের প্রথম স্পিচ সিন্থেসাইজার কে তৈরি করেন?

হোমার ডাডলি ১৯৩০-এর দশকে নিউ ইয়র্কের বেল ল্যাবে বিশ্বের প্রথম স্পিচ সিন্থেসাইজার তৈরি করেন।

স্পিচ সিন্থেসিসের উদ্দেশ্য কী?

স্পিচ সিন্থেসিসের মূল লক্ষ্য হলো লেখা বিশ্লেষণ করে, তার ভাষাগত ও ফ্রিকোয়েন্সি বৈশিষ্ট্য ধরে কৃত্রিম বক্তৃতা তৈরি করা।

TTS কোন চারভাবে ব্যবহার হতে পারে?

TTS ব্যবহৃত হয় প্রবেশগম্যতা বাড়াতে, বিনোদনে, ভাষা শেখায় এবং ভয়েস-ভিত্তিক সেবা স্বয়ংক্রিয়করণে।

টেক্সট টু স্পিচের কিছু সুবিধা কী কী?

টেক্সট টু স্পিচ দৃষ্টিপ্রতিবন্ধী এবং ব্যস্ত ব্যবহারকারীদের জন্য লেখা শোনাকে সহজ করে, শেখার গতি বাড়ায় এবং অডিওর মাধ্যমে কনটেন্ট গ্রহণে উৎপাদনশীলতা বাড়ায়।

টেক্সট-টু-স্পিচ সিন্থেসিসে সবচেয়ে চমকপ্রদ মুহূর্ত কোনটি?

চার্লস হুইটস্টোনের যান্ত্রিক বক্তৃতা যন্ত্রের আবিষ্কার ছিল টেক্সট টু স্পিচের ইতিহাসে এক বিশেষ চমকপ্রদ অধ্যায়।

স্পিচিফাই পৃথিবীর শীর্ষস্থানীয় টেক্সট-টু-স্পিচ প্ল্যাটফর্ম, যা ৫ কোটি+ ব্যবহারকারীর কাছে ভরসাযোগ্য এবং এর টেক্সট-টু-স্পিচ iOS, অ্যান্ড্রয়েড, ক্রোম এক্সটেনশন, ওয়েব অ্যাপ আর ম্যাক ডেস্কটপ অ্যাপসে ৫ লক্ষ+ ফাইভ-স্টার রিভিউ পেয়েছে। ২০২৫ সালে অ্যাপল স্পিচিফাই-কে মর্যাদাপূর্ণ অ্যাপল ডিজাইন অ্যাওয়ার্ড প্রদান করে WWDC-তে এবং একে বলে, “মানুষের জীবনে দারুণ সহায়ক একটি গুরুত্বপূর্ণ রিসোর্স।” স্পিচিফাই ৬০+ ভাষায় ১,০০০+ প্রাকৃতিক কণ্ঠ নিয়ে প্রায় ২০০ দেশে ব্যবহৃত হচ্ছে। সেলিব্রিটি কণ্ঠের মধ্যে রয়েছে স্নুপ ডগ আর গুইনেথ পেল্ট্রো। নির্মাতা ও ব্যবসার জন্য স্পিচিফাই স্টুডিও উন্নত সব টুল দেয়, যার মধ্যে রয়েছে AI ভয়েস জেনারেটর, AI ভয়েস ক্লোনিং, AI ডাবিং আর AI ভয়েস চেঞ্জার। স্পিচিফাই-এর উচ্চমানের এবং খরচ-সাশ্রয়ী টেক্সট-টু-স্পিচ API-এর মাধ্যমে অসংখ্য শীর্ষ পণ্য সম্ভব হয়েছে। দ্য ওয়াল স্ট্রিট জার্নাল, CNBC, Forbes, TechCrunch এবং অন্যান্য বড় সংবাদমাধ্যমে স্পিচিফাই নিয়ে প্রতিবেদন প্রকাশিত হয়েছে; এটি বিশ্বের সর্ববৃহৎ টেক্সট-টু-স্পিচ প্রদানকারী। আরও জানতে ভিজিট করুন speechify.com/news, speechify.com/blog এবং speechify.com/press।

টেক্সট টু স্পিচ ও ভয়েস সিন্থেসিসের ইতিহাস কী?

ক্লিফ ওয়েইৎজম্যান

স্পিচিফাই, আপনার ভয়েস AI সহকারী
টেক্সট-টু-স্পিচ। ভয়েস টাইপিং। দ্রুত উত্তর।