স্পিচ সিন্থেসিস বা টেক্সট-টু-স্পিচ (TTS) প্রযুক্তি লেখাকে কথায় রূপান্তর করে। এটি প্রতিবন্ধীদের সহায়তা, ভাষা শিক্ষা, GPS ন্যাভিগেশনসহ নানান কাজে ব্যবহৃত হয়। ওপেন সোর্স টুল আসার পর থেকে অনেক টেক্সট-টু-স্পিচ সফটওয়্যার তৈরি হয়েছে। এই লেখায় ওপেন সোর্স ভয়েস সিন্থেসাইজারের জগতে একটু গভীরে ঢুঁ মারা হয়েছে।
প্রথমেই মনে রাখা জরুরি, সব স্পিচ সিন্থেসিস টুলই ওপেন সোর্স নয়। যেমন, Google Text-to-Speech (TTS) ডেভেলপারদের জন্য শক্তিশালী API দিলেও এটি ওপেন সোর্স নয়। একইভাবে, lifelike ভয়েসের জন্য পরিচিত Amazon Polly-ও ওপেন সোর্স নয়।
অন্যদিকে, Coqui AI—উচ্চমানের TTS টুলকিট—GitHub-এ ওপেন সোর্স প্রকল্প হিসেবে পাওয়া যায়। এটি Mozilla-এর TTS প্রকল্প থেকে তৈরি এবং শক্তিশালী কমান্ডলাইন ইন্টারফেস দেয়। Tacotron2 প্রযুক্তি ব্যবহার করে নতুন ভয়েস বানাতে ডিপ লার্নিং কাজে লাগায়।
Microsoft Speech Platform-এর টেক্সট-টু-স্পিচ সুবিধা ওপেন সোর্স নয়। তবে, Speech API (SAPI5) উইন্ডোজ প্ল্যাটফর্মে ডেভেলপারদের জন্য উন্মুক্ত।
তবে ওপেন সোর্স দুনিয়ায় স্পিচ রিকগনিশনে ঘাটতি নেই। যেমন CMU Sphinx, যা কার্নেগি মেলন ইউনিভার্সিটিতে তৈরি করা স্পিচ রিকগনিশন সিস্টেম।
উচ্চমানের ওপেন সোর্স ভয়েস সিন্থেসিস টুলের মধ্যে কিছু সফটওয়্যারের নাম উল্লেখযোগ্য:
- eSpeak: ইংরেজি ও আরও অনেক ভাষার জন্য ছোট আকারের ওপেন সোর্স স্পিচ সিন্থেসাইজার। Windows, Linux-এ চলে এবং ছোট রোবটের জন্য দারুণ মানানসই।
- Mycroft: ওপেন সোর্স ভয়েস অ্যাসিস্ট্যান্ট, যা মেশিন লার্নিংয়ের সাহায্যে TTS ও স্পিচ রিকগনিশন সুবিধা দেয়।
- MaryTTS: জাভাতে লেখা নমনীয়, বহু-ভাষার ওপেন সোর্স টেক্সট-টু-স্পিচ প্ল্যাটফর্ম।
- Mozilla TTS: ডিপ লার্নিং-ভিত্তিক টেক্সট-টু-স্পিচ ইঞ্জিন, Common Voice প্রকল্পের অংশ, ভয়েস অ্যাপ প্রশিক্ষণের জন্য ডেটাসেট তৈরি করে।
- Festival Speech Synthesis System: যুক্তরাজ্যের Centre for Speech Technology Research-এর তৈরি, নানা ধরনের ভয়েসসহ স্পিচ সিন্থেসিস তৈরির জন্য একটি সাধারণ ফ্রেমওয়ার্ক।
- Flite (Festival-lite): Festival-ভিত্তিক হালকা ইঞ্জিন, এমবেডেড সিস্টেম ও বড় পরিসরের স্পিচ সার্ভারের জন্য উপযোগী।
- HTS: HMM-ভিত্তিক সিন্থেসিস সিস্টেম, টেক্সট থেকে স্পিচ তৈরিতে জনপ্রিয় ও উচ্চমানের সমাধান।
- Docker: যদিও Docker নিজে TTS টুল নয়, অনেক টুল যেমন Coqui সহজেই Docker-এ চালানো যায়—ফলে বিভিন্ন প্ল্যাটফর্মে ব্যবহার করা আরও সহজ হয়।
প্রত্যেক টুলেরই নিজস্ব সুবিধা-অসুবিধা রয়েছে। ওপেন সোর্স ভয়েস সিন্থেসাইজার বিনামূল্যে, কাস্টমাইজযোগ্য ও কমিউনিটি-সমর্থিত প্ল্যাটফর্ম দেয়। বেশিরভাগের সঙ্গেই থাকে পূর্ব-প্রশিক্ষিত মডেল, যা ডেভেলপারদের জন্য মেশিন লার্নিং অনেকটাই সহজ করে। তবে, এগুলো সেটআপ ও ব্যবহারে কিছুটা টেকনিক্যাল জ্ঞান লাগতে পারে। আর, ভাষার বৈচিত্র্য ও মান অনেক সময় কমার্শিয়াল টুলের তুলনায় কম হতে পারে।
ওপেন সোর্স প্রযুক্তিতে এখন সত্যিকারের এক বিপ্লব চলছে; ভয়েস সিন্থেসাইজার আর TTS সিস্টেমও তাতে বদলে যাচ্ছে। বাস্তব জীবনের অ্যাপ থেকে শুরু করে ভবিষ্যতের মেশিন লার্নিং, ডিপ লার্নিং ও এআই সমাধানে এগুলোর অগ্রযাত্রা অব্যাহত থাকবে।

