টেক্সট টু স্পিচ—অর্থাৎ কম্পিউটার সফটওয়্যার দিয়ে স্ক্রিনের লেখা শব্দ উচ্চারণ করে শোনানো—নতুন কিছু নয়, কিন্তু গত কয়েক বছরে এই প্রযুক্তিতে বড় বদল এসেছে।
সম্প্রতি এক গবেষণা অনুযায়ী, ২০২০ সালে টেক্সট টু স্পিচ বাজারের মূল্য ছিল ২ বিলিয়ন ডলার, যার পেছনে কোভিড-১৯ মহামারীর প্রভাব আছে। ধারণা করা হচ্ছে ২০২৬ সালের মধ্যে এর মূল্য বেড়ে ৫ বিলিয়নে পৌঁছাবে, বার্ষিক প্রবৃদ্ধি ১৪.৬%।
এটা অনেকটাই সম্ভব হয়েছে টেক্সট টু স্পিচ সমাধান নানা ধরনের দৃষ্টিসম্পন্ন মানুষের জন্য সহায়ক হওয়ায়। CDC অনুযায়ী, আমেরিকায় ৪০ বছরের বেশি বয়সী ১.২ কোটি মানুষের কোনো না কোনো দৃষ্টিজনিত সমস্যা আছে; এদের মধ্যে ১০ লাখ পুরোপুরি অন্ধ এবং ৮০ লাখের দৃষ্টিগত সমস্যা হয়েছে ঠিকমতো চিকিৎসা না করানোর ফলে। ২০১২ সালে এই সংখ্যা ছিল ৪.২ মিলিয়ন।
সব মিলিয়ে, টেক্সট টু স্পিচ প্রযুক্তির কার্যকারিতা প্রমাণিত। Speechify-এর মতো অনেক সল্যুশনে বিভিন্ন উচ্চমানের কণ্ঠের অপশন আছে। কিন্তু এগুলো ভেতরে কীভাবে চলে আর এত ভয়েস অপশন সম্ভবই বা হয় কীভাবে? বুঝতে হলে কয়েকটা বিষয় আগে জানা দরকার।
টেক্সট টু স্পিচের ভেতরের কাজ
তবে টেক্সট টু স্পিচ ভয়েস নিয়ে কথা বলার আগে জানতে হবে—এই সল্যুশনগুলো আসলে কীভাবে চলে।
টেক্সট টু স্পিচ এআই, মেশিন লার্নিংসহ নানা প্রযুক্তি ব্যবহার করে যেকোনো লেখা শব্দে রূপান্তর করে, যাতে তা উচ্চারিত হতে পারে। ওয়েবসাইট, আর্টিকেল এমনকি অফিস অ্যাপের লেখা—সবই এর মধ্যে পড়ে।
অডিও কনটেন্ট পুরোপুরি তৈরি হয় আপনি যে ডিভাইসটি ব্যবহার করছেন, সেটির ভেতরেই। ডেস্কটপ, ল্যাপটপ ছাড়াও প্রায় সব স্মার্টফোন, ট্যাবলেট এবং অনেক ডিভাইসেই টেক্সট টু স্পিচ চলে।
বেশির ভাগ ক্ষেত্রেই টেক্সট টু স্পিচ প্রসেসিং ডিভাইসেই হয়। তাই ইন্টারনেট সংযোগ না থাকলেও টেক্সট টু স্পিচ ব্যবহার করে শোনা যায়।
দৃষ্টিজনিত সমস্যার বাইরে, টেক্সট টু স্পিচে ভয়েসের গতি আর টোন নিজের মতো করে নিয়ন্ত্রণ করা যায়। চাইলে গতি কমিয়ে আরাম করে বুঝে শোনা যায়, আবার ইচ্ছে করলে বাড়িয়েও চালানো যায়।
টেক্সট টু স্পিচ ভয়েস: একটু গভীরে
এসব টেক্সট টু স্পিচ সল্যুশনের ভয়েস নির্ভর করে এক ধারণার ওপর, সেটাই হলো স্পিচ সিন্থেসাইজার।
স্পিচ সিন্থেসাইজার কী?
স্পিচ সিন্থেসিস হলো এমন এক আউটপুট, যেখানে কম্পিউটার বা ডিভাইস নির্দিষ্ট কণ্ঠে শব্দ উচ্চারণ করে। নিজের পড়া বা ছাপার মতোই—তবে শুধু লেখা না, শুনে বোঝা যায় এমনভাবে তথ্য দেয়। এটা আপনার স্পিকার বা হেডফোনে কণ্ঠ আকারে বাজে।
সোজা কথায়, স্পিচ সিন্থেসিস হয় কয়েকটা মূল ধাপে। প্রথম ধাপ: পাতায় থাকা লেখাকে শব্দে রূপান্তর করা।
ধাপ ১: প্রি-প্রসেসিং
এই পর্যায়ে টেক্সট টু স্পিচ সল্যুশন লেখার শব্দ বিশ্লেষণ করে, প্রতিটি বর্ণকে (যা শুধু প্রতীক) আসল শব্দে রূপান্তর করে। এই অংশটা খুব গুরুত্বপূর্ণ, কারণ লিখিত শব্দ অনেক সময় একাধিকভাবে বোঝা যায়। যেমন: their, there, they're—উচ্চারণ একই, কিন্তু মানে আলাদা। কম্পিউটারকে এই পার্থক্য ঠিকমতো “বোঝাতে” হয়।
এখানেই আসল ভূমিকা এআই আর মেশিন লার্নিংয়ের। AI-এর সাহায্যে টেক্সট টু স্পিচ সল্যুশনগুলো এসব পার্থক্য ঠিকঠাক ধরতে পারে। এই ধাপকে বলা হয় ‘প্রি-প্রসেসিং’, কারণ পড়ে শোনানোর আগে সফটওয়্যার এখানেই সব প্রস্তুতি সারে।
এই ধাপেই, একই বানানের কিন্তু ভিন্ন উচ্চারণ আর অর্থের শব্দও চেনা লাগে। যেমন: ‘read’—আজ পড়ছি/আগে পড়েছি। মানুষের কাছে স্বাভাবিক হলেও, কম্পিউটারকে এআই দিয়ে এই ফারাক বুঝতে শিখিয়ে নিতে হয়।
এ সময় সংখ্যাসূচক, সংক্ষিপ্ত রূপ, অ্যাক্রোনিম ইত্যাদিও আলাদা ঝামেলা তৈরি করে। বিশেষ চিহ্ন, যেমন ডলার সাইন, আরও জটিল করে। তাই প্রি-প্রসেসিং এত জরুরি—যাতে সবকিছু ঠিকমতো বোঝানো আর পড়া যায়।
ধাপ ২: উচ্চারণ ঠিক করা
টেক্সট বিশ্লেষণ শেষ হলে কোন কোন শব্দ উচ্চারিত হবে, তা ঠিক হয়। এরপর এগুলো ফোনিমে রূপান্তর হয়—মানে, প্রতিটি শব্দের সঠিক উচ্চারণ ভেঙে নেওয়া হয়।
গত কয়েক বছরে এই প্রক্রিয়ার মান অনেক বেড়েছে। ৯০ দশকের টেক্সট টু স্পিচে কণ্ঠ বেশ কৃত্রিম লাগত। তখন কম্পিউটারের বানানো ভয়েস সহজেই চেনা যেত, আর অনেক শব্দই ভুল উচ্চারিত হতো।
ধাপ ৩: কথায় রূপান্তর
ফোনিম ঠিক হয়ে গেলে টেক্সট টু স্পিচ সল্যুশন মূল ধাপে যায়—এই তথ্যকে আসল শব্দে বদলে স্পিকার বা হেডফোন দিয়ে উচ্চারণ করায়।
এটা কয়েকভাবে হতে পারে। এক পদ্ধতিতে অভিনেতা/অভিনেত্রী সব ফোনিম পড়ে রেকর্ড করেন; তা কম্পিউটারে জমা থাকে। পরে কোনো টেক্সট স্ক্যান করার সময় মিল পেলে সেই ফোনিম বাজে—তাতে ভয়েস বেশ স্বাভাবিক শোনায়।
কিছু সল্যুশনে পুরো ভয়েসই কম্পিউটার তৈরি করে। আগের রেকর্ড ছাড়াও নির্দিষ্ট শব্দতরঙ্গ বানিয়ে একেবারে নতুন ভয়েসও গড়ে তোলা যায়।
এটা অনেকটা মিউজিক সিন্থেসাইজার দিয়ে নানারকম বাদ্যযন্ত্রের শব্দ নকল করার মতো। মিউজিশিয়ান কীবোর্ড বাজালে পিয়ানোর বদলে অন্য যন্ত্রের সাউন্ড বাজতে পারে। মূল কথা, কম্পিউটার বোঝে কোন কী চাপলে কোন শব্দ বেরোবে।
ভয়েস অপশন আর আরও অনেক কিছু
এত বেশি ভয়েস অপশন থাকার কারণ হলো ভয়েস জেনারেটর-এ এগুলো বানানো এখন তুলনামূলক সহজ। AI ভয়েস জেনারেটরের জন্য দরকারি ফোনিম আমাদের ভাষাতেই থাকে। তাই একজন অভিনেতা ছোট একটা স্ক্রিপ্ট পড়লেই সেই তথ্য কাজে লাগানো যায়।
AI স্পিচ টেকনোলজি প্রতিটি ফোনিম আলাদা করে চেনে, আসল অডিও ভেঙে থেকে যা দরকার তাই ব্যবহার করে—ওয়েবসাইট বা অন্য যেকোনো পড়ার জন্য টেক্সট টু স্পিচ কণ্ঠ বানায়।
স্বাভাবিক ভয়েস জেনারেটরের ব্যবহারও এখন অনেক বেশি—শুধু দৃষ্টিহীনদের সহায়তায় নয়। সাম্প্রতিক বছরগুলোতে সামাজিক মাধ্যমের জন্য AI স্পিচ আর ভয়েস বানানো খুব ট্রেন্ডি হয়ে উঠেছে।
টিকটক এদের মধ্যে অন্যতম বড় ব্র্যান্ড, যারা AI ভয়েস ব্যবহার করে, যাতে ব্যবহারকারীরা ভিডিওতে টেক্সট দিয়ে স্পিচ সিন্থেসিসের মাধ্যমে লেখা পড়ে শোনাতে পারে। টিকটকে এমন কনটেন্টে বাড়তি মজা যোগ হয়, আর দিনেদিনে এর জনপ্রিয়তাও বাড়ছে।
টেক্সট টু স্পিচের ভবিষ্যৎ এখনই
সব শেষে, ভয়েস টেক্সট টু স্পিচ দারুণ এক টুল, কারণ এটা আমাদের নানাভাবে সাহায্য করে। দৃষ্টিসম্পন্ন যে কেউ অন্যদের মতোই সব কনটেন্ট বুঝতে আর উপভোগ করতে পারে। যেকোনো ব্লগ, আর্টিকেল, ডকুমেন্ট ইত্যাদি সহজে শোনা যায়—বাসায়, পথে ঘাটে, এমনকি জিমেও!
এটা শুধু জীবনকে গুছিয়ে দেয় না, আগের বলা অনেক সমস্যার সমাধানেও কাজে লাগে। সব দিক মিলিয়ে বুঝতে কষ্ট হয় না, কেন AI স্পিচ আর স্পিচ সিন্থেসিস এতটা জনপ্রিয় হয়ে উঠেছে।
টেক্সট টু স্পিচ ভয়েস নিয়ে আরও জানতে চান, বা জীবন একটু সহজ করতে চান—তাহলে দেরি না করে Speechify আজই বিনামূল্যে ট্রাই করুন।
Speechify #1 রেটেড অ্যাপ স্টোরে, এখানে সবচেয়ে প্রাকৃতিক স্পিচ আর কাস্টম ভয়েসের অভিজ্ঞতা পাবেন।
Speechify পাওয়া যায়: একক ব্যবহারকারী, গ্রুপ অথবা বিজনেস API -এর জন্য।

