تحويل النص إلى كلام، المعروف أيضاً باسم تركيب الكلام (TTS)، هو تقنية تحول النص المكتوب إلى كلمات منطوقة. لهذه التقنية مجموعة من التطبيقات بما في ذلك مساعدة ذوي الإعاقة، تعلّم اللغات، الملاحة عبر GPS، وغيرها الكثير. مع بروز البرمجيات المفتوحة المصدر، ظهرت العديد من أدوات تحويل النص إلى كلام. تستعرض هذه المقالة عالم مولدات الصوت مفتوحة المصدر.
أولاً، من الضروري ملاحظة أن ليس كل أدوات تركيب الكلام مفتوحة المصدر. على سبيل المثال، بينما يقدم Google Text-to-Speech (TTS) واجهة برمجة تطبيقات قوية للمطورين، إلا أنه ليس مفتوح المصدر. وبالمثل، فإن Amazon Polly، المعروف بتوفير أصوات واقعية، ليس مفتوح المصدر أيضاً.
من ناحية أخرى، Coqui AI هو مجموعة أدوات TTS عالية الجودة ومشروع مفتوح المصدر متاح على GitHub. نشأ من مشروع Mozilla TTS ويوفر واجهة سطر أوامر قوية لتركيب الكلام. لدى Coqui AI بالتأكيد "صوت" — إذ يستخدم Tacotron2 لتوليد الصوت مع تركيز على إنشاء أصوات جديدة باستخدام نهج التعلم العميق.
منصة مايكروسوفت الصوتية، بما في ذلك قدراتها في تحويل النص إلى كلام، ليست مفتوحة المصدر أيضاً. ومع ذلك، تتوفر واجهة Speech API (SAPI5) للمطورين على منصات ويندوز.
على الجانب المشرق، لا يفتقر عالم المصدر المفتوح إلى أدوات التعرف على الكلام. مثال ممتاز هو CMU Sphinx، وهي مجموعة من أنظمة التعرف على الكلام طُوِّرت في جامعة Carnegie Mellon.
عندما نتحدث عن أدوات مفتوحة المصدر عالية الجودة لتركيب الصوت، تبرز عدة برامج:
- eSpeak: برنامج تركيب كلام مفتوح المصدر صغير الحجم للغة الإنجليزية ولغات أخرى. يعمل على ويندوز ولينكس ومناسب لتطبيقات الروبوت الصغيرة جداً.
- Mycroft: مساعد صوتي مفتوح المصدر يستخدم التعلم الآلي لتقديم ميزات تحويل النص إلى كلام والتعرف على الصوت.
- MaryTTS: منصة مفتوحة المصدر مرنة ومتعددة اللغات لتركيب النص إلى كلام، مكتوبة بلغة جافا.
- Mozilla TTS: محرك تحويل النص إلى كلام قائم على التعلم العميق، وهو جزء من مشروع Voice المشترك، ويهدف إلى إنشاء مجموعة بيانات لتدريب تطبيقات مدعومة بالصوت.
- Festival Speech Synthesis System: طوّره مركز أبحاث تكنولوجيا الكلام في المملكة المتحدة، ويوفر إطاراً عاماً لبناء أنظمة تركيب الكلام ويشمل مجموعة متنوعة من الأصوات.
- Flite (Festival-lite): محرك تركيب كلام خفيف الوزن مبني على Festival، مناسب للأنظمة المدمجة وخوادم الكلام عالية السعة.
- HTS: نظام تركيب الكلام المعتمد على النماذج الإحصائية (HMM-Based Speech Synthesis System) هو نظام لتدريب وتوليد الكلام من النص، ويُستخدم على نطاق واسع لما يوفره من جودة عالية في تركيب الكلام.
- Docker: رغم أن Docker ليس أداة تحويل نص إلى كلام، فمن الجدير بالذكر أن العديد من أدوات TTS مثل Coqui يمكن تشغيلها داخل Docker، مما يجعلها قابلة للنقل عبر المنصات.
لكل أداة مزايا وعيوب. توفّر مولّدات الصوت مفتوحة المصدر بيئة مجانية قابلة للتخصيص وبدعم مجتمعي للمطورين والمستخدمين النهائيين. كثيراً ما تأتي مع نماذج مدرّبة مسبقاً تتيح للمطورين الاستفادة من تقنيات التعلم الآلي والتعلم العميق. ومع ذلك، قد تتطلب خبرة تقنية للإعداد والاستخدام. علاوة على ذلك، قد تفتقر بعض المشاريع إلى الجودة أو الاتساق أو دعم اللغات بالمستوى نفسه الذي تقدمه الأدوات التجارية.
مع استمرار تأثير المصدر المفتوح على عالم التقنية، ستواصل أنظمة تركيب الكلام ومولّدات الصوت التطور. فهي تفتح آفاقاً واسعة للتطبيقات في الوقت الحقيقي وترسم ملامح مستقبل التعلم الآلي والتعلم العميق والذكاء الاصطناعي في التعرف على الصوت وتركيب الكلام.

