قد تبدو تكنولوجيا تحويل النص إلى كلام (TTS) وتوليد الصوت حديثتين تمامًا، لكن لهما في الواقع تاريخًا عريقًا يمتد لقرون.
من المحاولات الأولى لمحاكاة الكلام البشري باستخدام أجهزة ميكانيكية وصولًا إلى نماذج الذكاء الاصطناعي والتعلّم العميق المتقدمة اليوم، كان تطوّر تحويل النص إلى كلام رحلة شيّقة.
في هذه المقالة، سنغوص في تاريخ تحويل النص إلى كلام وتوليد الصوت ونستكشف آفاق المستقبل الواعدة.
تحويل النص إلى كلام وتوليد الصوت: من البدايات المبكرة إلى الاستخدامات الحديثة
القرنان الثامن عشر والتاسع عشر
يعود تاريخ تحويل النص إلى كلام وتوليد الصوت إلى القرنين الثامن عشر والتاسع عشر. خلال هذه الفترة، جرت عدة محاولات مبكرة لتوليد الكلام، كلها اعتمدت على أجهزة ميكانيكية. في سبعينيات القرن الثامن عشر، طوّر المخترع المجري وولفغانغ فون كيمبيلن جهازًا ميكانيكيًا يُدعى آلة كلام ميكانيكية صُمّم لمحاكاة مسار الصوت البشري. استخدم الجهاز أكياسًا هوائية وقصبات وأنابيب لإنتاج أصوات الحروف المتحركة والساكنة.
في أواخر القرن الثامن عشر، اخترع الفيزيائي الإنجليزي تشارلز ويتهورن نسخة أكثر تطوّرًا ميكانيكيًا من آلة كلام كيمبيلن، أطلق عليها "آلة الكلام". كان الجهاز قادرًا على إعادة إنتاج أصوات آلات موسيقية مختلفة. ورغم أن جهاز ويتهورن لم يُصمَّم خصيصًا لتوليد الكلام، فقد رسّخ فكرة استخدام جهاز ميكانيكي لإنتاج الصوت.
في القرن التاسع عشر، طُوِّرت أجهزة أخرى مختلفة، بما في ذلك آلة "الكلام الاصطناعي" لفابر. استخدمت هذه الأجهزة مزيجًا من الأنظمة الميكانيكية والهوائية لإنتاج أصوات الكلام.
بدايات القرن العشرين وأول توليد كهربائي بالكامل للصوت
في أوائل القرن العشرين، ازدادت تقنية توليد الصوت تطوّرًا مع اختراع أول نظام توليد صوت كهربائي بالكامل، الفوكودر، على يد هومر دادلي. تم تطوير هذا النظام في مختبرات بيل (Bell Labs) في نيوجيرسي.
استخدم فوكودر دادلي سلسلة من الرنانات والمرشحات لتوليد كلام اصطناعي. عُرض الفوكودر، المسمّى Voder، خلال معرض العالم 1939-1940 في فلشنغ ميدوز، نيويورك. كان المشغّلون يستخدمون لوحة مفاتيح ودواسات قدم لتشغيل الآلة وتوليد الكلام.
من أوائل الخمسينيات إلى أواخر السبعينيات – صعود المولّدات الصوتية
في عام 1951، ألهم عمل دادلي تطوير جهاز تشغيل الأنماط (pattern playback) على يد الدكتور فرانكلين إس. كوبر في مختبرات هاسكينز. كان النظام يعمل بتحليل صوت مسجّل، مثل كلمة منطوقة أو عبارة، وتجزئته إلى مكوّناته الموجية أو "نماذجه الطيفية". ثم خُزِّنت هذه النماذج على شريط مغناطيسي وأُعيد تشغيلها لإنتاج نسخة اصطناعية من الصوت الأصلي.
في عام 1976، قُدِّم أول نظام تحويل نص إلى كلام ناجح تجاريًا عبر جهاز Kurzweil للقراءة. استخدم النظام تقنية التوليف التجميعي (concatenative synthesis)، حيث جمع فونيمات وكلمات مسجّلة مسبقًا لإنتاج كلام اصطناعي. صُمّم الجهاز أساسًا لمساعدة ذوي الاحتياجات الخاصة، لكنه سرعان ما اكتسب شعبية كأداة مساعدة على القراءة.
بدءًا من عام 1978، شرعت شركة تكساس إنسترومنتس في العمل على رقاقة لتوليد الكلام يمكن استخدامها في ألعاب الفيديو وتطبيقات الحاسوب الأخرى. اعتمدت الشريحة التوليف التجميعي، فكانت تجمع أصوات كلام مسجّلة تُدعى الديفونات لإنتاج مخرجات كلام شبيهة بالبشر. استُخدمت هذه التقنية لاحقًا في DECtalk، وهو نظام تحويل نص إلى كلام قدّم كلامًا اصطناعيًا عالي الجودة للأشخاص ذوي الإعاقات.
أنظمة تحويل النص إلى كلام الحديثة
من أبرز الابتكارات في السنوات الأخيرة استخدام الشبكات العصبية لتوليد كلام اصطناعي. طوّرت شركات مثل جوجل ومايكروسوفت أنظمة TTS عالية الجودة تعتمد على خوارزميات التعلّم العميق لتحليل مجموعات بيانات كبيرة من الأصوات البشرية وإنتاج كلام بصوت طبيعي.
تطوّر حاسم آخر في TTS بوصفه تقنية مساعدة كان استخدام تقنيات اختيار الوحدة والتوليف التجميعي. تتيح هذه الأساليب مخرجات أكثر واقعية عبر دمج وحدات صغيرة من الكلام المسجّل مسبقًا، مثل الديفونات أو حتى كلمات كاملة، لإنشاء جمل جديدة. استُخدمت هذه التقنيات في تطبيقات TTS الشهيرة مثل Speechify وSiri من آبل وAlexa من أمازون، وكذلك في أدوات أقدم مثل IBM ViaVoice.
كما تقدّمت تكنولوجيا التعرّف على الكلام بشكل كبير في السنوات الأخيرة، ممّا أتاح أنظمة TTS أكثر تطوّرًا. وباستخدام خوارزميات التعرّف على الكلام لتحويل الكلام البشري إلى نص، يمكن لأنظمة TTS إنتاج انتقالات أكثر طبيعية في الكلام المُولَّد.
في السنوات الأخيرة، شهدنا أيضًا دمج الإيقاع والتنغيم (prosody and intonation). يتيح ذلك كلامًا أكثر طبيعية، مع وقفات مناسبة وتوكيد ونبرة. يُعد الإيقاع مهمًا بشكل خاص للغات مثل الإنجليزية، إذ قد يغيّر التشديد والتنغيم معنى الجملة بدرجة كبيرة.
التعلّم العميق وما بعده: مستقبل التقنية
مستقبل تكنولوجيا تحويل النص إلى كلام مُثير ويحمل الكثير من الوعود. مع تزايد دور الذكاء الاصطناعي والتعلّم العميق، نتوقّع إنتاج أصوات أكثر طبيعية تُحاكي دقائق ونبرات الكلام البشري.
من أكثر المجالات استفادةً من ذلك تطوير المساعدين الافتراضيين وروبوتات الدردشة. ستغدو هذه الأنظمة أقدر على إجراء محادثات سلسة، وسيتمكّن المستخدمون من التفاعل معها بشكل أكثر طبيعية.
بالإضافة إلى ذلك، نتوقّع تقدّمًا في مجال النسخ الصوتي الفونيمي، المعروف أيضًا بتحويل النص إلى فونيمات. ومع تحسّن قدرة الآلات على التعرّف إلى الكلام البشري وتفسيره، ستواصل دقّة وكفاءة أنظمة تحويل الكلام إلى نص التحسّن.
أخيرًا، نتوقّع أن تصبح تكنولوجيا تحويل النص إلى كلام أوسع انتشارًا وأعمق اندماجًا في حياتنا اليومية. ومع اتصال مزيد من الأجهزة بإنترنت الأشياء، سنتمكّن من التحكّم بها بأصواتنا لحظيًا، ما يجعل حياتنا أسهل وأكثر كفاءة.
انضم إلى ثورة تحويل النص إلى كلام مع Speechify
إذا كنت تبحث عن خدمة تحويل النص إلى كلام قوية قادرة على إنتاج سرد طبيعي بجودة عالية، فلا داعي لأن تبحث أبعد من Speechify.
باستخدام تقنيات التوليف الصوتي المتقدمة، تُنشئ Speechify أصواتًا واقعية وطبيعية، بخلاف الأصوات الروبوتية في السابق. حتى الكتّاب المشهورون مثل ستيفن هوكينغ – الذي جرّب سابقًا تقنيات تحويل النص إلى كلام – سينبهرون بقدرات Speechify.
استخدام Speechify سهل للغاية – ببساطة قم بزيارة الموقع الرسمي أو حمّل التطبيق المحمول وأدخل النص الذي تريده. بعد ذلك، اختر صوتًا يلائم احتياجاتك، واضبط السرعة والنبرة كما تشاء، وها أنت ذا! ستقدّم لك Speechify سردًا ممتازًا وطبيعيًا مناسبًا للوحدات التعليمية الإلكترونية، وفيديوهات الشرح، البودكاست، والعروض التقديمية. يمكنك حتى إنشاء أصوات مخصصة لاستخدامها على يوتيوب والقنوات الأخرى على وسائل التواصل الاجتماعي.
لا تقبل بخدمات تحويل نص إلى كلام متواضعة – جرّب Speechify اليوم واختبر مستقبل تكنولوجيا تحويل النص إلى كلام.
الأسئلة الشائعة
من طوّر أول مُركِّب صوتي في العالم؟
صمّم هومر دادلي أول مُركِّب صوتي في العالم في أوائل ثلاثينيات القرن الماضي في مختبرات بيل في نيويورك.
ما الهدف من توليد الكلام صناعيًا؟
يهدف توليد الكلام إلى إنتاج كلام صناعي من مدخلات نصيّة باستخدام معالجة اللغة وتحليل التردّد الأساسي.
ما هي الاستخدامات الأربعة لتحويل النص إلى كلام؟
يمكن استخدام تحويل النص إلى كلام في تحسين إمكانية الوصول، والترفيه، وتعلّم اللغات، وأتمتة الخدمات الصوتية.
ما بعض مزايا تحويل النص إلى كلام؟
يمكن لتحويل النص إلى كلام تحسين إمكانية الوصول، وتعزيز التعلّم، وزيادة الإنتاجية عبر تمكين المستخدمين من استهلاك المحتوى المكتوب بصيغة صوتية.
ما أكثر اللحظات إدهاشًا في تطوّر توليد الكلام من النص؟
من أكثر المحطّات إدهاشًا في تطوّر توليد الكلام من النص اختراع المُركِّب الصوتي الميكانيكي على يد تشارلز ويتستون.

