تستخدم محركات تحويل النص إلى كلام (TTS) ومحركات توليد الكلام نماذج تعلّم آلي مختلفة لتوليد كلام يشبه كلام البشر. من بين هذه النماذج نموذج الصوت الارتجاعي، وهو نموذج توليدي للصوت. تستكشف هذه المقالة كيف يعمل النموذج الارتجاعي وتطبيقاته في توليد الكلام.
شرح النموذج الارتجاعي
النموذج الارتجاعي هو نموذج إحصائي يُستخدم عادةً في معالجة الإشارة، والتعرّف على الكلام، وتوليد الكلام. وهو مكوّن أساسي في تقنيات الكلام الحديثة، خصوصًا في أنظمة تحويل النص إلى كلام (TTS). لنبسّط الفكرة: تخيّل أن لديك آلة تتنبّأ بحالة الطقس. كل يوم، تأخذ الآلة في الاعتبار حالة طقس اليوم السابق (الجزء "الارتجاعي"). تنظر إلى درجة الحرارة والرطوبة وسرعة الرياح وتستخدم هذه العوامل لتوقّع طقس الغد. كما تراعي عوامل أخرى قد تؤثّر في الطقس، مثل الفصل والموقع والأنماط المناخية في المنطقة (الجزء "النموذج"). بناءً على كل ذلك، تتنبّأ الآلة بطقس الغد. بالطبع قد لا يكون التنبّؤ دقيقًا 100% — فالطقس عصيّ على التوقّع. لكن كلما زادت البيانات المتاحة للآلة، تحسّنت توقّعاتها. هذا، باختصار، مثال على نموذج ارتجاعي. الفكرة الأساسية وراء النموذج الارتجاعي بسيطة: يتوقّع القيمة التالية في سلسلة زمنية اعتمادًا على القيم السابقة. بعبارة أخرى، يستخدم مزيجًا خطيًّا من نقاط البيانات السابقة، أو معاملات، للتنبّؤ بالقيمة التالية في التسلسل. تجعل هذه القدرة التنبؤية النماذج الارتجاعية مثالية لتقنيات الكلام، إذ يتطلّب توليد كلام طبيعي التنبّؤ بالعينة الصوتية التالية اعتمادًا على العينات السابقة. للنموذج الارتجاعي مكوّنان رئيسيان: المُشفِّر والمُفكِّك. يأخذ المُشفِّر الإشارة المدخلة، مثل الطيف الزمني أو تسلسل الفونيمات، ويحوّلها إلى تمثيل كامِن. ثم يأخذ المُفكِّك هذا التمثيل الكامن ويولّد الإشارة الناتجة، مثل موجة صوتية أو طيف زمني. أحد أشهر النماذج الارتجاعية هو WaveNet، الذي يستخدم تلافيف سببية متوسّعة (dilated causal convolution) لنمذجة العملية الارتجاعية. إنه نموذج غاوسي قادر على توليد صوت عالي الجودة يكاد لا يُميَّز عن الكلام البشري. ميزة أخرى مهمّة للنماذج الارتجاعية هي قدرتها على تقييد عملية التوليد بمدخلات مختلفة. على سبيل المثال، يمكننا استخدام مجموعة بيانات متعددة المتحدثين لتدريب نظام TTS قادر على توليد كلام بأصوات متحدثين مختلفين. يتحقّق ذلك عبر تقييد المُفكِّك بمعلومات هوية المتحدث أثناء التدريب. يمكن تدريب النماذج الارتجاعية باستخدام خوارزميات تحسين مختلفة، بما في ذلك المشفّرات الذاتية التباينية (VAEs) والشبكات العصبية المتكرّرة (RNNs). ويُشترط أن تكون بيانات التدريب عالية الجودة لضمان خروج الكلام المولَّد طبيعيًا ودقيقًا.
تطبيق النموذج الارتجاعي على توليد الكلام
توليد الكلام هو عملية إنشاء كلام شبيه بالبشر باستخدام جهاز. إحدى الطرق الشائعة لتحقيق ذلك هي عبر نموذج ارتجاعي. في هذا النهج، تحلّل الآلة الخصائص الصوتية للكلام وتتنبّأ بها، مثل النبرة والمدة والشدة، باستخدام مُشفِّر ومُفكِّك. يعالج المُشفِّر بيانات الكلام الخام، مثل الموجات الصوتية أو الأطياف الزمنية، إلى مجموعة من الميزات عالية المستوى. ثم تُمرَّر هذه الميزات إلى المُفكِّك الذي يولّد تسلسلًا من العناصر الصوتية التي تمثّل الكلام المطلوب. تسمح الطبيعة الارتجاعية للنموذج للمُفكِّك بتوقّع كل ميزة صوتية لاحقة بناءً على مخرجاته السابقة، ما يُنتج خرجًا صوتيًا طبيعي الإيقاع. أحد أشهر النماذج الارتجاعية المستخدمة في توليد الكلام هو WaveNet. يستخدم WaveNet شبكات عصبية تلافيفية (CNNs) لتوليد ميزات صوتية تُحوَّل لاحقًا إلى كلام باستخدام فوكودر. يُدرَّب النموذج على مجموعة بيانات من عينات كلام عالية الجودة ليتعلّم الأنماط والعلاقات بين الميزات الصوتية المختلفة. ويمكن أن تُسرِّع النماذج المُدرَّبة مسبقًا، وغالبًا ما تستند إلى شبكات الذاكرة طويلة وقصيرة الأمد (LSTM)، من عملية التدريب لنماذج الصوت الارتجاعية وتحسّن أداءها. لتحسين جودة وواقعية الكلام المولَّد، اقترح الباحثون تعديلات مختلفة على WaveNet. على سبيل المثال، FastSpeech نموذج تحويل نص إلى كلام شامل يقلّل الكمون ويزيد سرعة التوليد، ويحقّق ذلك باستخدام آلية انتباه تتنبّأ مباشرةً بمدة ونبرة كل فونيم في تسلسل الكلام. مجال آخر للبحث في توليد الكلام الارتجاعي هو تحويل الصوت، حيث الهدف تحويل كلام شخص ليبدو كصوت شخص آخر. يتحقّق ذلك بتدريب النموذج على مجموعة بيانات من عينات كلام لكل من المتحدث المصدر والمتحدث الهدف. ويمكن للنموذج الناتج عندئذٍ تحويل كلام المتحدث المصدر إلى صوت المتحدث الهدف مع الحفاظ على المحتوى اللغوي والإيقاع (prosody) للكلام الأصلي. أحد المكوّنات الحاسمة لنماذج الصوت الارتجاعية هو الفوكودر العصبي، المسؤول عن توليد موجات كلامية عالية الجودة. الفوكودر العصبي جزء أساسي لأنه يأخذ مخرجات النموذج ويحوّلها إلى موجة صوتية قابلة للاستماع؛ وبدونه سيبدو الكلام المولَّد آليًا وغير طبيعي. حصلت الدراسات حول نماذج الصوت الارتجاعية على أكثر من 2.3 مليار استشهاد، ما يبرِز أهميتها في معالجة الكلام. وقد عُرضت أبحاث عن هذه النماذج في مؤتمر ICASSP المرموق، مع العديد من الأوراق التي تركّز على تحسين النموذج الصوتي للتعرّف على الكلام وتوليده. كما نُشرت أوراق عدّة على arxiv.org وGitHub تستكشف خوارزميات وبُنى وتقنيات تحسين مختلفة. وتُقيَّم نماذج الصوت الارتجاعية باستخدام مجموعة من مقاييس الأداء، بما في ذلك متوسط درجات الرأي (MOS)، ومعدل خطأ الكلمات (WER)، وتشويه الطيف (SD).
ارتقِ بقدراتك في تحويل النص إلى كلام بالذكاء الاصطناعي مع Speechify
Speechify هي خدمة لتحويل النص إلى كلام تستخدم الذكاء الاصطناعي لإنتاج أداء صوتي فائق الجودة وبنبرة طبيعية للسرد لجميع أنواع النصوص. تقوم الخدمة بتحويل النص إلى كلام باستخدام نموذج تعلّم عميق مُدرَّب على مجموعة بيانات كبيرة من عينات الكلام. لاستخدام Speechify، كل ما عليك هو لصق النص أو رفع ملفك على المنصّة ثم اختيار الصوت واللغة المفضّلين لديك. بعدها تتكفّل Speechify بإنشاء ملف صوتي عالي الجودة يمكنك تنزيله أو مشاركته بسهولة. وتعتمد Speechify نموذجًا تسلسليًا ذاتيّ الانحدار (autoregressive) لتحويل النص إلى كلام، ما يضمن تدفّق الكلام الناتج وطبيعته كما لدى البشر. ومع Speechify يمكنك إنشاء صوت عالي الجودة بالوقت الفعلي واستخدامه في تطبيقات متنوّعة، بما في ذلك البودكاست، الفيديوهات والكتب الصوتية. لِمَ الانتظار؟ جرّب Speechify اليوم واكتشف طريقة جديدة لإنشاء صوت بجودة مميزة لمشروعاتك.
الأسئلة الشائعة
ما هو نموذج السلاسل الزمنية ذاتي الانحدار (autoregressive)؟
هو نموذج إحصائي يتنبأ بالقيم المستقبلية استنادًا إلى القيم الماضية.
ما الفرق بين AR و ARMA؟
ARMA نموذج أعمّ يجمع بين مكوّنات ذاتية الانحدار والمتوسط المتحرّك، بينما AR نموذج أبسط يقتصر على ذاتي الانحدار دون مكوّن المتوسط المتحرّك.
ما الفرق بين السلاسل الزمنية والتعلُّم العميق؟
تحليل السلاسل الزمنية تقنية إحصائية لتحليل البيانات عبر الزمن. أما التعلُّم العميق فهو فرع من تعلُّم الآلة يعتمد تدريب شبكات عصبية اصطناعية لاستخلاص الأنماط من البيانات.
ما الفرق بين النماذج ذاتية الانحدار (autoregressive) وغير ذاتية الانحدار؟
النماذج ذاتية الانحدار تُنتج المخرجات على نحوٍ تسلسلي اعتمادًا على المخرجات السابقة، في حين تُنتج النماذج غير ذاتية الانحدار المخرجات بشكل متوازٍ دون الرجوع إلى ما سبق.

