تكنولوجيا تحويل النص إلى كلام تحرز تقدمًا كبيرًا، خاصة خلال السنوات القليلة الماضية. وبفضل تطوّر الذكاء الاصطناعي، باتت تقنيات تحويل النص إلى كلام اليوم تقدّم إلقاءً عالي الجودة يحاكي الكلام البشري.
يُعد VALL‑E من مايكروسوفت من أحدث الحلول التقنية التي تدفع بمستوى تحويل النص إلى كلام إلى مرحلة مدهشة. إنه نموذج ترميز لغوي عصبي يعمل بأسلوب التعلم الصفري (zero-shot).
إذا بدا لك ما سبق وكأنه مصطلحات مبالغ فيها، فلا تقلق. سنفكك المفاهيم المعقدة وراء VALL‑E في السطور التالية.
شرح Microsoft VALL-E
تزداد نماذج الذكاء الاصطناعي قوةً بوتيرة سريعة. بات الجميع يعرف ChatGPT من OpenAI، الذي قد يكون أقرب ما وصلنا إليه لإحساس بأن الذكاء الاصطناعي شخص حقيقي. وربما شاهدت بعض الأعمال الفنية التي يولّدها محرك DALL‑E.
إلى جانب الشركات الناشئة مثل OpenAI، تبقى شركات عالمية مثل مايكروسوفت لاعبًا رئيسيًا في مجال الذكاء الاصطناعي.
عمل باحثو مايكروسوفت مؤخرًا على تطويرات في توليف الكلام من النص، وكان VALL‑E ثمرة ذلك.
من المحتمل أن تكون هذه التقنية نقطة تحول في مشهد تحويل النص إلى كلام لأنها قادرة على توليد كلام يبدو بشريًا اعتمادًا على عينة صوتية صغيرة. فعينة مدتها ثلاث ثوانٍ تكفي لـ VALL‑E لالتقاط بصمة المتحدث وأسلوبه.
بعد تلقي عينة صوت المتحدث، يمكن للذكاء الاصطناعي تقليد صوته وحتى محاكاة نبرته وانفعالاته. ومن اللافت أيضًا أن VALL‑E يحافظ على بيئة التسجيل الأصلية.
باختصار، يتفوّق نموذج VALL‑E في محاكاة هوية المتحدث. ويمكنك الاستماع إليه عمليًا على GitHub، حيث شاركت مايكروسوفت أمثلة صوتية مع شرح وافٍ للذكاء الاصطناعي.
بالطبع، لهذه التقنية الكثير من الاستخدامات المحتملة، مثل إنشاء البودكاست والكتب الصوتية. وسيزداد أثرها مع دمج VALL‑E بنماذج توليدية مثل GPT‑3.
وعلى الجانب الآخر، قد تُستغل تقنيات مثل VALL‑E لأغراض ضارة.
بما أن VALL‑E قادر على إنتاج صوت شديد الشبه بصوت شخصٍ حقيقي، فمن السهل تخيّل كيف قد يستغل المجرمون هذه التقنية في عمليات احتيال مثل التزييف العميق المؤذي وغير المبرَّر. وقد دفعت مثل هذه الاحتمالات مايكروسوفت لإصدار بيان أخلاقيات.
في البيان، توصي الشركة بنماذج لتحرير الكلام تضمن الحصول على موافقة المتحدث الأصلي.
لكن الجدل حول الاستخدامات المحتملة لـ VALL‑E يبقى مسألة للمستقبل. أما الآن، فالسؤال الأهم هو:
كيف يكرر الذكاء الاصطناعي أنماطًا معقدة اعتمادًا على عينة صوتية أساسية مدتها ثلاث ثوانٍ فقط؟
ليس من المستغرب أن تكون الإجابة معقدة قليلًا.
تلقى VALL‑E تدريبًا موسعًا على بيانات تشمل آلاف الساعات من الكلام باللغة الإنجليزية. وقد هيّأ ذلك الذكاء الاصطناعي لمحاكاة الكلام الإنجليزي بسلاسة. ومع ذلك، فـ VALL‑E ليس نظام تحويل نص إلى كلام تقليديًا، بل يعتمد تقنيات تعلّم آلي متقدمة.
سبق أن ذكرنا اسم التقنية: نموذج لغة مُشفَّر عصبي بتقنية التعلم الصفري. دعونا نرى ماذا تعني هذه المصطلحات عمليًا.
فهم نماذج اللغة المُشفَّرة العصبية بتقنية التعلم الصفري
لنبدأ بالمصطلح الأبسط: يشير "التعلم الصفري" إلى تقنية محددة لمحركات تحويل النص إلى كلام، تتيح إنتاج كلام مولّد آليًا انطلاقًا من بيانات لم يُدرَّب عليها مسبقًا. بعبارة أخرى، يمكن للكمبيوتر أن يقرأ نصًا لم "يرَه" من قبل ويُنطقه.
والأهم أن تقنية التعلم الصفري تتيح للآلة إنتاج قراءة دون تدريب إضافي. ببساطة، يشبه ذلك كيف يمكن للبشر قراءة نص غير مألوف بلغة يعرفونها مسبقًا.
ننتقل الآن إلى الجزء الأكثر تعقيدًا: "نموذج اللغة المُشفَّر العصبي"، وهو ما يتطلب تفصيلًا إضافيًا.
تعتمد محركات تحويل النص إلى كلام على برامج ترميز صوتي (codecs) لإنشاء أشكال موجية انطلاقًا من النص المكتوب. يساعد الترميز الآلي الذكاء الاصطناعي على تحويل الحروف والكلمات والجمل إلى أصوات مقابلة. يؤدي الترميز العصبي الغرض نفسه، لكنه يعتمد على شبكة عصبية قوية.
بالطبع، يطرح ذلك سؤالًا إضافيًا: ما هي الشبكة العصبية؟
سنكتفي هنا بشرح مبسّط دون الخوض في تفاصيل أعمق. تحاول الشبكة العصبية محاكاة كيفية عمل الدماغ البشري. تتكون من وحدات اصطناعية تُسمّى عُصبونات أو عُقد، مترابطة ومنظّمة في طبقات.
تمكّن هذه البنية ما يُعرف بالتعلّم العميق، ما يجعل الآلة أقدر على اكتشاف الأنماط غير المألوفة والتكيّف معها.
الترميز العصبي يُغذّي نموذج اللغة، وهو الشقّ الآخر من معادلة تحويل النص إلى كلام .
يعتمد نموذج اللغة على مجموعة بيانات لفهم أي إدخال نصي ضمن سياق لغوي حقيقي. بمعنى آخر، هكذا «تفهم» الآلة النص.
في حالة VALL-E، شكّلت LibriLight، المكتبة الصوتية التي جمعتها شركة Meta (فيسبوك سابقًا)، الأساس اللغوي لنموذج الذكاء الاصطناعي.
استمع إلى تقنية تحويل النص إلى كلام المتقدّمة وهي تعمل مع Speechify
على الرغم من أنّ VALL-E لم يُطرح بعد للعامة، يمكنك الاستماع إلى كيف يبدو محرّك تحويل النص إلى كلام المتقدّم مع Speechify. يعدّ Speechify خدمة TTS تستطيع قراءة النص بصوت مسموع من أي مصدر تقريبًا.
سواء قدّمت له نصًا مكتوبًا أو محتوى ويب أو صفحة ممسوحة ضوئيًا، سيقرؤها Speechify فورًا. والأفضل من ذلك أنّ المحرّك يتضمن أصوات رواة تبدو طبيعية. وعلى عكس محركات TTS الروبوتية المعتادة، يبدو Speechify أقرب إلى الإنسان منه إلى الآلة.
بالإضافة إلى ذلك، يمكنك تخصيص طريقة قراءة Speechify. اختر لغتك المفضّلة والراوي وسرعة القراءة، واستمع إلى أي نص تمامًا كما تريد.
إذا كان كل هذا يبدو شيقًا، يمكنك تجربة Speechify مجانًا اليوم.
الأسئلة الشائعة
هل يمكن للناس استخدام VALL-E؟
هناك مخاوف كثيرة بشأن إساءة استخدام VALL-E، وسرقة الهوية احتمال مُقلق على نحوٍ خاص. لذلك قرّرت مايكروسوفت عدم إتاحته للعامة.
ما هو Microsoft AI؟
Microsoft AI ليس منتجًا محددًا، بل يُعد إطارًا لتطوير الذكاء الاصطناعي. ويشمل Microsoft AI حلول علوم البيانات والذكاء المحادثي والروبوتات والتعلّم الآلي وغيرها من التطورات في الصناعة.
ما هي الواجهة الصوتية؟
الواجهة الصوتية هي كما يوحي اسمها: واجهة مستخدم تتفاعل معها عبر أوامر صوتية. هذه التقنية شائعة بالفعل في الأجهزة الذكية – فكّر في Alexa من أمازون أو Siri من آبل أو Cortana من مايكروسوفت أو مساعد جوجل.
ما هو الروبوت؟
مصطلح «روبوت» يشير إلى أي آلة تعمل تلقائيًا. تُصمَّم مثل هذه الآلات كبدائل للعمل البشري. وعلى خلاف الصورة النمطية في وسائل الإعلام، فمعظم الروبوتات ليست شبيهة بالبشر شكلًا. بل قد لا تملك حتى هيئة مادية. فعلى سبيل المثال، تُعدّ المساعدات الافتراضية الشائعة اليوم أيضًا روبوتات.

