1. الصفحة الرئيسية
  2. تحويل النص إلى كلام
  3. ما هو VALL-E من مايكروسوفت؟

ما هو VALL-E من مايكروسوفت؟

Cliff Weitzman

كليف وايتزمان

الرئيس التنفيذي ومؤسس Speechify

قارئ النص إلى كلام رقم 1.
دع Speechify يقرأ لك.

apple logoجائزة آبل للتصميم 2025
أكثر من 50 مليون مستخدم

تكنولوجيا تحويل النص إلى كلام تحرز تقدمًا كبيرًا، خاصة خلال السنوات القليلة الماضية. وبفضل تطوّر الذكاء الاصطناعي، باتت تقنيات تحويل النص إلى كلام اليوم تقدّم إلقاءً عالي الجودة يحاكي الكلام البشري.

يُعد VALL‑E من مايكروسوفت من أحدث الحلول التقنية التي تدفع بمستوى تحويل النص إلى كلام إلى مرحلة مدهشة. إنه نموذج ترميز لغوي عصبي يعمل بأسلوب التعلم الصفري (zero-shot).

إذا بدا لك ما سبق وكأنه مصطلحات مبالغ فيها، فلا تقلق. سنفكك المفاهيم المعقدة وراء VALL‑E في السطور التالية.

شرح Microsoft VALL-E

تزداد نماذج الذكاء الاصطناعي قوةً بوتيرة سريعة. بات الجميع يعرف ChatGPT من OpenAI، الذي قد يكون أقرب ما وصلنا إليه لإحساس بأن الذكاء الاصطناعي شخص حقيقي. وربما شاهدت بعض الأعمال الفنية التي يولّدها محرك DALL‑E.

إلى جانب الشركات الناشئة مثل OpenAI، تبقى شركات عالمية مثل مايكروسوفت لاعبًا رئيسيًا في مجال الذكاء الاصطناعي.

عمل باحثو مايكروسوفت مؤخرًا على تطويرات في توليف الكلام من النص، وكان VALL‑E ثمرة ذلك.

من المحتمل أن تكون هذه التقنية نقطة تحول في مشهد تحويل النص إلى كلام لأنها قادرة على توليد كلام يبدو بشريًا اعتمادًا على عينة صوتية صغيرة. فعينة مدتها ثلاث ثوانٍ تكفي لـ VALL‑E لالتقاط بصمة المتحدث وأسلوبه.

بعد تلقي عينة صوت المتحدث، يمكن للذكاء الاصطناعي تقليد صوته وحتى محاكاة نبرته وانفعالاته. ومن اللافت أيضًا أن VALL‑E يحافظ على بيئة التسجيل الأصلية.

باختصار، يتفوّق نموذج VALL‑E في محاكاة هوية المتحدث. ويمكنك الاستماع إليه عمليًا على GitHub، حيث شاركت مايكروسوفت أمثلة صوتية مع شرح وافٍ للذكاء الاصطناعي.

بالطبع، لهذه التقنية الكثير من الاستخدامات المحتملة، مثل إنشاء البودكاست والكتب الصوتية. وسيزداد أثرها مع دمج VALL‑E بنماذج توليدية مثل GPT‑3.

وعلى الجانب الآخر، قد تُستغل تقنيات مثل VALL‑E لأغراض ضارة.

بما أن VALL‑E قادر على إنتاج صوت شديد الشبه بصوت شخصٍ حقيقي، فمن السهل تخيّل كيف قد يستغل المجرمون هذه التقنية في عمليات احتيال مثل التزييف العميق المؤذي وغير المبرَّر. وقد دفعت مثل هذه الاحتمالات مايكروسوفت لإصدار بيان أخلاقيات.

في البيان، توصي الشركة بنماذج لتحرير الكلام تضمن الحصول على موافقة المتحدث الأصلي.

لكن الجدل حول الاستخدامات المحتملة لـ VALL‑E يبقى مسألة للمستقبل. أما الآن، فالسؤال الأهم هو:

كيف يكرر الذكاء الاصطناعي أنماطًا معقدة اعتمادًا على عينة صوتية أساسية مدتها ثلاث ثوانٍ فقط؟

ليس من المستغرب أن تكون الإجابة معقدة قليلًا.

تلقى VALL‑E تدريبًا موسعًا على بيانات تشمل آلاف الساعات من الكلام باللغة الإنجليزية. وقد هيّأ ذلك الذكاء الاصطناعي لمحاكاة الكلام الإنجليزي بسلاسة. ومع ذلك، فـ VALL‑E ليس نظام تحويل نص إلى كلام تقليديًا، بل يعتمد تقنيات تعلّم آلي متقدمة.

سبق أن ذكرنا اسم التقنية: نموذج لغة مُشفَّر عصبي بتقنية التعلم الصفري. دعونا نرى ماذا تعني هذه المصطلحات عمليًا.

فهم نماذج اللغة المُشفَّرة العصبية بتقنية التعلم الصفري

لنبدأ بالمصطلح الأبسط: يشير "التعلم الصفري" إلى تقنية محددة لمحركات تحويل النص إلى كلام، تتيح إنتاج كلام مولّد آليًا انطلاقًا من بيانات لم يُدرَّب عليها مسبقًا. بعبارة أخرى، يمكن للكمبيوتر أن يقرأ نصًا لم "يرَه" من قبل ويُنطقه.

والأهم أن تقنية التعلم الصفري تتيح للآلة إنتاج قراءة دون تدريب إضافي. ببساطة، يشبه ذلك كيف يمكن للبشر قراءة نص غير مألوف بلغة يعرفونها مسبقًا.

ننتقل الآن إلى الجزء الأكثر تعقيدًا: "نموذج اللغة المُشفَّر العصبي"، وهو ما يتطلب تفصيلًا إضافيًا.

تعتمد محركات تحويل النص إلى كلام على برامج ترميز صوتي (codecs) لإنشاء أشكال موجية انطلاقًا من النص المكتوب. يساعد الترميز الآلي الذكاء الاصطناعي على تحويل الحروف والكلمات والجمل إلى أصوات مقابلة. يؤدي الترميز العصبي الغرض نفسه، لكنه يعتمد على شبكة عصبية قوية.

بالطبع، يطرح ذلك سؤالًا إضافيًا: ما هي الشبكة العصبية؟

سنكتفي هنا بشرح مبسّط دون الخوض في تفاصيل أعمق. تحاول الشبكة العصبية محاكاة كيفية عمل الدماغ البشري. تتكون من وحدات اصطناعية تُسمّى عُصبونات أو عُقد، مترابطة ومنظّمة في طبقات.

تمكّن هذه البنية ما يُعرف بالتعلّم العميق، ما يجعل الآلة أقدر على اكتشاف الأنماط غير المألوفة والتكيّف معها.

الترميز العصبي يُغذّي نموذج اللغة، وهو الشقّ الآخر من معادلة تحويل النص إلى كلام .

يعتمد نموذج اللغة على مجموعة بيانات لفهم أي إدخال نصي ضمن سياق لغوي حقيقي. بمعنى آخر، هكذا «تفهم» الآلة النص.

في حالة VALL-E، شكّلت LibriLight، المكتبة الصوتية التي جمعتها شركة Meta (فيسبوك سابقًا)، الأساس اللغوي لنموذج الذكاء الاصطناعي.

استمع إلى تقنية تحويل النص إلى كلام المتقدّمة وهي تعمل مع Speechify

على الرغم من أنّ VALL-E لم يُطرح بعد للعامة، يمكنك الاستماع إلى كيف يبدو محرّك تحويل النص إلى كلام المتقدّم مع Speechify. يعدّ Speechify خدمة TTS تستطيع قراءة النص بصوت مسموع من أي مصدر تقريبًا.

سواء قدّمت له نصًا مكتوبًا أو محتوى ويب أو صفحة ممسوحة ضوئيًا، سيقرؤها Speechify فورًا. والأفضل من ذلك أنّ المحرّك يتضمن أصوات رواة تبدو طبيعية. وعلى عكس محركات TTS الروبوتية المعتادة، يبدو Speechify أقرب إلى الإنسان منه إلى الآلة.

بالإضافة إلى ذلك، يمكنك تخصيص طريقة قراءة Speechify. اختر لغتك المفضّلة والراوي وسرعة القراءة، واستمع إلى أي نص تمامًا كما تريد.

إذا كان كل هذا يبدو شيقًا، يمكنك تجربة Speechify مجانًا اليوم.

الأسئلة الشائعة

هل يمكن للناس استخدام VALL-E؟

هناك مخاوف كثيرة بشأن إساءة استخدام VALL-E، وسرقة الهوية احتمال مُقلق على نحوٍ خاص. لذلك قرّرت مايكروسوفت عدم إتاحته للعامة.

ما هو Microsoft AI؟

Microsoft AI ليس منتجًا محددًا، بل يُعد إطارًا لتطوير الذكاء الاصطناعي. ويشمل Microsoft AI حلول علوم البيانات والذكاء المحادثي والروبوتات والتعلّم الآلي وغيرها من التطورات في الصناعة.

ما هي الواجهة الصوتية؟

الواجهة الصوتية هي كما يوحي اسمها: واجهة مستخدم تتفاعل معها عبر أوامر صوتية. هذه التقنية شائعة بالفعل في الأجهزة الذكية – فكّر في Alexa من أمازون أو Siri من آبل أو Cortana من مايكروسوفت أو مساعد جوجل.

ما هو الروبوت؟

مصطلح «روبوت» يشير إلى أي آلة تعمل تلقائيًا. تُصمَّم مثل هذه الآلات كبدائل للعمل البشري. وعلى خلاف الصورة النمطية في وسائل الإعلام، فمعظم الروبوتات ليست شبيهة بالبشر شكلًا. بل قد لا تملك حتى هيئة مادية. فعلى سبيل المثال، تُعدّ المساعدات الافتراضية الشائعة اليوم أيضًا روبوتات.

استمتع بأذكى الأصوات وأكثرها تقدّمًا، وبعددٍ غير محدود من الملفات، ودعمٍ على مدار الساعة

جرّب مجانًا
tts banner for blog

شارك هذا المقال

Cliff Weitzman

كليف وايتزمان

الرئيس التنفيذي ومؤسس Speechify

كليف وايتزمان مدافع عن ذوي عسر القراءة والرئيس التنفيذي ومؤسس تطبيق Speechify، أفضل تطبيق لتحويل النص إلى كلام في العالم، إذ نال أكثر من 100,000 تقييم بخمس نجوم وتصدّر متجر التطبيقات ضمن فئة الأخبار والمجلات. في عام 2017، أدرجته فوربس ضمن قائمة 30 تحت 30 تقديراً لجهوده في جعل الإنترنت أكثر سهولة وصولاً لذوي صعوبات التعلّم. ظهر كليف وايتزمان في منصات مثل EdSurge وInc. وPC Mag وEntrepreneur وMashable، وغيرها من وسائل الإعلام الرائدة.

speechify logo

حول Speechify

قارئ النص إلى كلام رقم 1

Speechify هي المنصة الرائدة عالميًا في تحويل النص إلى كلام، يثق بها أكثر من 50 مليون مستخدم، ويدعمها أكثر من 500,000 تقييم بخمس نجوم عبر تطبيقاتها على iOS، Android، امتداد Chrome، تطبيق الويب، وتطبيقات سطح المكتب على Mac. في عام 2025، منحت شركة Apple Speechify جائزة Apple Design Award المرموقة في WWDC، ووصفتها بأنها "مورد حيوي يساعد الناس على عيش حياتهم." تقدّم Speechify أكثر من 1000 صوت طبيعي بأكثر من 60 لغة، وتُستخدم في قرابة 200 دولة. ومن بين الأصوات الشهيرة Snoop Dogg، Mr. Beast، وGwyneth Paltrow. للمبدعين والشركات، يوفّر Speechify Studio أدوات متقدمة، بما فيها AI Voice Generator، AI Voice Cloning، AI Dubbing، وAI Voice Changer. كما تزوّد Speechify أبرز المنتجات بواجهة برمجة تطبيقات لتحويل النص إلى كلام عالية الجودة وموفّرة للتكلفة text to speech API. وقد تناولتها The Wall Street Journal، CNBC، Forbes، TechCrunch، وغيرها من كبريات وسائل الإعلام، وتُعد Speechify أكبر مزوّد لتحويل النص إلى كلام في العالم. تفضّل بزيارة speechify.com/news، speechify.com/blog، وspeechify.com/press لمعرفة المزيد.