في السنوات الأخيرة، شهدنا طفرة في تطوير الذكاء الاصطناعي (AI) وأدوات تعلم الآلة (ML). إحدى الأدوات التي لفتت الأنظار مؤخرًا هي Whisper من OpenAI. Whisper هو محرك التعرف التلقائي على الكلام (ASR) يتيح للمستخدمين تحويل الكلام المنطوق إلى نص مكتوب. سيسرد هذا المقال كل ما تحتاج معرفته حول هذه الأداة اللافتة.
نظرة عامة على Whisper من OpenAI
Whisper أداة ASR متقدّمة تستخدم تقنيات التعلم العميق للتعرف على الكلام من الملفات الصوتية. وهو نموذج مفتوح المصدر، أي إن الشيفرة متاحة مجانًا لأي شخص لاستخدامها وتعديلها. يمكنك العثور على شيفرة Whisper على GitHub.
بُني Whisper على معمارية المحوّل (Transformer)، وهي المعمارية نفسها المستخدمة في نموذج اللغة GPT-3 من OpenAI وDALL-E، وهما من أبرز نماذج الذكاء الاصطناعي.
من أبرز مزايا Whisper قدرته على التعامل مع الكلام متعدد اللغات. يمكنه التعرف على الكلام بعدة لغات، ما يجعله أداة متعددة الاستخدامات للباحثين والمطورين الذين يعملون مع مجموعات بيانات متعددة اللغات.
يتضمّن Whisper أيضًا ميزة تمييز اللغة القادرة على اكتشاف اللغة المنطوقة تلقائيًا. هذه الميزة مفيدة عند العمل مع مجموعات بيانات متعددة اللغات أو عند بناء روبوتات محادثة تحتاج إلى التعرف على عدة لغات والرد عليها، مثل ChatGPT.
من اللغات التي يدعمها Whisper: الإنجليزية والإسبانية والفرنسية والصينية والروسية والعربية. ويُستحسن دائمًا الرجوع إلى أحدث الوثائق للحصول على معلومات محدثة حول دعم اللغات.
كيفية استخدام Whisper من OpenAI
لاستخدام Whisper، يلزم تثبيت Python على جهازك. بعد تثبيت Python، يمكنك تثبيت Whisper عبر pip install. ثم يمكنك تحميل النموذج باستخدام دالة load_model والبدء في معالجة الملفات الصوتية. ولأفضل أداء في معالجة الصوت، يُستعان بـ FFmpeg، وهو إطار عمل وسائط متعددة قوي.
من أشهر حالات الاستخدام لـ Whisper تحويل الكلام إلى نص (التفريغ). يُعد نموذج Whisper الكبير خيارًا قويًا لهذه المهمة. لنسخ ملف صوتي، ما عليك سوى تمرير مسار الملف الصوتي وتشغيل دالة النسخ. يدعم Whisper طيفًا واسعًا من صيغ الملفات الصوتية، بما في ذلك wav وmp3.
يتضمن Whisper نموذج تعرف على الكلام يؤدي أداءً جيدًا في البيئات الصاخبة مع وجود ضوضاء خلفية. يستخدم نموذج Whisper تقنية تُسمى مخطط طيف ميل (Mel spectrogram)، وهو تمثيل بصري للإشارة الصوتية يُستخدم لتحليل الكلام.
إلى جانب نموذج التعرف على الكلام، يوفّر Whisper أيضًا نموذجًا لترجمة الكلام قادرًا على نقل الكلام من لغة إلى أخرى. وتفيد هذه الميزة الباحثين والمطورين الذين يعملون بمجموعات بيانات متعددة اللغات، أو عند بناء روبوتات محادثة تحتاج إلى ترجمة فورية للكلام.
مستقبل الذكاء الاصطناعي وWhisper
مع تطور الذكاء الاصطناعي ستلعب أدوات مثل Whisper دورًا متزايد الأهمية عبر طيف واسع من التطبيقات. ومن حالات الاستخدام المحتملة لـ Whisper وتقنيات ASR ذات الصلة ما يلي:
- المساعدون الصوتيون: قدرة Whisper على التعامل مع الكلام متعدد اللغات والتعامل مع الضوضاء الخلفية قد تُحسّن أداء المساعدين الصوتيين، فتجعلهم أكثر كفاءة واستجابة في بيئات مختلفة.
- خدمات التفريغ: يمكن لـ Whisper تفريغ البودكاست والمقابلات والاجتماعات، ما يسهّل على الجميع الوصول إلى المحتوى وفهمه.
- الترجمة في الوقت الفعلي: يمكن لنموذج ترجمة الكلام في Whisper إتاحة الترجمة الفورية في تطبيقات مثل مؤتمرات الفيديو، ما يجعل التواصل أسهل وأكثر إتاحةً للأشخاص الذين يتحدثون لغات مختلفة.
- إمكانية الوصول: يمكن دمج Whisper في تطبيقات مختلفة لجعلها أكثر ملاءمة للأشخاص ذوي الإعاقة السمعية، عبر توفير ترجمات أو تفريغ فوري للمحتوى المنطوق.
- فهرسة الصوت والبحث: لأن Whisper يحوّل المحتوى المنطوق إلى نص، يمكنه تحسين قابلية البحث في ملفات الصوت والفيديو، ما يمكّن المستخدمين من العثور سريعًا على المعلومات التي يحتاجونها داخل مجموعات كبيرة من المحتوى المتعدد الوسائط.
مزيد من المعلومات عن OpenAI
تُعد OpenAI شركة أبحاث تركّز على دفع تطوّر الذكاء الاصطناعي قدمًا بطريقة مسؤولة وآمنة. تأسست الشركة عام 2015 على يد باحثين في مجال الذكاء الاصطناعي، من بينهم إيلون ماسك وسام ألتمان وغريغ بروكمان. منذ ذلك الحين، كانت OpenAI في طليعة أبحاث الذكاء الاصطناعي، مطوِّرةً نماذج رائدة مثل GPT-3, GPT-4، ChatGPT، DALL-E، وWhisper.
تهدف OpenAI إلى إتاحة الذكاء الاصطناعي للجميع، إذ توفر الكثير من أدواتها ونماذجها كمشاريع مفتوحة المصدر. يتيح ذلك للباحثين والمطورين حول العالم استخدام هذه الأدوات وتعديلها لدفع مجال الذكاء الاصطناعي قدمًا، ومنها تطبيقات معالجة الكلام.
هل تريد أن يقرأ لك الذكاء الاصطناعي؟ جرّب Speechify
فضلًا عن تحويل الكلام إلى نص، بإمكان الذكاء الاصطناعي أيضًا قراءة النصوص بصوتٍ مسموع. إحدى الأدوات التي تتقن ذلك بسلاسة هي Speechify. تعد Speechify خدمة تحويل النص إلى كلام (TTS) قادرة على قراءة أي نص بصوت طبيعي الملمس. وهو حل رائع للمستخدمين الذين يفضّلون استهلاك المحتوى المكتوب سمعيًا، سواء أثناء التنقل أو عند إنجاز مهام متعددة.
يستخدم Speechify معمارية ترميز/فكّ ترميز متقدّمة لإنتاج صوت عالي الجودة أقرب إلى الصوت البشري. وبفضل طبيعته الصوتية الأقرب للطبيعي، يمكن أن يساعد Speechify المستخدمين من ذوي ضعف البصر أو عُسر القراءة وسواها من صعوبات القراءة على الوصول إلى المحتوى المكتوب والاستمتاع به بسهولة أكبر. كما يتيح تجربة قابلة للتخصيص عبر إتاحة باقة واسعة من الأصوات وإمكانية ضبط سرعة القراءة بما يلائم تفضيلاتهم.
الأسئلة الشائعة
ما استخدامات Whisper AI؟
Whisper AI هو محرّك تعرّف تلقائي على الكلام (ASR) يحوّل الكلمات المنطوقة إلى نص مكتوب. يمكن استخدامه في تطبيقات عديدة، بما في ذلك نسخ الكلام إلى نص، وتحديد اللغة، والترجمة.
ما هي واجهة برمجة تطبيقات Whisper؟
واجهة برمجة تطبيقات Whisper هي API تُمكّن المطورين من دمج Whisper في تطبيقاتهم. توفّر الواجهة الوصول إلى كامل وظائف Whisper، بما فيها نسخ الكلام إلى نص، وتحديد اللغة، وترجمة الكلام.
هل Whisper من OpenAI مجاني؟
Whisper نموذج مفتوح المصدر ومتاح مجانًا لأي شخص لاستخدامه وتعديله. ومع ذلك، قد يتطلّب دعم وحدة معالجة رسومات مخصّصة لتحقيق سرعة معالجة أعلى.
ما الذي يميّز Whisper عن غيره من أنظمة الذكاء الاصطناعي؟
يتميّز Whisper بقدرته على التعامل مع الكلام بعدة لغات، مع ميزة كشف اللغة تلقائيًا. وهو مبني على معمارية المحوّل (Transformer) المستخدمة في نموذج اللغة GPT-3 التابع لـ OpenAI. ويتضمن نظام Whisper أيضًا نموذجًا لتعرّف الكلام خاصًا به.

