لقد تسلّل الذكاء الاصطناعي تقريبًا إلى كل جانب من جوانب حياتنا، من روبوتات الدردشة على المواقع إلى منشئي المحتوى على وسائل التواصل الاجتماعي، وحتى ألعاب الفيديو. شهدت تقنية الصوت القائمة على الذكاء الاصطناعي، على وجه الخصوص، قفزة كبيرة؛ إذ انتقلت من أنظمة تحويل النص إلى كلام البدائية إلى إنشاء أصوات اصطناعية أقرب إلى صوت البشر. مع أدوات مثل مولدات الصوت بالذكاء الاصطناعي وبرامج استنساخ الصوت، بات بإمكان الذكاء الاصطناعي اليوم محاكاة صوت شخص ما بشكل مقنع.
الفرق بين تحويل النص إلى كلام والتعرّف على الكلام
تحويل النص إلى كلام والتعرّف على الكلام وجهان لعملة واحدة؛ فكلاهما يتعامل مع الصوت البشري وتقنيات الذكاء الاصطناعي، لكن غايتيهما تختلفان. تحويل النص إلى كلام (TTS) تقنية لتوليد الكلام تُحوّل النص المكتوب إلى مخرجات صوتية منطوقة، ويُستخدم عادةً في الكتب المسموعة والتعلم الإلكتروني والأدوات المساعدة لذوي الإعاقات. ويعتمد على خوارزميات الذكاء الاصطناعي وتعلّم الآلة لتوليد صوت اصطناعي من النص المكتوب.
أما التعرّف على الكلام فهو العملية التي تُحوِّل فيها أنظمة الذكاء الاصطناعي الكلمات المنطوقة إلى نص مكتوب. تُستخدم هذه التقنية على نطاق واسع في خدمات النسخ الفوري، والمساعدين الصوتيين مثل Siri من Apple أو Alexa من Amazon، وحتى على بعض منصات التواصل الاجتماعي مثل TikTok لإنشاء عناوين توضيحية.
كيف يمكن للذكاء الاصطناعي أن يحاكي صوت الإنسان
الطريقة المعتادة التي يستخدمها الذكاء الاصطناعي لمحاكاة صوت الإنسان تتضمن عمليتين: التحليل والتوليد. هذا جزء من مجال يُعرف باسم استنساخ الصوت. في البداية، يستخدم نظام الذكاء الاصطناعي خوارزميات التعلّم العميق والشبكات العصبية لتحليل مقاطع الصوت أو تسجيلات صوت الشخص، ودراسة الأنماط والنَّبر والتنغيم واللكنات.
في مرحلة التوليد، يستخدم الذكاء الاصطناعي نماذج توليدية (مثل ChatGPT من OpenAI أو VoCo من Adobe) لإنشاء صوت رقمي يعكس الصوت الذي تم تحليله. يشبه ذلك إنشاء ديب فيك، لكن للأصوات. غالبًا ما تكفي ثوانٍ معدودة من الصوت لتوليد نتيجة واقعية.
مكونات إنشاء صوت بشري
لإنشاء صوت بشري، تتداخل عدة عناصر. تشمل هذه:
- التحليل الصوتي/الفونيمي: فهم البنية الفونيمية للكلام البشري، وتفكيك الكلمات إلى وحداتها الصوتية.
- تحليل الإيقاع والتنغيم (Prosody): فهم إيقاع الكلام، ومواضع التشديد، والتنغيم.
- خوارزميات التعلّم: تُستخدم خوارزميات تعلّم الآلة للتعلّم من بيانات الصوت واستيعاب الأنماط وإعادة إنتاجها.
- النماذج التوليدية: تُستخدم لتوليد بيانات صوتية جديدة تُحاكي الأنماط المتعلَّمة.
الاختلافات بين الصوت البشري وصوت الذكاء الاصطناعي
على الرغم من أن التقدم جعل أصوات الذكاء الاصطناعي تبدو أكثر طبيعية وقربًا من البشر، ما تزال هناك فروق واضحة بين الصوت البشري وصوت الذكاء الاصطناعي. وأبرزها الدقائق العاطفية والنَّبر المعتمد على السياق الملازمان للكلام البشري بطبيعته، وما يزال الذكاء الاصطناعي يتدرّب على إتقانها. علاوة على ذلك، هناك اعتبارات أخلاقية وخصوصية تتعلّق باستنساخ الصوت بالذكاء الاصطناعي، إذ قد يفضي سوء الاستخدام إلى انتحال الهوية وعمليات احتيال عبر مقاطع ديب فيك.
أفضل 8 أدوات صوتية بالذكاء الاصطناعي
- ChatGPT من OpenAI: يستخدم الذكاء الاصطناعي التوليدي لإنشاء ردود نصية شبيهة بالبشر. ويمكن دمجه في تطبيقات مختلفة لتوليد صوت واقعي بالذكاء الاصطناعي.
- VoCo من Adobe: أداة استنساخ الصوت من Adobe، VoCo، تتيح تحرير وإنشاء الكلام البشري انطلاقًا من عيّنة صوتية أصلية لا تتجاوز 20 دقيقة.
- Amazon Polly: خدمة تحوّل النص إلى كلام طبيعي، مما يسمح للمطورين بإنشاء تطبيقات ناطقة وابتكار فئات جديدة من المنتجات المدعومة بالصوت.
- Microsoft Azure Text to Speech: معروفة بأصوات ذكاء اصطناعي عالية الجودة وطبيعية، وتُستخدم على نطاق واسع في مجالات الإتاحة والترفيه والاتصالات.
- Google Text-to-Speech: خدمة تستخدمها Google لتوليد كلام طبيعي بأكثر من 30 لغة.
- Descript: تتيح هذه الأداة للمستخدمين إنشاء وتحرير وتحسين الأصوات لتطبيقات مثل البودكاست والتعليقات الصوتية.
- Resemble AI: تقدم Resemble AI تقنية استنساخ صوت لإنشاء أصوات فريدة مولَّدة بالذكاء الاصطناعي للعلامات التجارية والمنتجات.
- Lyrebird: استحوذت عليها Descript، وكانت Lyrebird من أوائل من قدّموا برنامجًا لاستنساخ الصوت لإنشاء أصوات رقمية واقعية.
تواصل تقنيات الصوت المعتمدة على الذكاء الاصطناعي، والمدفوعة بالتعلّم العميق والشبكات العصبية، التقدّم بوتيرة متسارعة، ما يفتح مجالات استخدام في الكتب الصوتية والبودكاست ووسائل التواصل الاجتماعي وألعاب الفيديو. وبحسب تقارير Forbes، تقدّم الأدوات الجديدة أصواتاً عالية الجودة وواقعية تُغيّر طريقة تفاعلنا مع التكنولوجيا. ومع استمرار تطوّر هذا المجال، يصبح الحدّ الفاصل بين الصوت البشري والصوت المُولَّد بالذكاء الاصطناعي أقل وضوحاً. ومع ذلك، وعلى الرغم من هذه الإمكانات الهائلة، لا بدّ من التحرّك بحذر مع مراعاة الجوانب الأخلاقية والخصوصية.

