استنساخ الصوت إنجاز لافت أتاحه الذكاء الاصطناعي، صار في صدارة الاهتمام في العالم الرقمي، محوِّلًا صناعات مثل البودكاست والتعليق الصوتي والكتب المسموعة. لكن كيف يُصنع هذا الصوت؟ من يستطيع إنشاء صوتٍ اصطناعي؟ هل يقدر الذكاء الاصطناعي على تقليد صوتك أنت، وماذا يعني ذلك؟
كيف يُولَّد الصوت؟
في جوهره، يدور توليد الصوت، أو تحويل النص إلى كلام (TTS)، حول تحويل النص إلى كلام منطوق. يستند إلى الخوارزميات والتعلّم العميق، وهو فرع من الذكاء الاصطناعي، لتحليل خصائص الصوت البشري وإنتاج مقطع صوتي يحاكيها. تفحص نماذج توليد الصوت بالذكاء الاصطناعي جوانب مثل النبرة والإلقاء والسرعة لتوليد أصوات اصطناعية عالية الجودة أقرب ما تكون إلى الصوت البشري.
من يستطيع إنشاء صوت اصطناعي؟
ليست أدوات الذكاء الاصطناعي لتوليد الصوت مقتصرة على عمالقة التقنية مثل آبل وجوجل فحسب. فقد أطلقت شركات ناشئة وأخرى مثل ChatGPT وElevenLabs أدوات ذكاء اصطناعي لإنشاء أصوات اصطناعية. تتيح هذه الأدوات واجهات برمجة تطبيقات (APIs)، مما يمكّن المطوِّرين من دمج أصوات الذكاء الاصطناعي في تطبيقاتهم ومنصاتهم. ويمكن للمستخدمين الاستفادة منها لتوليد أصوات مخصّصة لأغراض متعددة، من تحرير الصوت لمنشئي المحتوى إلى توفير تفاعلات صوتية مميّزة لخدمات الدردشة الآلية.
ماذا يعني أن يستطيع الذكاء الاصطناعي تقليد صوتك؟
قدرة الذكاء الاصطناعي على استنساخ صوت شخص ما لها تداعيات عميقة. فهي تفتح آفاقًا جديدة أمام الممثلين الصوتيين ومقدمي البودكاست ومنشئي المحتوى، الذين يمكنهم الحفاظ على استخدام صوتهم لمشاريع مختلفة. كما يتيح استنساخ الصوت بالذكاء الاصطناعي إنشاء تعليق صوتي بعدة لغات وبأساليب نطق مختلفة من دون الحاجة إلى ممثل بشري. وفوق ذلك، يعزّز إمكانية الوصول، مثل قراءة النصوص لضعاف البصر.
لكن بالمقابل، تبرز مخاوف، أبرزها التزييف العميق. فقد يُستغل الصوت المولَّد بالذكاء الاصطناعي لانتحال أصوات أشخاص من دون موافقتهم، ما قد يفضي إلى إساءة استخدام على منصات التواصل الاجتماعي مثل TikTok أو حتى في برامج إذاعية في نيويورك.
طرق مختلفة لاستنساخ الصوت
تستفيد تقنية استنساخ الصوت من الذكاء الاصطناعي والتعلّم الآلي لتحليل ملفات الصوت وتعلّم البصمة الصوتية الفريدة للمتحدث، ثم إنشاء نموذج صوتي قادر على توليد كلام جديد في الوقت الحقيقي. الطريقتان الأشيَع هما التركيب التجميعي للكلام (concatenative speech synthesis)، الذي يركّب مقاطع من تسجيلات فعلية، والتركيب التوليدي للكلام (generative speech synthesis)، الذي يعتمد تحليلًا دقيقًا للكلام البشري لتوليد بيانات صوتية جديدة من الصفر.
هل يستطيع الذكاء الاصطناعي تقليد صوتي؟
نعم، باتت تقنيات الذكاء الاصطناعي قادرة على تقليد صوتك بدقة لافتة. ومع توافر تسجيلات صوتية كافية، يمكن لأدوات استنساخ الصوت إنتاج نسخة اصطناعية من صوتك تكاد لا تُميَّز عن الأصل. وهي قادرة اليوم أيضًا على التقاط العواطف وتبدّل النبرة في صوت الشخص، ما يضفي طبقة إضافية من الواقعية على الصوت المُولَّد.
مولِّد الصوت مقابل مقلِّد الصوت
بينما يُنشئ مولِّد الصوت كلامًا بدمج أصوات اعتمادًا على مدخلات نصية، يعمل مقلِّد الصوت على محاكاة خصائص صوت بعينه. غير أن الذكاء الاصطناعي طمس هذه الحدود، إذ تُظهر النماذج الحديثة براعة في تقليد أصوات الأفراد.
أفضل 9 برامج وتطبيقات لاستنساخ الصوت
- استنساخ صوت Speechify: استنساخ صوت Speechify من أفضل ما ستجده. يستنسخ صوتك فورًا. كل ما عليك هو الضغط على زر التسجيل في متصفحك والتحدث لمدة 30 ثانية، وسيعمد Speechify AI إلى استنساخه لحظيًا.
- ChatGPT من OpenAI: حل لتحويل النص إلى كلام يعمل بالذكاء الاصطناعي، ويُنشئ أصواتًا اصطناعية تحاكي الصوت البشري. يمكن استخدامه لإنشاء المحتوى، وتطوير وكلاء المحادثة، وغير ذلك الكثير.
- Resemble AI: أداة قوية لإنشاء أصوات مخصّصة، مفيدة في مجالات متعددة مثل التعليق الصوتي والبودكاست والكتب الصوتية.
- ElevenLabs: تقدّم واجهة برمجة تطبيقات لاستنساخ الصوت تتيح توليد الصوت آنيًا، وهي مثالية للدمج مع روبوتات المحادثة وتطبيقات وسائل التواصل الاجتماعي.
- Descript: يشتهر بميزات تحرير الصوت، كما يقدّم أداة استنساخ صوت باسم "Overdub" تمكّن المبدعين من إنشاء تعليقات صوتية بصوتهم الخاص.
- Google Cloud Text-to-Speech: واجهة برمجة تطبيقات قوية بخيارات واسعة للغات والأصوات. مثالية للمطورين الذين يرغبون في دمج تحويل النص إلى كلام في تطبيقاتهم.
- Amazon Polly: خدمة لتحويل النص إلى كلام واقعي، تتيح لك إنشاء تطبيقات ناطقة واستحداث فئات جديدة من المنتجات المعتمدة على الصوت.
- iSpeech: مستخدمة بكثرة بين المطورين، وتتيح تكاملًا سهلًا لوظائف تحويل النص إلى كلام عالية الجودة والتعرّف على الصوت داخل التطبيقات.
- Baidu Deep Voice: معروف بقدراته على استنساخ الصوت آنيًا، وهو أداة قوية لإنشاء أصوات مقلَّدة عالية الجودة.
باستخدام هذه الأدوات بمسؤولية، يمكننا إطلاق الإمكانات الهائلة للذكاء الاصطناعي في مجال توليف واستنساخ الصوت. ومع تقدّم التقنية، بات واضحًا أن استنساخ الأصوات بالذكاء الاصطناعي سيواصل إعادة رسم ملامح قطاعات وصناعات عديدة.

