كيف تعمل تقنية التزييف العميق لاستنساخ الصوت وتحويل النص إلى كلام؟
طُوِّرت تقنيات جديدة مثل توليف الكلام وتحويل النص إلى كلام (TTS) لاستنساخ صوت الشخص، ما يجعل النتيجة واقعية إلى حدٍّ مُدهش. استفاد كثيرون، مثل صُنّاع الأفلام ومطوّري ألعاب الفيديو، من استنساخ الصوت لاستحداث سرد صوتي عالي الجودة وأصوات مخصّصة لشخصياتهم. في هذا المقال ستتعرّف على كل ما ينبغي معرفته عن تحويل النص إلى كلام بالتزييف العميق.
ما هو التزييف العميق؟
التزييف العميق أداة معتمدة على الذكاء الاصطناعي تستخدم التعلم العميق لاستبدال ملامح شخص بآخر في الفيديو أو وسائط متعددة أخرى. تقوم خوارزميات التعلم العميق بمعالجة كمٍّ هائل من البيانات المُقدَّمة، وفي حالة التزييف العميق تكون هذه البيانات مقاطع فيديو لشخصٍ ما. مع كل هذه المعلومات، تتعلّم الخوارزميات وتولّد بيانات جديدة لاستبدال الوجوه في المحتوى الرقمي. والنتيجة وسائط مزيفة تبدو واقعية للغاية. أكثر الطرق شيوعًا لإنشاء التزييفات العميقة تعتمد على الشبكات العصبية. ستحتاج إلى فيديو أساسي ومقاطع قصيرة إضافية للشخص نفسه. كلما زادت المعلومات المُزوَّدة للأداة، استطاع البرنامج إعادة إنشاء وجه الشخص من كل زاوية. بعض التطبيقات الأكثر تطورًا توفّر حتى التزييف العميق في الوقت الفعلي. يمكن العثور على برامج التزييف العميق في منصة مفتوحة المصدر تُدعى GitHub. أحد الأمثلة هو Vall-E. يضمّ التطبيق قاعدة بيانات لأصوات مُعَبِّرة تُستخدم لتقديم كلام مخصّص يحمل محاكاة لمشاعر البشر.
كيف يساعد تحويل النص إلى كلام في التزييف العميق؟
لا يقتصر التزييف العميق على الفيديو فقط. طوّرت تقنيات الذكاء الاصطناعي أيضًا وسائل لإعادة إنتاج صوت الإنسان إلى حدٍّ يصعب معه على المستخدمين تمييز الصوت المُولَّد من الصوت الأصلي. كما هو الحال مع تزييف الفيديو، يتطلب مولد الصوت تدريب نموذج. يقتضي هذا التدريب تزويد البرنامج بأكبر قدر ممكن من التسجيلات الصوتية ليتمكّن الذكاء الاصطناعي من استنساخ صوت المتحدّث. باتت هذه التزييفات الصوتية رائجة على منصات التواصل الاجتماعي.
هل يمكنك اكتشاف صوت مزيف عميق؟
بينما صُمِّمت المُركِّبات الصوتية لإنشاء أصوات واقعية، استخدم الباحثون الديناميكا المائعة لرصد الفروق بين الأصوات البشرية والصناعية. الأصوات المزيفة العميقة تُولَّد بإعادة تشكيل قناة صوتية لا وجود لها لدى البشر. لذلك، رغم أنها قد تبدو متشابهة، فهي ليست كذلك حقًا. ومع ذلك، تتطور هذه التقنية باستمرار، وقد تبلغ مرحلة يصير فيها من الصعب جدًا التمييز بين مقطع صوتي مزيف وآخر حقيقي. ولأن الجزء الأكبر من تواصل الناس يعتمد على الصوت، مثل الرسائل الصوتية والمكالمات الهاتفية، فقد غدت الأصوات المزيفة العميقة مصدر مخاطرة. وقد يستغلّ البعض نماذج الكلام لخداع الآخرين.
تقنية التزييف العميق — الإيجابيات والسلبيات
الإيجابيات
- التخصيص — بالنسبة للعلامات التجارية، يتيح التزييف العميق إنشاء حملات أقرب لاهتمامات عملائهم. على سبيل المثال، يمكن للعلامة التجارية مراعاة السمات العِرقية للعميل لإنشاء نموذج يشبههم، فيعرف الجمهور المستهدف كيف سيبدو المنتج عليهم.
- تحسين الحملات — مع زوال كلفة الحضور الشخصي للممثلين، يمكن للشركات إطلاق حملات متعددة القنوات. وبدلًا من إعداد نسخة لكل قناة، يمكن استخدام تحويل النص إلى كلام لتوليد محتوى لقنوات تسويقية مختلفة، مثل البودكاست وخدمات البث.
- فيديوهات منخفضة التكلفة — تمثّل كلفة الاستعانة بالممثلين أحد أعلى بنود ميزانية الحملة. لذلك يميل المسوِّقون إلى ترخيص صورة وهوية الممثل. بدلًا من تسجيل المقطع الصوتي نفسه مرارًا، يمكن للمسوِّقين تعديل التزييف العميق.
السلبيات
- المخاوف الأخلاقية — قد تستخدم العلامات التجارية التزييفات العميقة لأغراض متعددة. قد يكون كثير منها مشروعًا وفعّالًا، مثل تعزيز قصة العلامة، لكن بعضها قد يكون غير أخلاقي ويُعرّض سمعة الشركة للخطر. مثال على استخدام غير أخلاقي لتقنية تعلم الآلة: شركة ناشئة تنشئ مراجعات وهمية للشركات باستخدام التزييفات العميقة.
- مخاطر الاحتيال — وقع كثيرون ضحية لعمليات احتيال بالتزييف العميق بالفعل. تبدو الأصوات المزيفة العميقة واقعية إلى حدٍّ قد لا يجرؤ معه كثيرون على التشكيك في صحة المكالمة الهاتفية.
احصل على أصوات ذكاء اصطناعي طبيعية وعالية الجودة مع Speechify
Speechify هو تطبيق تحويل النص إلى كلام صُمِّم ليمنحك نسخة صوتية من نصوصك. يمكنك إنشاء محتواك مباشرة داخل التطبيق أو رفع مستنداتك، وسيحوّل نصك تلقائيًا إلى ملف صوتي جاهز للتنزيل. كما يتيح لك Speechify تخصيص التعليق الصوتي بتغيير النبرة والسرعة كما تشاء. ويدعم أكثر من 30 لغة. تعمل المنصة على حواسب Microsoft وApple، وعلى Android، و iOS. جرّب مولّد التعليقات الصوتية من Speechify اليوم وابدأ في إنشاء مقاطع بصوت ذكاء اصطناعي طبيعي الإيقاع.
الأسئلة الشائعة
هل يمكن تزوير الصوت بتقنية التزييف العميق (deepfake)؟
نعم، يُعرف تزييف الصوت العميق أيضًا باسم استنساخ الصوت أو الصوت الاصطناعي.
كيف أحصل على صوت جهير في تحويل النص إلى كلام؟
طُوِّرت العديد من برامج تحويل النص إلى كلام لإنتاج أصوات جهيرة تبدو طبيعية إلى حد كبير. يدعم Speechify، على سبيل المثال، 30 صوتًا مختلفًا، منها أصوات ذكورية جهيرة.
ما هي النسخة الصوتية للتزييف العميق (deepfake)؟
النسخة الصوتية من التزييف العميق هي تسجيل تُنتجه أداة ذكاء اصطناعي تستنسخ صوت شخص حقيقي عبر التعلم العميق. يمكن لأدوات مثل Resemble.ai إنشاء صوت مزيف لأغراض ترفيهية.
هل 15.ai مدفوع؟
لا، 15.ai برنامج مجاني وغير تجاري. ومع ذلك، أُوقِف تطبيق الويب الخاص بالذكاء الاصطناعي في عام 2022 للصيانة.
ما الفرق بين تحويل النص إلى كلام القائم على التزييف العميق (deepfake) والصوت المزيف العميق؟
التزييف العميق تقنية ذكاء اصطناعي تعيد إنتاج مظهر الشخص في الفيديو، بينما يركّز الصوت المزيف العميق على تقليد صوته. أما تقنية تحويل النص إلى كلام، فتحوّل أي نص إلى نسخة مسموعة. وفي حالة تحويل النص إلى كلام، لا يُقصد أن يشبه الصوت ممثلي الأداء الصوتي أو المشاهير إلا إذا أشارت المنصة إلى ذلك صراحة.
ما هو أفضل تطبيق لتحويل النص إلى كلام؟
Speechify هو أفضل تطبيق متاح، إذ يضم العديد من الميزات المفيدة التي تمكّن المستخدمين من إنشاء ملفات صوتية واقعية من نصوصهم.
لماذا يصعُب اكتشاف الصوت المزيف العميق؟
يعتمد التزييف العميق على خوارزميات شبكات عصبية تتعلم ذاتيًا. كلما زادت البيانات المُدخلة إلى النظام، تحسَّنت قدرته على محاكاة الصوت البشري، ما يجعل اكتشافه أصعب.
كيف أستخدم التزييف العميق؟
يمكن استخدام التزييف العميق لأغراض ترفيهية أو لصناعة تعليقات صوتية للفيديو والمحتوى متعدد الوسائط.

