1. الصفحة الرئيسية
  2. تعليق صوتي
  3. الأصوات المُزيفة عميقًا: كيف يُحوِّل الذكاء الاصطناعي تكنولوجيا الصوت
تعليق صوتي

الأصوات المُزيفة عميقًا: كيف يُحوِّل الذكاء الاصطناعي تكنولوجيا الصوت

Cliff Weitzman

كليف وايتزمان

الرئيس التنفيذي ومؤسس Speechify

مولِّد الصوت بالذكاء الاصطناعي رقم 1.
أنشئ تعليقًا صوتيًا بجودة بشرية
وتسجيلات في الوقت الفعلي.

apple logoجائزة آبل للتصميم 2025
أكثر من 50 مليون مستخدم

الأصوات المُزيفة عميقًا وتحويل النص إلى كلام

بفضل التقدّم في الذكاء الاصطناعي والتعلّم العميق، أصبح بإمكان الناس الآن إنشاء محتوى اصطناعي عالي الجودة وواقعي. فتحت هذه التقنية أبوابًا لعديد من التطبيقات الإبداعية التي تؤثر في صناعات متعددة. إحدى هذه التقنيات هي التزييف العميق (deepfakes)، ويُشار إليها أحيانًا بالأصوات الاصطناعية واستنساخ الصوت.

ما هي الأصوات المُزيفة عميقًا؟

مصطلح deepfake يشير إلى محتوى مُولَّد اصطناعيًا، ويُعرف أيضًا باسم استنساخ الصوت. بفضل الذكاء الاصطناعي، أصبح بإمكان المستخدمين توليد فيديوهات تزييف عميق تستبدل مظهر شخص بآخر على الشاشة أو تجعل شخصًا يقول ما لم يقله قط، ويُشار إلى ذلك كثيرًا باسم استنساخ الصوت. تخيّل أن بإمكانك جعل صوت أرنولد شوارزنيجر يردد ما تريد.

تتطلّب العملية برامج خاصة لتحليل الوجوه، ومعالجة الصوت من نصوص السيناريو، ونمذجة حركة الفم في فضاء ثلاثي الأبعاد.

هناك استخدامات متقدمة لهذه التقنية، ومن بينها استنساخ الصوت. تقريبًا كل شخص، حتى غير المهتمين بالتقنية، صادف فضيحة تزييف عميق. ومع ذلك، صدر مؤخرًا فيلم وثائقي بعد وفاة توني بوردان فاجأ الجمهور بقدرته على السرد إذ أُعيد إنشاء صوته.

ساعدت شركات ناشئة في مجال تكنولوجيا المعلومات شركة الإنتاج على إعادة خلق صوت بوردان لإضفاء لمسة من الواقعية على القصة. لا شك أن هذا إنجاز كبير، لكنه يثير العديد من القضايا الأخلاقية. فكل ما يحتاجه شخص ما هو حاسوب مزوّد بالبرنامج المناسب لإنتاج لقطات مُزيفة أو تسجيلات مسيئة عن أي شخص آخر.

كيف تُصنع الـ deepfakes بالضبط؟

أولًا، تُجمع عينات كافية من صوت الشخص المستهدف. قد تأتي المدخلات من منشورات وسائل التواصل الاجتماعي، مكالمات مسجلة، تلفزيون، إلخ. ثم يدمج برنامج يعمل بخوارزميات الذكاء الاصطناعي هذه العينات لإنتاج صوت مُزيَّف. 

هذه لمحة أساسية عن عملية معقّدة، لكن في النهاية تستخدم أدوات الذكاء الاصطناعي البيانات المجمعة لإنشاء أصوات تبدو طبيعية ويمكنها قراءة النص الرقمي. ولهذا السبب، ترتبط الـ deepfakes ارتباطًا وثيقًا بتقنية تحويل النص إلى كلام (TTS). 

دمج الأصوات المُزيفة عميقًا في تقنيات تحويل النص إلى كلام

يمكن للمستخدمين تعديل خصائص مثل النغمة، والعمر، واللهجة باستخدام تقنية الأصوات المُزيفة المدمجة في أنظمة تحويل النص إلى كلام. ويمكنهم حتى تطوير أصوات مُركّبة تُحاكي النبرة والأسلوب المرغوبين، على سبيل المثال في حالات العجز الصوتي. مثل هذا التخصيص سيُحسّن كثيرًا قدرتهم على التواصل وجودة حياتهم عمومًا.

وباستخدام الأصوات المُزيفة، يستطيع منشئو المحتوى إنتاج مواد صوتية أكثر جاذبية تجذب المتابعين وتزيد ولاء الجمهور. فهم يستعينون بأصوات تُشبه رواة مشهورين أو نجومًا لإبهار المستمعين. ويكون ذلك مفيدًا على نحو خاص للمحتوى متعدد الوسائط مثل الكتب الصوتية والبودكاست، حيث للصوت أثر كبير في إثارة المشاعر وتحفيز مشاركة الجمهور.

ومع ذلك، يثير استخدام الأصوات المُزيفة في أنظمة TTS عدة إشكالات أخلاقية. فهذه الأصوات قادرة على التلاعب والتضليل وانتحال الهوية—خداع الناس من دون موافقتهم. وهذا يُبرز الحاجة إلى ضوابط صارمة وتشريعات تشجّع الاستخدام السليم والأخلاقي لهذه التقنية.

أخيرًا، يقدّم دمج الأصوات المُزيفة في أنظمة تحويل النص إلى كلام فرصة لتوليف صوتي مُفصّل وجذاب. وقد تُغيّر هذه التقنية بشكل كبير تفاعلنا مع الكلام المُولَّد بحيث تجعله أكثر سلاسة وتزيد رضا المستخدمين، مع مراعاة الجوانب الأخلاقية.

المزايا

لتقنية التزييف العميق جوانب إيجابية عدة. فقد أظهر فيديو "This Is Not Morgan Freeman" العميق لعام 2021 كيف يمكن للتقنية المعزّزة أن تكون مفيدة.

أظهرت اللقطات أنه عبر تدريب الذكاء الاصطناعي باستخدام تسجيلات صوتية ومقاطع من الفيلم، تمكنوا من ابتكار محاكاة لشخصية الممثل تقلّد حركاته وهيئته وكلامه. كما أسلفنا، ثمة إشكالات أخلاقية، لكنه قد يكون لا يُقدَّر بثمن لشخص مثل الممثل فال كيلمِر.

على الرغم من إصابة كيلمِر بسرطان الحنجرة وفقدانه صوته، رأى البعض أنها نهاية مشواره في هوليوود. في وثائقي Prime Voice على أمازون برايم عن كيلمِر، كُشف أن ابن الممثل سيتولى التعليق الصوتي عنه عند أداء أدوار جديدة.

مع ذلك، عندما تعاون كيلمِر مع شركة Sonantic الناشئة المتخصصة في نمذجة الأصوات، استعاد صوته في النهاية. باستخدام تقنية التزييف العميق، أعادت الشركة إنشاء صوت كيلمِر، وتمكّن الجمهور من سماع النتائج المذهلة في فيلم Top Gun: Maverick الذي طُرح مؤخرًا.

السلبيات

تعلم الآلة قادر على محاكاة أصوات الأشخاص، لا سيما في مدن مثل نيويورك السباقة إلى تبنّي التكنولوجيا. وهذا ما يسهّل على المحتالين دفع الأفراد إلى كشف معلوماتهم الشخصية والوقوع ضحية مكالمات مزيفة أو احتيالية.

المخاوف الأخلاقية بشأن تقنية التزييف العميق

هناك أسئلة أخلاقية تحيط باستخدام الأصوات المزيفة والنص إلى كلام. ومع استمرار التقدم التكنولوجي، تظهر مخاطر محتملة. الأصوات المصنوعة بالتزييف العميق مثل صوت أرنولد شوارزنيجر الاصطناعي، على سبيل المثال، قد تبدو طبيعية لدرجة تخدع الناس. وهذا قد يزرع الشك في كل ما نسمعه ويقوّض الثقة العامة.

عند تبنّي أي تقنية جديدة، يجدر بنا التفكير مليًا في مخاطرها المصاحبة. يمكن للأصوات المزيفة أن تخدع وتؤثر في الناس عبر نبرتها وحدها. لذلك من الطبيعي القلق، إذ قد تُقوّض ثقة الجمهور وتنتهك حقوق الخصوصية.

ثمة إشكال مُلِحّ يتعلق باستخدام الأصوات المزيفة. والأخطر هو توظيف الأصوات الاصطناعية في عمليات الاحتيال عبر الهاتف وحملات التضليل واسعة الانتشار. تخيّل أنك تتلقى مكالمة من رقم مجهول لكن الصوت مألوف للغاية. قد تتعرّف إليه كصديق مقرّب أو أحد أفراد العائلة أو شريك/شريكة، قبل أن يتضح أنها مجرد خدعة. مثل هذا التلاعب قد يخلّف آثارًا جسيمة تطال أفرادًا ومجتمعات وحتى دولًا بأكملها.

الحدّ من إساءة استخدام الأصوات المزيفة

للحد من هذا التهديد، نحتاج إلى أطر تنظيمية قوية وبرامج توعية للمستخدمين. ينبغي استخدام الأصوات المزيفة بحكمة، مع وضع إرشادات من قبل الحكومات وشركات التكنولوجيا بالتعاون المشترك. كما يجب تطوير أدوات فعّالة لاكتشاف الاستخدام غير المشروع لتقنية الأصوات الاصطناعية والتصدي له، إلى جانب توعية المستخدمين بإمكان استغلال هذه التقنية لأغراض خبيثة.

فضلًا عن ذلك، ينبغي الموازنة بين الابتكار والضوابط عند استخدام تقنية الصوت المزيف والنص إلى كلام. التطورات التكنولوجية واعدة بلا شك، لكن يجب أن ترافقها شفافية ومساءلة مناسبة. من المهم إبلاغ المستخدمين بأن الصوت مُركّب، لأن ذلك يساعدهم على التمييز بين المعلومات الحقيقية والزائفة.

الجوانب القانونية والخصوصية المرتبطة بالأصوات المزيفة

تبرز كذلك اعتبارات قانونية ومسائل خصوصية مع الأصوات المزيفة. تُثار أسئلة حول ملكية الأصوات المُركّبة واحتمال استخدامها دون تصريح. لا بد من وضع إرشادات واضحة للتعامل مع هذه القضايا المعقّدة، بما يضمن حماية حقوق الأفراد واستخدام التكنولوجيا بمسؤولية.

وأثناء تناولنا للاعتبارات الأخلاقية المحيطة بالأصوات المزيفة، من الضروري فتح نقاشات مفتوحة وشاملة. ينبغي أن يجتمع الأخلاقيون وصنّاع السياسات والتقنيون والجمهور العام لمعالجة هذه المخاوف وتشكيل مستقبل هذه التكنولوجيا بما يخدم المجتمع ككل.

تخيّل أن تصلك مكالمة تبدو كأنها من صديق أو أحد أفراد العائلة، لكنها في الواقع صوت مزيف يحاول خداعك. قد يضر هذا بالأفراد والمجتمعات وحتى الدول بأكملها. وهناك حالات استخدام عديدة للأصوات المزيفة، من تطبيقات ترفيهية مثل جعل Alexa تتحدث بصوت مشاهير، إلى استخدامات أكثر جدية قد تكون مضللة.

الحاجة إلى تنظيم يضمن استخدامًا أخلاقيًا للأصوات المزيفة

لحماية الناس، نحتاج إلى قواعد صارمة وحملات توعية بالمخاطر المرتبطة بهذه الأصوات المزيفة. ينبغي أن تتعاون الحكومات وشركات التكنولوجيا لوضع أطر لاستخدام الأصوات المزيفة على نحو سليم، وكذلك ابتكار وسائل لرصد وإيقاف الأصوات المزيفة الضارة.

وعند استخدام الأصوات المزيفة، من المهم التحلّي بالحذر والتفكير في ما هو صواب وخطأ. ورغم أن هذه الأدوات الصوتية الجديدة ممتعة، علينا استخدامها بأمانة. ينبغي أن يعرف الناس متى يكون الصوت الذي يسمعونه مُولَّفًا بواسطة الحاسوب، كي يقرّروا ما إذا كانوا يثقون بما يسمعون أم لا.

مناقشة تحديات أصوات التزييف العميق أمر مهم. ينبغي للجميع، من الخبراء إلى غير المتخصصين، إبداء آرائهم. من شأن ذلك أن يضمن استخدام هذه التقنية بما يعود بالنفع على الجميع.

لحسن الحظ، ومع تحسّن برامج توليد الصوت، سنتحسّن نحن أيضًا في كشف الأصوات المزيفة. تعمل شركات التقنية على أدوات لكشف هذه الأصوات وإيقافها. سيساعد ذلك جهات مثل البنوك ومراكز الاتصال في نيويورك على التأكد من أنهم يتحدثون إلى أشخاص حقيقيين لا إلى أصوات حاسوبية تحاول خداعهم.

برامج للتزييف الصوتي يمكنك تجربتها

يمكن لأدوات التعلم الآلي أن تؤثر إيجابياً على حياة الكثيرين وقد ترغب في تجربة صنع تزييف صوتي. على الرغم من حاجتك إلى أجهزة وبرامج متطورة للحصول على نتائج عالية الجودة، يمكنك الاستعانة بالعديد من البرامج لإنتاج أصوات تبدو طبيعية. فيما يلي خمسة مولدات للتزييف الصوتي يمكنك تجربتها:

Resemble

Resemble AI هو أداة لتحويل النص إلى كلام وإنشاء تزييف عميق تُنتج أصواتًا بشرية باستخدام بيانات محدودة. باستخدام نحو خمس دقائق من التسجيلات الصوتية، يستطيع المستخدمون إنشاء أول تزييف صوتي لهم.

يمكنك تجربة ميزة العيّنة وإدخال مقاطع بصوتك في التطبيق، وخلال دقائق قليلة ستسمع صوتًا مألوفًا. يقدّر المستخدمون واجهة Resemble السهلة الاستخدام ويمكنهم حتى ضبط نبرة الصوت الناتج.

Descript

يتميّز هذا المولّد الصوتي اللافت بقدرات تحرير قوية. يحلّل البرنامج تسجيلات الصوت ومقاطع الفيديو والنصوص لإنشاء أصوات مدعومة بالذكاء الاصطناعي. إذا لم تكن راضيًا عن جودة المادة المدخلة، يمكنك تحريرها مباشرة داخل التطبيق—من دون إعادة التسجيل.

الهدف الرئيسي من Descript هو مساعدة صانعي المحتوى على تسجيل تعليقات صوتية عالية الجودة للبودكاست ومقاطع الفيديو الخاصة بهم. يحتوي البرنامج على العديد من الأصوات الجاهزة التي يمكنك تجربتها للتعرّف على إمكانيات Descript.

ReSpeecher

ReSpeecher هو حل موثوق للتزييف العميق ساهم في إعادة إنشاء صوت لوك سكاي ووكر في The Mandalorian. ومع أن البرنامج مناسب للأفلام والبرامج التلفزيونية، فهو أيضًا خيار ممتاز لتسجيل تعليق صوتي للإعلانات والرسوم المتحركة وألعاب الفيديو والبودكاست والمزيد. 

iSpeech

iSpeech متاح كتطبيق لسطح المكتب، ويمكنك أيضًا تجربة الإصدار المستند إلى الويب. بالإضافة إلى توليد الصوت، يضم التطبيق ميزات تحويل النص إلى كلام، وقارئ ويب، والتعرّف على الكلام. للتعرّف على البرنامج، يمكنك تجربة أحد عروضه التوضيحية والتجربة بأصوات باراك أوباما، أو أرنولد شوارزنيغر، أو سكارليت جوهانسون.

استنساخ الصوت في الوقت الحقيقي

هذا المشروع مفتوح المصدر متاح مجانًا على GitHub. تتيح هذه الحزمة الشاملة استنساخ صوت شخص باستخدام خمس ثوانٍ فقط من إدخال صوتي. ومع ذلك، أفاد المستخدمون أن تشغيله يتطلّب مهارات تقنية من متوسطة إلى متقدمة.

Speechify – البديل السهل الاستخدام لتحويل النص إلى كلام بدلًا من أصوات التزييف العميق

تطبيقات تحويل النص إلى كلام (TTS) مثل Speechify ومولّدات التزييف العميق تستند إلى تقنيات متقاربة، لكن لكلٍ منهما غرض مختلف. يُعدّ Speechify أداةً لتحويل النص إلى كلام وقراءته بصوت عالٍ، يمكنها قراءة أي نص مطبوع أو رقمي تقريبًا. بعد استيراد المستخدمين مستند Microsoft Word أو مقالًا أو نصًا إلى التطبيق واختيار صوت الراوي المفضّل، يتولّى Speechify قراءة المحتوى بصوت مسموع.

يوفّر البرنامج مجموعة لا مثيل لها من الأصوات الذكورية و الأنثوية عالية الجودة، ويدعم أكثر من 20 لغة، بما في ذلك الإنجليزية والإسبانية والفرنسية والإيطالية والبرتغالية. إذا كنت ترغب في زيادة الإنتاجية والاستماع إلى مشاهير يقرؤون لك، فلمَ لا تجرّب صوت Gwyneth Paltrow في Speechify؟

حمّل البرنامج على جهاز الكمبيوتر لديك، iPhone أو Android أو على جهازك و جرّب Speechify مجانًا اليوم.

الأسئلة الشائعة

هل FakeYou مجاني؟

FakeYou برنامج مجاني سهل الاستخدام يتيح لك إنشاء أصوات بجودة طبيعية.

كيف تميّز ما إذا كان الصوت تزييفًا عميقًا؟

قد يكون تمييز التزييفات العميقة صعبًا من دون برامج متقدمة. تستخدم شركات الأمن السيبراني أنظمة تحقّق صوتية بيومترية للحد من عمليات احتيال التزييف العميق. 

ما أبرز مخاطر الأصوات المزوَّرة بالتزييف العميق؟

قد تُستغلّ التزييفات العميقة أحيانًا لأغراض خبيثة، فتنشر معلومات مضللة، وتدمّر سمعة الأشخاص، وتؤدي إلى تآكل الثقة في المؤسسات الحكومية. 

أنشئ تعليقات صوتية، ودبلجة، واستنساخات صوتية باستخدام أكثر من 1000 صوت وفي أكثر من 100 لغة

جرّب مجانًا
studio banner faces

شارك هذا المقال

Cliff Weitzman

كليف وايتزمان

الرئيس التنفيذي ومؤسس Speechify

كليف وايتزمان مدافع عن ذوي عسر القراءة والرئيس التنفيذي ومؤسس تطبيق Speechify، أفضل تطبيق لتحويل النص إلى كلام في العالم، إذ نال أكثر من 100,000 تقييم بخمس نجوم وتصدّر متجر التطبيقات ضمن فئة الأخبار والمجلات. في عام 2017، أدرجته فوربس ضمن قائمة 30 تحت 30 تقديراً لجهوده في جعل الإنترنت أكثر سهولة وصولاً لذوي صعوبات التعلّم. ظهر كليف وايتزمان في منصات مثل EdSurge وInc. وPC Mag وEntrepreneur وMashable، وغيرها من وسائل الإعلام الرائدة.

speechify logo

حول Speechify

قارئ النص إلى كلام رقم 1

Speechify هي المنصة الرائدة عالميًا في تحويل النص إلى كلام، يثق بها أكثر من 50 مليون مستخدم، ويدعمها أكثر من 500,000 تقييم بخمس نجوم عبر تطبيقاتها على iOS، Android، امتداد Chrome، تطبيق الويب، وتطبيقات سطح المكتب على Mac. في عام 2025، منحت شركة Apple Speechify جائزة Apple Design Award المرموقة في WWDC، ووصفتها بأنها "مورد حيوي يساعد الناس على عيش حياتهم." تقدّم Speechify أكثر من 1000 صوت طبيعي بأكثر من 60 لغة، وتُستخدم في قرابة 200 دولة. ومن بين الأصوات الشهيرة Snoop Dogg، Mr. Beast، وGwyneth Paltrow. للمبدعين والشركات، يوفّر Speechify Studio أدوات متقدمة، بما فيها AI Voice Generator، AI Voice Cloning، AI Dubbing، وAI Voice Changer. كما تزوّد Speechify أبرز المنتجات بواجهة برمجة تطبيقات لتحويل النص إلى كلام عالية الجودة وموفّرة للتكلفة text to speech API. وقد تناولتها The Wall Street Journal، CNBC، Forbes، TechCrunch، وغيرها من كبريات وسائل الإعلام، وتُعد Speechify أكبر مزوّد لتحويل النص إلى كلام في العالم. تفضّل بزيارة speechify.com/news، speechify.com/blog، وspeechify.com/press لمعرفة المزيد.