1. الرئيسية
  2. استنساخ الصوت بالذكاء الاصطناعي
  3. استنساخ الصوت على GitHub: نظرة إلى عالم توليد الكلام المتقدّم

استنساخ الصوت على GitHub: نظرة إلى عالم توليد الكلام المتقدّم

Cliff Weitzman

كليف وايتزمان

الرئيس التنفيذي ومؤسس Speechify

apple logoجائزة آبل للتصميم لعام 2025
أكثر من 50 مليون مستخدم

استنساخ الصوت، تقنية تهدف إلى تكرار كلام الشخص بأكبر قدر من الواقعية، شهد تقدّمًا ملحوظًا عبر السنوات. باستخدام تقنية تُعرف باسم من التحقّق من المتحدث إلى تحويل النص إلى كلام (SV2TTS)، يمكن استخلاص صوت الشخص من حديثه بكفاءة واستعماله لتوليد كلام اصطناعي.

كيف يعمل برنامج استنساخ الصوت؟

تعتمد برامج استنساخ الصوت عادةً على إطار تعلّم عميق يُسمى PyTorch، وتحتاج في العادة إلى قدر كافٍ من البيانات (ملفات صوتية) لمتحدث معيّن لاستنساخ صوته بفاعلية. تُستخدم هذه المجموعة لاحقًا لتدريب نماذج المولّد والصوتي (synthesizer وvocoder) ضمن عملية تتضمن معلمات ومتطلبات متعددة.

في جوهرها، يتكوّن البرنامج من ثلاثة عناصر رئيسية: المشفّر (encoder)، والمولّد (synthesizer)، والصوتي (vocoder). يُنتج المشفّر تضمينات (embeds) لصوت المتحدث، ويستخدم المولّد هذه التضمينات لإنشاء مخطط طيفي (spectrogram)، ثم يحوّل الصوتي هذا المخطّط الطيفي إلى كلام مسموع.

تستطيع هذه التقنية العمل على كلٍّ من وحدة المعالجة المركزية (CPU) ووحدة المعالجة الرسومية (GPU)، مع توفّر حلول متوافقة مع CUDA لتسريع الأداء عبر GPU. وعلى الرغم من إمكانية التشغيل على CPU، يُنصح باستخدام GPU للمهام الآنية لاستنساخ الصوت نظرًا لقدراته المعالجة المتفوّقة.

انعكاسات استنساخ الصوت على GitHub

يستضيف GitHub، بوصفه منصة مفتوحة المصدر، عددًا من المستودعات لتطبيقات استنساخ الصوت. مشروعات استنساخ الصوت على GitHub مثل تلك التي يديرها CorentinJ وBenaAndrew توفّر مساحة للمطورين للتعاون، والتحسين، وتوزيع تقنيات استنساخ الصوت. غالبًا ما تتضمّن هذه المشاريع نماذج مدرَّبة مسبقًا، ما يُسهّل على المستخدمين استنساخ الأصوات دون الحاجة إلى موارد حوسبية كبيرة أو خبرة عميقة في التعلم العميق.

تقدّم العديد من مشاريع GitHub، مثل مستودع Real-Time-Voice-Cloning، مجموعة من سكربتات بايثون وأدوات لمهام تحويل النص إلى كلام (TTS) وتحويل الصوت. أدوات مثل demo_toolbox.py تمكّن المستخدمين من تجربة التقنية، بينما توفّر ملفات README.md معلومات شاملة حول تثبيت المشروع واستخدامه.

الأغراض والميزات في استنساخ الصوت

يخدم استنساخ الصوت أغراضًا متنوعة، من الترفيه والفن إلى إتاحة الوصول وكشف الاحتيال. يسمح بتحويل نص إلى كلام متعدد المتحدثين، ما يسهّل حوارات واقعية في المحتوى متعدد الوسائط. ويمكن أيضًا استخدامه لإعادة إنشاء أصوات أشخاص فقدوا قدرتهم على الكلام لأسباب طبية.

تشمل أبرز ميزات برامج استنساخ الصوت القدرة على محاكاة الفروق الدقيقة الفريدة في كلام الشخص، ودعم لغات متعددة، وضبط سرعة ونغمة الحديث، والتوافق مع أنظمة تشغيل مثل Linux. وغالبًا ما تتضمّن هذه البرامج واجهات برمجة التطبيقات (APIs) لتسهيل التكامل مع تطبيقات أخرى.

أفضل 9 برامج لاستنساخ الصوت

  1. استنساخ صوت Speechify: استنساخ صوت Speechify من بين الأفضل المتاحة. يستنسخ صوتك فورًا: اضغط زر التسجيل في متصفحك وتحدّث لـ 30 ثانية، وسيقوم Speechify AI باستنساخ صوتك على الفور.
  2. Real-Time-Voice-Cloning: مشروع مفتوح المصدر على GitHub يوفّر أداة مبنية بلغة بايثون تخلق استنساخًا صوتيًا شبه لحظي وبأقل قدر من البيانات.
  3. iSpeech: حل TTS عالي الجودة يقدّم خدمات استنساخ الصوت إلى جانب حزمة واسعة من خدمات الصوت.
  4. Resemble AI: منصة متقدمة توفّر استنساخ صوت مخصّص مع واجهة برمجة تطبيقات سهلة الاستخدام.
  5. Lyrebird: أصبحت الآن جزءًا من Descript، وكانت Lyrebird معروفة بقدراتها المميّزة في استنساخ الصوت، ما يتيح للمستخدمين إنشاء "أصوات رقمية" فريدة.
  6. CereVoice Me: خدمة من CereProc تتيح إنشاء صوت TTS فريد انطلاقًا من تسجيلات صوت المستخدمين.
  7. Voicepods: تستخدم ذكاءً اصطناعيًا متقدّمًا لتحويل النص إلى كلام واقعي وتقدّم ميزات استنساخ الصوت.
  8. Modulate: تتيح للمستخدمين إنشاء "أقنعة صوتية" فريدة وقابلة للتخصيص.
  9. Voicery: معروفة بتوليد كلام عالي الجودة، بما في ذلك الأصوات المخصّصة.

عمومًا، لاستخدام هذه البرامج، يلزمك تثبيت الحِزم المطلوبة عبر pip، وتلبية متطلبات ملف requirements.txt للتبعيات اللازمة، ثم اتباع التعليمات المرفقة. أغلب المشاريع متوافقة مع دفاتر Jupyter ‏(ipynb)، وواجهة سطر الأوامر (CLI)، وحتى Google Colab.

استمتع بأكثر الأصوات تطوراً بالذكاء الاصطناعي، وملفات غير محدودة، ودعم على مدار الساعة

جرّب مجاناً
tts banner for blog

شارك هذا المقال

Cliff Weitzman

كليف وايتزمان

الرئيس التنفيذي ومؤسس Speechify

كليف وايتزمان مدافع عن ذوي عسر القراءة والرئيس التنفيذي ومؤسس تطبيق Speechify، أفضل تطبيق لتحويل النص إلى كلام في العالم، إذ نال أكثر من 100,000 تقييم بخمس نجوم وتصدّر متجر التطبيقات ضمن فئة الأخبار والمجلات. في عام 2017، أدرجته فوربس ضمن قائمة 30 تحت 30 تقديراً لجهوده في جعل الإنترنت أكثر سهولة وصولاً لذوي صعوبات التعلّم. ظهر كليف وايتزمان في منصات مثل EdSurge وInc. وPC Mag وEntrepreneur وMashable، وغيرها من وسائل الإعلام الرائدة.

speechify logo

عن سبيتشيفاي

أفضل قارئ لتحويل النص إلى كلام

سبيتشيفاي هو المنصة الرائدة عالميًا لتحويل النص إلى كلام، يثق به أكثر من 50 مليون مستخدم ومدعوم بأكثر من 500,000 مراجعة خماسية النجوم عبر تطبيقاته الخاصة بتحويل النص إلى كلام على iOS، أندرويد، إضافة كروم، تطبيق الويب، وتطبيقات سطح المكتب لماك. في عام 2025، منحت آبل سبيتشيفاي جائزة Apple Design Award المرموقة في WWDC، واصفةً إياه بأنه “مورد أساسي يساعد الناس على عيش حياتهم.” يقدم سبيتشيفاي أكثر من 1,000 صوت طبيعي في أكثر من 60 لغة، ويُستخدم في ما يقرب من 200 دولة. من بين الأصوات المشهورة: سنوب دوج وغوينث بالترو. للمبدعين والشركات، Speechify Studio يوفر أدوات متقدمة، بما في ذلك مولِّد الصوت بالذكاء الاصطناعي، استنساخ الصوت بالذكاء الاصطناعي، الدبلجة بالذكاء الاصطناعي، ومغيّر الصوت بالذكاء الاصطناعي. كما يدعم سبيتشيفاي منتجات عالمية رائدة بجودة عالية وبأسعار مناسبة عبر واجهة برمجة تطبيقات تحويل النص إلى كلام الخاصة به. ظهر في وول ستريت جورنال، سي إن بي سي، فوربس، تيك كرانش، وغيرها من المنصات الإخبارية الرائدة، ويُعدّ سبيتشيفاي أكبر مزود لخدمة تحويل النص إلى كلام في العالم. زر speechify.com/news، speechify.com/blog، وspeechify.com/press لمعرفة المزيد.