قطعت أصوات الذكاء الاصطناعي شوطًا طويلًا منذ ظهرت هذه التقنية أول مرة. ومع ذلك، لا تزال بعض الأصوات الاصطناعية تبدو آلية إلى حدّ يجعلها غير مقنعة كبشر. إذا كنت تتساءل عما إذا كانت هناك أصوات تشبه الأصوات البشرية إلى درجة يصعب تمييزها، فستجد الإجابة هنا.
كيف يقلّد الذكاء الاصطناعي الكلام البشري
تقنية تحويل النص إلى كلام ليست جديدة. منذ سنوات، بدأ ستيفن هوكينغ التواصل باستخدام صوت مُحَوْسَب، مانحًا العالم لمحة أولى عن هذه التقنية. لكن التطور بلغ حدًا لم نعد معه نكتفي بتحويل الكلمات المكتوبة إلى صوت فحسب، بل يمكننا أيضًا طرح أسئلة والحصول على إجابات من صوت مصطنع يبدو بشريًا.
يَستخدم توليد الكلام البشري الذكاء الاصطناعي، والشبكات العصبية المعقدة، والتعلم العميق لإنشاء أصوات اصطناعية. ببساطة، مولدات الصوت توظّف خوارزميات تحلل وتخزن بيانات من تسجيلات عينات لمؤدي أصوات تُستَخدم لاحقًا لتقليد الكلام البشري.
لاستخدام هذه الأصوات الجاهزة، تستعين التطبيقات بتقنية تحويل النص إلى كلام التي تحول النص الرقمي إلى صوت بشكل فوري عبر توليف الصوت. تقدم العديد من البرامج أصواتًا مختلفة جاهزة للاستخدام، بينما تتيح المنصات الأكثر تطورًا للمستخدمين إنشاء تزييف عميق (deepfake) لأصواتهم. تتضمن هذه العملية تزويد نموذج التعلم الآلي بتسجيلات من صوتك بحيث يمكن لأداة الذكاء الاصطناعي توليد صوت اصطناعي يشبهك تمامًا.
تنتج هذه العملية أصواتًا ذكورية وأنثوية تبدو طبيعية بشكل لافت. ومع ذلك، تبقى بعض الأصوات أكثر واقعية من غيرها، لأن مصممين محترفين يستخدمون أدوات تغيير الصوت لإضافة فلاتر وتأثيرات ديناميكية تجعلها أقرب إلى الصوت البشري.
من أبرز الأصوات الاصطناعية المتقنة Apple Siri وAmazon Alexa وMicrosoft Cortana وGoogle Assistant. وقفة أبعد في تكنولوجيا الذكاء الاصطناعي هي التطور الأخير لـ ChatGPT. ورغم تصنيف المساعدين الصوتيين وChatGPT غالبًا ضمن فئة واحدة، فإن الفارق كبير: صُمِّمت المساعدات للإجابة عن الأسئلة وتنفيذ مهام بسيطة، بينما يستطيع ChatGPT الحفاظ على محادثة، وتخزين معلومات من محادثات سابقة، وتقديم إجابات أعمق.
هل يمكن لصوت الذكاء الاصطناعي أن يبدو تمامًا كصوت إنسان؟
تقدمت أصوات الذكاء الاصطناعي إلى حد يصعب معه التمييز بين صوت الذكاء الاصطناعي وصوت الإنسان. وبحسب الخبراء، فإن كشف الصوت الاصطناعي يتطلب معرفة عميقة بآليات الصوت وعلم الصوتيات/الأكوستيك.
طوّرت الشركات مؤخرًا تقنيات جديدة تجعل صوت الذكاء الاصطناعي يبدو كشخص يعبّر عن مشاعره. شمل هذا الإنجاز إدراج أصوات غير لفظية في النماذج، بما في ذلك التقاط الأنفاس، والضحكات، والتنهدات. صحيح أن كثيرًا من المشاعر البشرية لا تزال بعيدة المنال على أصوات الذكاء الاصطناعي، لكن يمكن القول إن التقنية على المسار الصحيح.
بفضل واقعيتها، تتجه العديد من الشركات الناشئة مؤخرًا إلى توليد صوت بالذكاء الاصطناعي للشخصيات في ألعاب الفيديو، والمساعدين الرقميين، ومقاطع الفيديو المؤسسية. كما كسرت تطورات الذكاء الاصطناعي حواجز اللغة، مما أتاح لصنّاع البودكاست ومنشئي المحتوى الذين يستخدمون أصوات الذكاء الاصطناعي ترجمة محتواهم على وسائل التواصل الاجتماعي إلى لغات متعددة.
تقنية تحويل النص إلى كلام جرى تكييفها أيضًا لمساعدة الأشخاص ذوي صعوبات التعلم، مثل عسر القراءة. يمكن لمن يواجهون صعوبات في القراءة أو ضعفا بصريًا الاستماع إلى المحتوى الرقمي مقروءًا بأصوات طبيعية. وباتت هذه التقنية شائعة أيضًا في إنشاء كتب صوتية من الكتب المطبوعة في مختلف الأنواع الأدبية.
استخدم Speechify لتعليق صوتي سلس بطابع بشري
إذا كنت تبحث عن مولد صوت بأصوات واقعية شبيهة بالبشر، فجرّب Speechify. استنادًا إلى تقنية تحويل النص إلى كلام، يحول التطبيق النص الرقمي إلى صوت باستخدام أكثر أصوات الذكاء الاصطناعي واقعيةً. ستجد مئات الأصوات الجاهزة للاستخدام بأكثر من عشرين لغة على Speechify.
إن رغبت في إنشاء صوت مخصص، يمكنك استخدام أدوات التحرير على المنصة لتغيير سرعة الصوت، ونبرته، وحجمه. وبمجرد أن تكون راضيًا عن النتيجة، يمكنك تنزيل ملف الصوت على جهاز الكمبيوتر بصيغة MP3. يتوافق Speechify مع حواسيب PC وMac، ويمكنك أيضًا تنزيل التطبيق على أجهزة Android وiOS.
جرّب Speechify اليوم وابدأ بإنشاء سرد صوتي طبيعي أقرب إلى الصوت البشري.
الأسئلة الشائعة
أي أصوات الذكاء الاصطناعي تبدو أكثر طبيعية؟
تُعد Speechify أفضل تطبيق لتحويل النص إلى كلام، مع ملايين المستخدمين حول العالم. توفّر المنصة مئات الأصوات الجاهزة للاستخدام، بما في ذلك تقليد أصوات مشاهير مثل Snoop Dogg وGwyneth Paltrow.
هل يمكن للذكاء الاصطناعي استنساخ صوت الإنسان بالكامل؟
جعل التقدّم في تكنولوجيا الذكاء الاصطناعي استنساخ الأصوات البشرية ممكنًا. بل إن التطوّرات الأخيرة تمكّن من محاكاة الانفعالات المعبَّر عنها بالصوت.
ما مزايا وعيوب أصوات الذكاء الاصطناعي؟
من أبرز مزايا أصوات الذكاء الاصطناعي أنها أقل تكلفة من الاستعانة بممثل صوتي. كما أن إنشاء الأصوات بالذكاء الاصطناعي أسرع بكثير من حجز استوديو وتوظيف محترف للتسجيل. إضافةً إلى ذلك، توفّر معظم تطبيقات تحويل النص إلى كلام أدوات تحرير تتيح للمستخدمين تخصيص الصوت بما يلائم احتياجاتهم.
من عيوب أصوات الذكاء الاصطناعي أن قلّة من التطبيقات توفّر لهجات محلية. إضافةً إلى ذلك، يُحوِّل التطبيق النص إلى صوت حرفيًا، في حين يستطيع الممثل الصوتي إجراء تعديلات تجعل الأداء أكثر جاذبية. وأخيرًا، تبقى جودة الصوت تحدّيًا؛ فمع أن بعضها واقعي للغاية، ما زالت هناك أصوات ذكاء اصطناعي تبدو آلية حتى الآن.
هل هناك أشخاص تبدو أصواتهم كأصوات الذكاء الاصطناعي؟
يمكن لممثلي الصوت تقليد أصوات متنوعة بحسب احتياجات العميل، وقد يشمل ذلك نبرة تشبه أصوات الذكاء الاصطناعي.
كم لغة يمكن للذكاء الاصطناعي التحدّث بها؟
يمكن برمجة تقنيات الذكاء الاصطناعي للتحدّث بأي لغة. في Speechify، ستجد 20 لغة متاحة جاهزة للاستخدام.
كم يكلّف إنشاء صوت ذكاء اصطناعي؟
إنتاج أصوات الذكاء الاصطناعي قد يكون مكلفًا. قد تتراوح تكلفة تطوير برمجيات إنشاء الأصوات بين 6000 و300000 دولار. أمّا للمستخدمين الراغبين في إنشاء تعليق صوتي بأصوات الذكاء الاصطناعي، فقد تتراوح التكلفة بين 12 و50 دولارًا شهريًا، وفقًا للمنصة.

