ما هو التحويل العصبي من النص إلى كلام؟
الكلام شكل معقّد من أشكال التواصل. بالإضافة إلى نقل المعنى، تتأثّر كلماتك بالسياق وتمتلئ بالعواطف. لهذا السبب، قد يبدو استنساخ دقّة اللغة المحكية أمرًا يفوق قدرة الآلة. ومع ذلك، ومع التقدّم الأخير في تحويل النص إلى كلام (TTS)، لم تكن الآلات أقرب إلى الصوت البشري من قبل. أنهت تقنية WaveNet، التي طوّرها باحثون من شركة DeepMind ومقرها لندن في عام 2016، رحلةً امتدّت لعقود لتوليد كلام طبيعي. تستخدم هذه التقنية شبكات عصبية مُدرَّبة على تسجيلات كلام حقيقية لتوليد كلام يقترب كثيرًا من الصوت البشري. أدّى الجمع بين الشبكات العصبية وتعلّم الآلة إلى ظهور التحويل العصبي من النص إلى كلام، الذي حسّن بشكل كبير استجابة الكلام المحوسب وواقعيته. تستعرض هذه المقالة كل ما تحتاج معرفته حول هذه التقنية المبتكرة وكيفية الحصول عليها.
ما هو تحويل النص إلى كلام العصبي؟
تحويل النص إلى كلام العصبي هو تحويل النص إلى كلام مدعوم بالذكاء الاصطناعي والتعلّم العميق. نتيجة لذلك، يُعد توليد الكلام العصبي أكثر طبيعية وتعبيرية بكثير من توليد الكلام التقليدي. يظل تحويل النص إلى كلام العصبي شكلاً من أشكال كلام الآلة—إلا أنه مبني على شبكات عصبية تُحاكي آليات الدماغ البشري. ومثل الدماغ، تستخدم هذه الأنظمة شبكات معقّدة للغاية من الروابط لمعالجة البيانات، وتتشكّل مسارات جديدة عبر التكرار، مما يجعل تنشيطها أسهل في المرة التالية. تُعالج الشبكات العصبية المستخدمة في تحويل النص إلى كلام العصبي مجموعات بيانات كبيرة لتعلّم المسارات المثلى من المدخلات إلى المخرجات. هذا شكل من أشكال تعلّم الآلة حيث تستخدم هذه الشبكات مُفكِّك ترميز صوتي عصبي (neural vocoder) لتخليق موجات الكلام دون تدخّل المستخدم. ولكي يُحاكي نظام TTS العصبي الصوت البشري عن كثب، يتطلّب الوصول إلى عدة نماذج شبكات عصبية عميقة. تشمل هذه النماذج النموذج الصوتي، ونموذج التنغيم، ونموذج المُدّة. يُعدّ النموذجان الأخيران معلمات عَروضية لأنهُما يحدّدان خصائص الكلام غير الصوتية مثل التنغيم والإيقاع. تُعرف هذه الخصائص بالعُروضية (prosody). أما السمات الصوتية، فتحدّد طاقة الطيف الصوتي ونغمته. حتى الآن، ظهرت عدة نماذج عصبية ثورية في تكنولوجيا تحويل النص إلى كلام.
- WaveNet: نموذج توليدي ذاتي الانحدار يستخدم شبكة عصبية تلافيفية بالكامل
- Deep Voice: نموذج معقّد يتألف من أربع شبكات عصبية تشكّل سير معالجة متكاملًا يركّز بشدة على الفونيمات
- Tacotron: أول نموذج من النهاية إلى النهاية يتبع بنية المُرمِّز/فكّ الترميز المألوفة
لاحقًا، استُبدلت هذه النماذج بإصدارات أحدث وأكثر تطوّرًا، بما في ذلك:
- Deep Voice 2
- Deep Voice 3
- Parallel WaveNet
- Tacotron 2
ظهرت نماذج جديدة قائمة على المحوّلات (Transformers) في السنوات الأخيرة، تهدف إلى معالجة مشكلات نماذج TTS السابقة.
لِماذا يُستخدم تحويل النص إلى كلام؟
تكنولوجيا تحويل النص إلى كلام (TTS) لها مجموعة واسعة من التطبيقات التي تعزّز التواصل وإمكانية الوصول والراحة عبر مجالات متعددة. في قطاع التعليم، تُساعد TTS المتعلّمين الذين يواجهون صعوبات في القراءة أو ذوي الإعاقات البصرية بتحويل النص الرقمي إلى كلمات منطوقة، مما يضمن وصول المحتوى للجميع. أصبح إنتاج الكتب المسموعة أكثر كفاءة بفضل TTS، ما يسمح بالتحويل السريع للمحتوى النصي إلى صيغ سمعية. بالنسبة لذوي الإعاقات البصرية، تسهّل TTS المهام اليومية، من قراءة البريد الإلكتروني إلى تصفح المواقع. ومع ذلك، لا يلزم أن تكون لديك إعاقة للاستفادة من تحويل النص إلى كلام؛ يمكن للجميع استخدام تطبيقات TTS لرفع الإنتاجية، والمساعدة في تعدد المهام، أو ببساطة لإراحة العينين. في مجال النقل، تستخدم أجهزة GPS TTS لتقديم توجيهات منطوقة، لتُبقي أعين السائقين على الطريق. بالإضافة إلى ذلك، توظّف الشركات TTS في أنظمة خدمة العملاء الآلية، بينما يدمج المطوّرون التقنية في المساعدين الافتراضيين والأجهزة المنزلية الذكية. تجعل قابليتها للتكيّف وجودتها المتطوّرة تحويل النص إلى كلام أداة لا غنى عنها في العديد من التطبيقات الحديثة.
ما أفضل تطبيقات التحويل العصبي من النص إلى كلام؟
الآن بعد أن تعرّفت على ماهية تحويل النص إلى كلام العصبي، فلنلقِ نظرة على كيفية الاستفادة من هذه التقنية المبتكرة. فيما يلي أفضل ثلاثة تطبيقات TTS بأقرب الأصوات إلى الطبيعيّة.
Amazon Polly
Amazon Polly هي خدمة سحابية للتحويل من النص إلى كلام تقدّم أكثر من 90 صوتًا طبيعيًا عبر 34 لغة ولهجة. تُعدّ تقنية تحويل النص إلى كلام العصبي من أقوى مزايا المنصّة. وبوصفها لوحة تحكّم عبر الويب، يمكن استخدام Amazon Polly على منصات متعددة، بما في ذلك أجهزة iOS وAndroid. كما أنها متاحة كـ API للتكامل مع تطبيقات الطرف الثالث.
NaturalReader
NaturalReader هو برنامج لتحويل النص إلى كلام يضم ميزات متنوعة، منها خيارات تخصيص النطق وأنماط الصوت، وميزة التعرف الضوئي على الحروف (OCR). توفّر الأداة أكثر من 150 صوتًا طبيعيًا بأكثر من 20 لغة. يمكنك تنزيل NaturalReader على أجهزة Windows وMac، وكذلك لأجهزة iOS وAndroid.
Speechify
يُعد Speechify أفضل خيار لتحويل النص إلى كلام في هذه القائمة؛ فهو أداة مزوّدة بميزات متقدمة عديدة—منها مسح OCR، وتخصيص الصوت، والترجمة الفورية. تتميز هذه الأداة المبتكرة بأكثر من 130 صوتًا عالي الجودة تشبه الأصوات البشرية بشكل مذهل. بالإضافة إلى ذلك، تتوفر أكثر من 30 لغة ولهجة، بما في ذلك الإسبانية واليابانية والصينية. وما يميّز Speechify حقًا هو واقعية التعابير العاطفية في الأصوات مقارنةً ببرمجيات التحويل الأخرى. يتوفر Speechify على جميع الأجهزة الرئيسية؛ يمكنك تنزيل تطبيق جوّال لأجهزة iOS وAndroid، أو تطبيق سطح مكتب لأجهزة Mac وWindows، أو نسخة ويب لأي متصفح.
Speechify—كنز من الأصوات البشرية والطبيعية
بفضل تعدد استخدامات Speechify، أصبح بسرعة واحدًا من أبرز أدوات تحويل النص إلى كلام في السوق. يقدّم Speechify درجة عالية من التخصيص—من سرعة القراءة إلى اختيار الأصوات—وهو ما لا توفره كثير من منصات التحويل الأخرى. كما يوفّر عددًا لافتًا من التكاملات، بما في ذلك واجهة برمجة التطبيقات (API). ومع تطبيق مخصص لكل منصة، يحظى مستخدمو Speechify بتجربة سلسة في كل مرة. وإذا أضفت جودة أصوات Speechify العالية إلى ذلك، اتضح سبب كون هذه الأداة الخيار المفضل لملايين المستخدمين حول العالم. حمّل Speechify مجانًا اليوم واسمع بنفسك كم تبدو أصوات المنصة طبيعية.
الأسئلة الشائعة
هل توجد خدمة لتحويل النص إلى كلام تبدو طبيعية؟
نعم، هناك تقنية لتحويل النص إلى كلام تبدو طبيعية، وتُعرف بتحويل النص إلى كلام العصبي (neural TTS).
ما أكثر الأصوات طبيعيةً في تحويل النص إلى كلام؟
يقدّم Speechify بعضًا من أكثر الأصوات طبيعيةً بين أدوات تحويل النص إلى كلام.
ما هي فوائد تحويل النص العصبي إلى كلام؟
تبدو الأصوات الناتجة عن نظام تحويل النص العصبي إلى كلام أكثر طبيعيةً بكثير من معظم أصوات TTS التقليدية. كما أنها شديدة المرونة ويمكنها التبديل بسهولة بين أساليب الكلام.
ما الفرق بين تحويل النص إلى كلام وتحويل الصوت إلى كلام؟
أدوات تحويل النص إلى كلام تحوّل النص إلى كلام منطوق، وبالتالي تحتاج إلى إدخال نص لتعمل. في المقابل، تستخدم أدوات تحويل الصوت إلى كلام تقنيات التعرّف على الكلام للاستجابة للصوت آنياً. تُعرف هذه الأدوات بالمساعدين الافتراضيين، مثل Alexa وSiri وCortana.
هل يبدو تحويل النص العصبي إلى كلام طبيعيًا؟
نعم، يبدو تحويل النص العصبي إلى كلام طبيعيًا بشكل لافت. فهو يعتمد على الشبكات العصبية المتكررة، ما ينتج كلامًا مركّبًا شديد القرب من الكلام البشري وبطبيعية عالية.
هل يمكن لتحويل النص العصبي إلى كلام إنشاء أصوات مخصصة؟
نعم، يمكن استخدام تحويل النص العصبي إلى كلام لابتكار أصوات مخصّصة تناسب سيناريوهات استخدام متعددة، من قارئات الشاشة إلى روبوتات الدردشة لدعم العملاء، لتحقيق تجربة استخدام سلسة. تُعد Azure من بين أبرز المزوّدين لهذه الأصوات، إذ توفّر تحكمًا كاملاً في معلمات الكلام بفضل لغة ترميز التوليف (SSML) ومجموعة أدوات للاختبار.

