يستخدم الكثيرون خدمات تحويل النص إلى كلام يوميًا، إلى جانب المساعدين الافتراضيين. لكن ما قد لا يعرفونه هو أن المجالين يتشاركان الكثير من آليات العمل. وكلما تقدّمت التكنولوجيا، تحسّنت جودة التطبيقات التي نستخدمها في حياتنا اليومية.
وينطبق الأمر نفسه على تطبيقات تحويل النص إلى كلام والمساعدين الافتراضيين. هناك عدد من الشركات التي تقدّم نتائج لافتة في هذا المجال، ومن بينها جوجل بتقنية WaveNet الخاصة بها.
ما هو Google WaveNet؟
WaveNet هي شبكة عصبية صناعية مصممة لتوليد الصوت الخام. الفريق وراءها هو DeepMind، وهي شركة من لندن تركز على الذكاء الاصطناعي. أدّى طرح هذه التقنية إلى إحداث تغيير كبير في منصة Google Cloud، ونقل كل شيء إلى مستوى جديد.
واحدة من أبرز المزايا التي قدّمتها DeepMind التابعة لجوجل مقارنة بأنظمة تحويل النص إلى كلام السابقة هي أن الصوت أصبح أجود وأكثر قربًا للطبيعة. عندما قُدّمت عام 2016، كانت أنظمة تحويل النص إلى كلام غير قادرة على إنتاج صوت يبدو طبيعيًا.
تفوقت تقنية WaveNet في تحويل النص إلى كلام على سابقاتها في كل جانب. الفكرة وراء هذه التقنية بسيطة نسبيًا. يستطيع البرنامج استخدام ملفات صوتية خام مثل WAV كمُدخل والاستفادة من التكامل مع واجهة برمجة تطبيقات Google ومفتاح API.
اليوم، لدينا طرق عديدة لاستخدام هذه التقنية، بفضل قدرتنا على تسخير هذه الخوارزميات المعقّدة. تتنافس العديد من الشركات حول العالم لتقديم أفضل منتج ممكن. وذلك أمر إيجابي؛ فبالنسبة للمستخدمين النهائيين، يعني ذلك ببساطة المزيد من الخيارات التي تُسهّل العثور على برنامج يلبي احتياجاتهم.
كيف تعمل WaveNet
WaveNet هي نسخة من CNN أو الشبكة العصبية الالتفافية العميقة (deep convolutional neural network). تأخذ CNN الإشارة الخام من المُدخل ثم يمكنها توليف المخرج عيّنةً بعيّنة.
بالطبع، الأساس وراء كل شيء هو تعلّم الآلة ومعالجة اللغة الطبيعية والتعلّم العميق والذكاء الاصطناعي. في الإصدارات السابقة من تطبيقات تحويل النص إلى كلام، كانت الفكرة إنشاء قاعدة بيانات من الفونيمات، وكان التطبيق يختار الفونيم المناسب، أو على الأقل الأقرب إلى الصوت المطلوب.
لكن تركيب هذا اللغز ليس سهلًا. يحتاج البرنامج إلى فهم كيفية عمل اللغة، بما في ذلك نبرتها وإيقاعها وديناميكياتها، وإلا فستبدو الأصوات الخارجة من مكبر الصوت مصطنعة.
وكحال معظم برامج تحويل النص إلى كلام، تستخدم WaveNet أيضًا أشكالًا موجية صوتية حقيقية — مثل النماذج المعيارية أو التراكمية. بهذه الطريقة، يمكن للبرنامج تحليل قواعد الصوتيات (أو الأصوات أدقّ)، وكيف تتغير مع الزمن.
وهذا يتيح للبرنامج توليد أنماط تبدو كلامًا بشريًا اعتمادًا على عينات الكلام. وما يلفت الانتباه هو أن البرنامج يولّد المخرجات بناءً على المعلومات المُزوَّدة له.
إليك ما يعنيه ذلك في العالم الحقيقي: إذا كنت تتحدث الإيطالية، على سبيل المثال، يمكن للبرنامج مساعدتك في إنتاج كلام بالإيطالية. كان هذا التقدّم بمثابة تغيير هائل آنذاك ومهّد الطريق لواجهات برمجة تطبيقات تحويل النص إلى كلام الأخرى.
أمثلة على WaveNet في التطبيق
عندما قدّمت جوجل البرنامج، كان يحتاج إلى قدرة حوسبة كبيرة جدًا لاستخدامه في الحياة الواقعية. لكن هذا تغيّر كثيرًا في السنوات التالية. ساعدت هذه الواجهة البرمجية في البداية على تشغيل أصوات مساعد جوجل، والتي قدّمتها الشركة عبر منصات متعددة.
تُعد WaveNet أيضًا أداة رائعة إذا كنت تبحث عن برنامج تحويل نص إلى كلام. يبدو الصوت أكثر واقعية، ما يجعل التجربة برمتها أمتع. يمكنك استخدامها للاستماع إلى آخر الأخبار أو حلقات البودكاست أو أي شيء آخر يخطر ببالك.
وهذا مجرد البداية. يمكن أن تساعد الفكرة الكاملة وراء هذه العملية أيضًا الأشخاص ذوي الإعاقات الكلامية على استعادة أصواتهم. يُطلق على استنساخ الصوت اسم توليد الصوت، وإمكاناته مذهلة. على سبيل المثال، يمكن للأشخاص الذين يعانون من مشاكل في النطق، نظريًا، استخدام عينة من صوتهم ودمجها مع أدوات تحويل النص إلى كلام. قد يعيد هذا إليهم صوتهم.
لا نعرف بعد كل ما يخبئه المستقبل لبرامج تحويل النص إلى كلام، لكن يمكننا الافتراض أنه سيكون مبهرًا. من أجمل ما في هذا المجال الابتكاري وجود العديد من الشركات المختلفة التي تعمل على منتجات تحويل النص إلى كلام.
وعندما يعمل الجميع نحو الهدف نفسه، يكون من المرجّح أن نرى نتائج مذهلة.
Speechify - توليد الصوت
من بين البرامج التي يجدر بك تجربتها بأقرب فرصة هو Speechify. إنه تطبيق لتحويل النص إلى كلام، ويمكنك استخدامه على أي جهاز تقريبًا. ومتاح على iOS، Android، وأجهزة Mac وحتى كإضافة لمتصفح Google Chrome.
يمكن لـ Speechify قراءة أي نوع من المحتوى؛ من ملفات PDF إلى المستندات ورسائل البريد الإلكتروني وأي شيء آخر على جهازك. ومن أبرز مزاياه مرونته وقابليته العالية للتخصيص.
يمكنك تغيير سرعة القراءة، اختيار أصوات مختلفة، ضبط النبرة وما إلى ذلك. ويجدر بالذكر أيضًا أن Speechify يقدم ميزة OCR، ما يعني أنه يمكنك التقاط صورة لكتاب، وسيقرأه لك التطبيق.
التطبيق مصمّم خصيصًا للمصابين بـ عسر القراءة، واضطراب نقص الانتباه (ADD)، ولمن يتعلّمون لغة جديدة، وأي شخص يريد إنجاز المزيد أثناء قراءة الكتب. إنه تطبيق شامل سيغيّر نظرتك إلى القراءة.
Speechify سهل الاستخدام، ولن تحتاج إلى دليل مطوّل لتتعلّم طريقة استخدامه.
الأسئلة الشائعة
ما استخدام WaveNet؟
شبكة عصبية عميقة قادرة على توليد صوت خام. وهو نظام لتحويل النص إلى كلام يقدّم أصوات WaveNet بطابع واقعي، ويمكن تدريبه على تسجيلات صوتية حقيقية. ونتيجة لذلك، يتفوّق أداؤه على خدمة تحويل النص إلى كلام في Google Cloud.
يُستخدم اليوم ضمن أصوات مساعد Google.
ما هو نموذج WaveNet؟
يعتمد النموذج على بنية PixelCNN. وللتعامل مع الاعتماديات بعيدة المدى اللازمة لإنشاء ناتج خام، تستخدم البنية التلافيف السببية المتوسّعة (dilated causal convolutions).
إضافة تلافيف CNN متوسّعة تُسهّل وتُسرّع التدريب، وتمكّن من الإحالة إلى آلاف الخطوات الزمنية. كما يمكنها العمل بسرعة تفوق الزمن الحقيقي بـ20 مرة.
ما الفرق بين WaveNet والشبكات العصبية الالتفافية (CNN)؟
البرنامج مبني على شبكة عصبية التفافية عميقة (CNN). ما يعني أن WaveNet ليس سوى تطبيقًا واحدًا لـ CNN. وتستخدم شركات أخرى تقنية مشابهة مثل Microsoft وAmazon (إضافةً إلى SSML)، وتقدّم جودة عالية ونتائج ممتازة.
إذا كنت تبحث عن أفضل تطبيق لتحويل النص إلى كلام، فاتجه إلى Speechify. ورغم أن منصات أخرى تقدّم مزايا بعينها، فإن Speechify سهل الاستخدام، بلا تعقيد ومباشر لأي مستخدم يسعى لتحويل النص إلى كلام منطوق.

