توليد الكلام هو مجالٌ مثير في الذكاء الاصطناعي طوّرته على نطاق واسع شركات تقنية كبرى مثل مايكروسوفت وأمازون وGoogle Cloud. ويعتمد على خوارزميات التعلم العميق والتعلم الآلي ومعالجة اللغة الطبيعية لتحويل النص المكتوب إلى كلام منطوق.
أساسيات توليد الكلام
توليد الكلام، المعروف أيضًا بتحويل النص إلى كلام (TTS)، يتضمن الإنتاج التلقائي للصوت البشري. تُستخدم هذه التقنية على نطاق واسع في تطبيقات متنوعة مثل خدمات النسخ الفوري، وأنظمة الرد الصوتي الآلية، والتقنيات المساعدة لذوي البصر. ويُحقَّق نطق الكلمات — ومنها "robot" — عبر تقسيم الكلمات إلى وحدات صوتية أساسية أو فونيمات وربطها معًا.
ثلاث مراحل لتوليد الكلام
تمر مولدات الكلام بثلاث مراحل رئيسية: تحليل النص، تحليل الإيقاع والتنغيم (البرسوديا)، وتوليد الصوت.
- تحليل النص: يُحلَّل النص المطلوب ويُجزَّأ إلى فونيمات، وهي أصغر وحدات الصوت. تُقسَّم الجملة إلى كلمات، ثم تُفكَّك الكلمات إلى فونيمات.
- تحليل البرسوديا: تُحدَّد النبرة وأنماط التشديد وإيقاع الكلام. يستعين المُولِّد بهذه السمات لإنتاج كلام أقرب ما يكون إلى كلام البشر.
- توليد الصوت: استنادًا إلى القواعد والأنماط، يُرَكِّب المُولِّد الأصوات انطلاقًا من الفونيمات ومعلومات البرسوديا. وهناك منهجان رئيسيان: المُولِّدات التقليدية القائمة على الاقتطاع (concatenative) ومولدات اختيار الوحدة (unit selection). تستخدم الأولى مقاطع صوتية مسجّلة مسبقًا، بينما تنتقي الثانية أنسب الوحدات من قاعدة بيانات صوتية كبيرة.
أكثر تقنيات تحويل النص إلى كلام واقعية وأفضل TTS لأندرويد
مع أن كثيرًا من أنظمة TTS تُنتج كلامًا عالي الجودة وواقعيًا، تبرز خدمة Google TTS ضمن Google Cloud، إلى جانب Alexa من أمازون. تستفيد هذه الأنظمة من خوارزميات التعلم الآلي والتعلم العميق لتوليد كلام سلس يصعب تمييزه عن الصوت البشري. أمّا أفضل محرك TTS لأجهزة أندرويد فهو Google Text-to-Speech، إذ يدعم طيفًا واسعًا من اللغات ويوفّر أصواتًا عالية الجودة.
أفضل مكتبة بايثون لتحويل النص إلى كلام
بالنسبة لمطوّري بايثون، تبرز مكتبة gTTS (Google Text-to-Speech) لبساطتها وجودتها. فهي تتصل بواجهة برمجة تطبيقات تحويل النص إلى كلام في Google Translate، ما يوفّر حلًا سهل الاستخدام وعالي الجودة.
التعرّف على الكلام وتحويل النص إلى كلام
بينما يحوّل توليد الكلام النص إلى صوت، تقوم تقنية التعرّف على الكلام بالعكس. أنظمة التعرّف التلقائي على الكلام (ASR)، مثل IBM Watson أو Siri من آبل، تحوّل الكلام البشري إلى نص، وهي تشكّل الأساس للمساعدين الصوتيين وخدمات النسخ الفوري.
نطق كلمة "Robot"
يختلف نطق كلمة "robot" قليلًا باختلاف لهجة المتكلم، لكن النطق القياسي في الإنجليزية الأمريكية هو /ˈroʊ.bɒt/. إليك التفصيل:
- المقطع الأول "ro" يُنطق مثل 'row' كما في فعل التجذيف.
- المقطع الثاني "bot" يُنطق مثل 'bot' في كلمة 'bottom'، ولكن بدون جزء 'om'.
مثال على برنامج تحويل النص إلى كلام
Google Text-to-Speech مثال بارز على برنامج تحويل النص إلى كلام. يحوّل النص المكتوب إلى كلام منطوق ويُستخدم على نطاق واسع في خدمات ومنتجات Google مثل Google Translate وGoogle Assistant وأجهزة أندرويد.
أفضل محرك TTS لأندرويد
أفضل محرك TTS لأجهزة أندرويد هو Google Text-to-Speech. يدعم عدة لغات، ويضم مجموعة متنوعة من الأصوات للاختيار بينها، ومُدمج ضمن أندرويد لتقديم تجربة استخدام سلسة.
الفرق بين المُولِّدات القائمة على الاقتطاع ومولدات اختيار الوحدة
الاقتطاع (concatenative) واختيار الوحدة (unit selection) تقنيتان رئيسيتان تُستخدمان في مرحلة توليد الصوت ضمن مُولِّد الكلام.
- التركيب الصوتي التجميعي: يعمل بربط عينات مُسجَّلة مسبقًا من الكلام البشري. يُقسَّم الكلام المُسجَّل إلى وحدات صغيرة، تمثل كلٌّ منها فونيمًا أو مجموعة فونيمات. عند توليد كلام جديد، تُنتقى الوحدات المناسبة وتُركَّب معًا لتشكيل الكلام النهائي.
- مولّدات الصوت باختيار الوحدات: تعتمد هذه الطريقة أيضًا على قاعدة بيانات كبيرة من الكلام المُسجَّل، لكنها تستخدم خوارزمية انتقاء أكثر تطوّرًا لاختيار أفضل وحدة تطابق كل مقطع من النص. الغاية تقليل قدر «الربط» المطلوب، فينتج كلامٌ أقرب للطبيعة. تراعي عوامل مثل النبرة، والسياق الصوتي، وحتى مشاعر المتحدث عند اختيار الوحدات.
أفضل 8 برامج وتطبيقات لتحويل النص إلى كلام
- Google Text-to-Speech: برنامج تحويل نص إلى كلام متعدد الاستخدامات ومُدمَج في أندرويد. يدعم لغات عدة ويوفّر أصواتًا عالية الجودة.
- Amazon Polly: خدمة من AWS تستخدم تقنيات التعلّم العميق المتقدمة لتوليد كلام يشبه كلام البشر.
- Microsoft Azure Text to Speech: نظام قوي لتحويل النص إلى كلام يعتمد على الشبكات العصبية ويقدّم كلامًا طبيعيًا.
- IBM Watson Text to Speech: يستفيد من الذكاء الاصطناعي لإنتاج كلام بأداء ونبرات قريبة من البشر.
- Apple's Siri: سيري ليست مجرد مساعد صوتي؛ فهي توفّر أيضًا تحويلًا للنص إلى كلام بجودة عالية وبعدة لغات.
- iSpeech: منصة شاملة لتحويل النص إلى كلام تدعم صيغًا متعددة، بما في ذلك WAV.
- TextAloud 4: برنامج تحويل نص إلى كلام لنظام ويندوز، يحوّل نصوصًا من صيغ متنوعة إلى كلام.
- NaturalReader: خدمة تحويل نص إلى كلام عبر الإنترنت تقدّم باقة من الأصوات الطبيعية.

