شهدت تقنيات الذكاء الاصطناعي، ولا سيما التوليدي، تطورًا هائلًا. أما تحويل النص إلى كلام فهو أقدم نسبيًا وموجود منذ زمن. ثمة الكثير لفهمه وتصنيفه، وسأفصّله وأنظر إليه من مختلف الزوايا. سواءً كنت مبتدئًا أم محترفًا، فسيمنحك هذا نظرة واضحة على تحويل النص إلى كلام من Google.
حسنًا، قبل الخوض في الموضوع، لا بدّ من وضع القواعد الأساسية. لنعَرِّف بعض المصطلحات ونبني قاعدة راسخة نستند إليها بثبات.
فلنُميِّز هنا بين تقنيتين: تحويل النص إلى كلام وواجهات برمجة التطبيقات، ثم نوضح دور Google Cloud.
ملاحظة المحرر: هل تبحث عن واجهة برمجة تطبيقات رائدة لتحويل النص إلى كلام؟ اطّلع على واجهة برمجة تطبيقات تحويل النص إلى كلام من Speechify الموثَّقة جيدًا وسهلة الاستخدام.
تحويل النص إلى كلام
كتبت بإسهاب عن هذا الموضوع ويمكنك قراءة مدونتي ما هو تحويل النص إلى كلام وكذلك الدليل الشامل لتوليف الكلام للحصول على فهم راسخ. تغطي تلك المقالات الموضوع بعمق، ويمكنك تجاوزها الآن؛ سأختصره في بضع جُمل.
يعتمد تحويل النص إلى كلام على تقنية تُسمى توليف الكلام لتحويل الكلمات إلى كلام مُولَّد بالذكاء الاصطناعي. له حالات استخدام كثيرة، من مساعدة ذوي صعوبات القراءة كعُسر القراءة وضعاف البصر إلى من يسعون ببساطة إلى رفع كفاءة عملهم.
واجهة برمجة التطبيقات (API)
API هي اختصار لواجهة برمجة التطبيقات. تعمل ببساطة كجسر بين تطبيقين. إذا كنت تطوّر تطبيقًا يحتوي على محتوى صوتي ويحتاج إلى وظيفة تحويل النص إلى كلام، فإما أن تبني هذه الوظيفة بنفسك، أو تكتفي باستدعاء واجهة برمجة تطبيقات جاهزة لتحويل النص إلى كلام.
تركّز على بناء تطبيقك، وتعتمد واجهة طرف ثالث كجسر لجلب وظيفة تحويل النص إلى كلام لتوليف نصوصك.
واجهة Google Cloud
هنا يأتي دور Google Cloud. طوّرت Google واجهة برمجة تطبيقات قوية لتحويل النص إلى كلام وتوفّرها للمطورين وفق خطط تسعير متنوعة. يمكن لأي مطوّر يسعى لبناء تطبيقات مخصّصة أو تطبيقات ويب تتطلب وظيفة تحويل النص إلى كلام أن يسد تلك الفجوة ببساطة باستخدام ميزات TTS من Google. نعم، TTS اختصار لتحويل النص إلى كلام.
ستجد دليل البدء السريع في وحدة تحكّم Google Cloud https://cloud.google.com/. هناك ستعثر على الدروس التعليمية، وإدارة حساب الخدمة، والوصول إلى أصوات WaveNet والمزيد.
Google Cloud نفسها منصة سحابية من Google توفّر مجموعة واسعة من الخدمات. يمكنك اختيار استخدام خدمة واحدة أو عدة خدمات أو جميعها. كل ما عليك هو إنشاء مفاتيح وصول للمصادقة لكل واجهة برمجة تطبيقات — الجسر. معظم الخدمات، إن لم يكن جميعها، مدفوعة، مع توفّر عتبة مجانية محدودة أحيانًا.
استحوذت Google على DeepMind في عام 2014 من أجل تقنيات تحويل النص إلى كلام والعمل على تطوير الشبكات العصبية. لذا إن صادفت اسم DeepMind، فهي الآن Google DeepMind والجهتان واحدة.
الآن وبعد أن بات لدينا فهم راسخ، فلنغُص بعمق في واجهة Google Cloud لتحويل النص إلى كلام.
ميزات واجهة Google لتحويل النص إلى كلام
تُعد Google رائدة عالمية في التكنولوجيا وقائدة بلا شك في هذا المجال. وعندما يتعلّق الأمر بواجهة TTS، يمكنك أن تتوقع ميزات رفيعة المستوى تتطور باستمرار.
كلام عالي الدقة
أصوات تحويل النص إلى كلام من Google من بين الأفضل في الصناعة؛ فهي شديدة القرب من الصوت البشري وبنبرات طبيعية. لا يزال مجال TTS في طور النضج، ومن ينجح في توليف صوت أقرب إلى حديث البشر يفوز بالسباق.
تنوع الأصوات
تؤكد Google أنها تقدّم باقة واسعة من الأصوات، كي لا يبدو مشروعك نسخة مكرّرة من سائر المشاريع أو، والأسوأ، شبيهًا بتطبيق منافسيك.
اصنع صوتك الخاص
وهذا يقترب من تقنية استنساخ الصوت. يمكنك إنشاء صوت مخصّص بتسجيلك أو تسجيل شخص آخر بموافقته. ثم يمكنك استخدام هذه العيّنة لتكون الصوت الذي يقرأ كل نصوصك بصوت مسموع.
الأصوات العصبية
تقدّم الأصوات العصبية أعلى جودة بين باقة الأصوات المتاحة. ويمكنك أيضًا تعريب هذه الأصوات لتوسيع نطاق جمهورك عالميًا.
أصوات الاستوديو
أصوات الاستوديو فائقة الجودة وتبدو احترافية تمامًا، كما لو أنها مسجّلة بالأسلوب التقليدي في الاستوديو.
ضبط الصوت
اختر صوتًا ثم اضبط السرعة والنبرة وغيرها لتخصيص الأداء الصوتي بحسب ذوقك.
كم تكلف واجهة برمجة تطبيقات Google لتحويل النص إلى كلام؟
يعتمد ذلك على جودة الصوت وطول النص. كلما كان الصوت أكثر طبيعية ارتفعت الكلفة. ومع ذلك فالأمر نسبي؛ حتى الأصوات عالية الجودة تظل منخفضة التكلفة نسبيًا.
| نوع الصوت | مجانيًا شهريًا | بعد انتهاء الاستخدام المجاني | 
| أصوات Neural2 | من 0 إلى 1 مليون بايت | 16$ لكل مليون بايت | 
| أصوات Polyglot | من 0 إلى 1 مليون بايت | 16$ لكل مليون بايت | 
| أصوات الاستوديو | من 0 إلى 100,000 بايت | 160$ لكل مليون بايت | 
| الأصوات القياسية | من 0 إلى 4 ملايين حرف | 4$ لكل مليون حرف | 
| أصوات Wavenet | من 0 إلى 1 مليون حرف | 16$ لكل مليون حرف | 
ما الفرق بين الحروف والبايتات؟
كما ترى، تتباين الأسعار كثيرًا حسب جودة الصوت. يختلف الترميز والمعالجة لتحويل النص إلى كلام من فئة لأخرى. فمثلًا، في الفئات الأدنى مثل الأصوات القياسية تكون الكلفة أقل ويُحتسب الاستخدام بالحروف.
أي أنه إن كان مشروعك يضم 4 ملايين حرف، فسيكلّفك تحويلها إلى كلام باستخدام الأصوات القياسية 16$.
أما أصوات الاستوديو فتحتاج قدرة معالجة أعلى، ويُحتسب استخدامها بالبايتات. وفي بعض اللغات، كاليابانية مثلًا، قد يتكوّن الحرف الواحد من عدة بايتات.
لذا، وللحصول على تسعير أدق، من المهم معرفة اللغة التي تعمل عليها، وتكوين فكرة تقريبية عن متوسط عدد البايتات لكل حرف وبناء التقدير على ذلك.
كيف تهيئ مشروع واجهة برمجة تطبيقات تحويل النص إلى كلام على Google Cloud؟
- أنشئ حسابًا على Google Cloud أو سجّل الدخول من هذه الصفحة
- أنشئ مشروعًا جديدًا وسمِّه بشكل مناسب
- أضف طريقة دفع. ستُحصَّل الرسوم على ما تستخدمه فقط.
- ثم اختر مشروعك واربطه بحساب الفوترة.
- فعّل واجهة برمجة تطبيقات تحويل النص إلى كلام. انتقل إلى شريط البحث عن المنتجات والموارد أعلى الصفحة، واكتب «speech».
- من النتائج المعروضة، اختر Cloud Text-to-Speech API
- اضبط المصادقة لبيئة التطوير لديك. للتعليمات، راجع إعداد المصادقة لخدمة تحويل النص إلى كلام.
يمكنك أيضًا تجربة تحويل النص إلى كلام من دون ربطه بمشروعك:
- اختر خيار TRY THIS API.
- لتمكين واجهة برمجة تطبيقات تحويل النص إلى كلام للاستخدام مع مشروعك، انقر فوق ENABLE.
اطَّلع على مستندات Google Cloud لمزيد من المساعدة.
كيفية تعطيل واجهة برمجة تطبيقات تحويل النص إلى كلام
لإيقاف واجهة برمجة تطبيقات تحويل النص إلى كلام، انتقل إلى لوحة تحكم Google Cloud Platform، ثم انقر رابط «الانتقال إلى نظرة عامة على واجهات برمجة التطبيقات» داخل مربّع واجهات برمجة التطبيقات. حدِّد واجهة برمجة تطبيقات تحويل النص إلى كلام وافتحها، ثم اختر زر «تعطيل الواجهة» أعلى الصفحة.
ابدأ باستخدام واجهة برمجة تطبيقات Google لتحويل النص إلى كلام
الآن بعد أن أعددت مشروعك، صار بإمكانك البدء من خلال سطر الأوامر.
gcloud initإنشاء بيانات اعتماد محلية
gcloud auth application-default loginيمكنك الآن تثبيت مكتبة عميل محلية. في هذا المثال سنستخدم Node.js
npm install --save @google-cloud/text-to-speechتدعم واجهة برمجة تطبيقات Google Cloud لتحويل النص إلى كلام اللغات التالية:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
كيف تعمل واجهة برمجة تطبيقات Google Cloud؟
كل شيء يبدأ بطلب API بسيط. ترسل نصك في طلب تحويل، ثم تتلقى ملفًا صوتيًا بالنص المقروء. ومع طلبك، يمكنك تحديد تفضيلاتك. اختر صوتًا ولغة والمزيد، ثم تتولى واجهة تحويل النص إلى كلام إرسال الملف الصوتي إليك.
يمكنك الاطّلاع على كيفية تثبيت واستخدام مكتبات عميل تحويل النص إلى كلام من هنا. ستكون أمثلة الشيفرة لدينا لـ Node.js، لكن يمكنك اختيار أي خيار آخر من Python إلى PHP. اختر ما ترتاح إليه.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);وهذا كل شيء. تكون قد أعددت واجهة تحويل النص إلى كلام من Google Cloud وأرسلت أول طلب لتحويل النص إلى كلام. يمكنك استلام الملف بصيغ عدة، من OGG إلى MP3.
إليك بعض الطرق لاستخدام واجهة Google لتحويل النص إلى كلام
تقدّم واجهة Google لتحويل النص إلى كلام (TTS) حلاً مرنًا لعدد من حالات الاستخدام عبر صناعات مختلفة. من أبرز الاستخدامات الشائعة ما يلي:
- تحويل النص إلى كلام للمستخدمين ذوي الإعاقة البصرية: تنفيذ TTS في التطبيقات لتحويل المحتوى المكتوب إلى كلمات منطوقة، ما يسهّل إتاحة المعلومات الرقمية للمستخدمين ذوي الإعاقة البصرية.
- أنظمة الهاتف الآلية: استخدام TTS لإنشاء مطالبات وردود طبيعية لأنظمة الرد الصوتي التفاعلي في خدمة العملاء أو خطوط المعلومات.
- التعليق الصوتي للمحتوى الإعلامي: توليد تعليق صوتي طبيعي لمقاطع الفيديو أو البودكاست أو غيرها من المحتويات متعددة الوسائط لتحسين تجربة المستخدم.
- تحويل النص المترجم إلى كلام: تحويل النص المترجم إلى كلمات منطوقة لتسهيل تعلم اللغات والتواصل الدولي أو استهلاك المحتوى بلغات مختلفة.
- مساعدة القراءة للمستخدمين المصابين بعُسر القراءة: توفير وظيفة TTS لمساعدة الأشخاص المصابين بعُسر القراءة أو صعوبات القراءة على استيعاب المحتوى المكتوب.
- الملاحة الصوتية في التطبيقات: دمج TTS في تطبيقات الملاحة لتقديم إرشادات خطوة بخطوة أو معلومات مكانية مسموعة.
- تحويل المحتوى التعليمي إلى كلام: تحسين تجارب التعلم الإلكتروني عبر تحويل المحتوى التعليمي النصي إلى كلمات منطوقة، ما يساعد على الفهم والتفاعل.
- إنتاج الصوت لتطبيقات الإنتاجية: دمج TTS في أدوات الإنتاجية مثل تطبيقات تدوين الملاحظات أو إدارة المهام لسماع الملاحظات أو استرجاع المعلومات بصوت مسموع.
- صوت طبيعي للمساعدين الافتراضيين: تزويد المساعدين الصوتيين بصوت طبيعي باستخدام TTS لتحسين تفاعل المستخدمين وتقديم المعلومات بأسلوب محادثي.
- تنبيهات وإشعارات سمعية: استخدام TTS لتقديم تنبيهات أو إشعارات أو تحديثات حالة مسموعة على أجهزة إنترنت الأشياء (IoT) لرفع وعي المستخدم.
أفضل البدائل لواجهة Google Cloud لتحويل النص إلى كلام
اعتبارًا من آخر تحديث لمعرفتي في يناير 2022، كانت هناك عدة بدائل لواجهة Google لتحويل النص إلى كلام. يُرجى مراعاة أن شعبية وقدرات هذه الخدمات قد تكون تغيّرت منذ ذلك الحين. إليك بعض أبرز البدائل:
- واجهة برمجة تطبيقات Speechify لتحويل النص إلى كلام: يسعدنا أن نعلن عن تطوير واجهة برمجة تطبيقات لتحويل النص إلى كلام تُقدّم أصوات الذكاء الاصطناعي الأكثر طبيعية وشعبية من Speechify مباشرةً للمطورين حول العالم. احجِز مقعدك اليوم.
- Amazon Polly: المقدّمة من Amazon Web Services (AWS)، تُوفّر Polly توليد كلام طبيعي بعدة لغات وأصوات، وتتّسق بسلاسة مع خدمات AWS الأخرى.
- خدمة الكلام من Microsoft Azure: تتضمن خدمة Azure Speech قدرات تحويل النص إلى كلام وتدعم طيفًا واسعًا من التطبيقات، مثل مساعدي الصوت وأنظمة الملاحة وغيرها.
- IBM Watson Text to Speech: تُقدّم IBM Watson خدمة تحويل النص إلى كلام تُمكّن المطورين من تحويل النص المكتوب إلى كلام طبيعي باستخدام مجموعة من الأصوات.
- Nuance Communications: تُوفّر Nuance حزمة حلول للتعرّف على الكلام والصوت، بما في ذلك تحويل النص إلى كلام، لتطبيقات الرعاية الصحية وقطاع السيارات وخدمة العملاء.
- CereProc: CereProc شركة متخصصة في تحويل النص إلى كلام تقدّم أصواتًا تركيبية عالية الجودة لتطبيقات مثل إتاحة الوصول لذوي الإعاقة، والترفيه، والتواصل.
- iSpeech: توفر iSpeech خدمات تحويل النص إلى كلام سحابية تدعم عدة لغات وأصوات، وتناسب مختلف الاستخدامات، بما في ذلك تطبيقات الجوال والمواقع الإلكترونية.
- ResponsiveVoice: ResponsiveVoice واجهة برمجة تطبيقات بسيطة وبأسعار معقولة لتحويل النص إلى كلام، تدعم عدة لغات ويمكن استخدامها في تطبيقات ويب متنوعة.
- Neospeech: تُقدّم Neospeech حلول تحويل النص إلى كلام مع تركيز على الأصوات الطبيعية. تُستخدم تقنيتهم في تطبيقات مثل التعلّم الإلكتروني والترفيه.
- ReadSpeaker: تُوفّر ReadSpeaker حلول تحويل النص إلى كلام عبر الإنترنت وخارجه لمجموعة واسعة من التطبيقات، بما في ذلك المواقع الإلكترونية والتعلّم الإلكتروني وخدمات الإتاحة.
- Acapelabox: تُقدّم مجموعة Acapela واجهة برمجة تطبيقات سحابية لتحويل النص إلى كلام باسم Acapelabox، تدعم لغات وأصوات متعددة لخدمة تطبيقات عبر صناعات مختلفة.
الأسئلة الشائعة حول واجهة برمجة تطبيقات Google لتحويل النص إلى كلام
تُقدّم Google عدة فئات من الأصوات، ولكل فئة حد مجاني تقريبي. على سبيل المثال، الأصوات القياسية مجانية حتى أول مليون بايت، وبعدها تُحتسب 16 دولارًا لكل مليون بايت. إذًا نعم، يمكن استخدامها مجانًا ضمن حدود عدد الأحرف أو البايتات.
كل ما عليك هو إنشاء حساب عبر https://cloud.google.com/text-to-speech/ واتباع الخطوات هناك. وقد شرحتُ العملية بالتفصيل في هذه التدوينة أعلاه.
يمكنك الحصول على مفتاح واجهة برمجة تطبيقات Google لتحويل النص إلى كلام بعد تسجيل الدخول إلى حسابك في Google Cloud ثم إنشاء مشروع جديد. بعد ذلك يمكنك إنشاء مفتاح API.
عنوان URL لواجهة برمجة تطبيقات Google لتحويل النص إلى كلام هو https://cloud.google.com/text-to-speech/.
من الناحية التقنية، لا توجد فترة تجريبية مجانية موحّدة لـ Google Cloud. تضم المنصة خدمات عديدة، ولكل خدمة شروطها وفئاتها المجانية الخاصة.
لا، فهي تتطلب اتصالًا بالإنترنت.
يمكن تنفيذ المصادقة لخدمات Google Cloud، بما فيها واجهة برمجة تطبيقات تحويل النص إلى كلام، باستخدام مفاتيح API أو OAuth 2.0 أو حسابات الخدمة. تعتمد الطريقة الأنسب على حالة الاستخدام ونوع التطبيق.
أمنحها خمس نجوم. سهلة الاستخدام، وميزة البحث رائعة ومتقدمة على غيرها. الأسعار معقولة، وبشكل عام منتج ممتاز.
توفّر واجهة برمجة تطبيقات Google لتحويل النص إلى كلام مكتبات عميل لعدد من لغات البرمجة، منها بايثون. كما تدعم طلبات RESTful، ما يجعلها متوافقة مع أي لغة تستطيع تنفيذ طلبات HTTP.
يشمل دمج واجهة برمجة تطبيقات Google لتحويل النص إلى كلام في تطبيق Android استخدام الفئة TextToSpeech وإرسال طلبات إلى الواجهة. ستجد الإرشادات التفصيلية في وثائق Android الرسمية للمطورين.
لتطبيق واجهة برمجة تطبيقات Google لتحويل النص إلى كلام في تطبيق JavaScript، يمكنك إرسال طلبات HTTP إلى نقطة نهاية الواجهة. تتضمن العملية تهيئة الطلب بما يلائم تطبيقك ومعالجة الاستجابة في كود JavaScript لديك. راجع الوثائق الرسمية للتفاصيل.

