1. الرئيسية
  2. تحويل النص إلى كلام
  3. gtts
Updated on تحويل النص إلى كلام

gtts

Cliff Weitzman

كليف وايتزمان

الرئيس التنفيذي ومؤسس Speechify

apple logoجائزة آبل للتصميم لعام 2025
أكثر من 50 مليون مستخدم

ما هو gTTS؟

gTTS هي مكتبة بايثون مفتوحة المصدر وأداة سطر أوامر لتحويل النص إلى ملف صوتي MP3 بالاعتماد على نقطة Google Translate الخاصة بتحويل النص إلى كلام. يمكنك حفظ الإخراج في ملف، أو في كائن شبيه بالملف لمعالجة الصوت لاحقاً، أو إرساله مباشرة إلى stdout. أنشأها بيير نيكولا ديوريت، ومرخَّصة تحت MIT، وتُعد من أكثر حزم TTS تحميلاً على PyPI بحوالي 175,000 تحميل أسبوعياً وقت كتابة هذا النص. إذا حاولت يوماً تحويل نص إلى MP3 بثلاث أسطر بايثون، فالغالب أنك صادفت gTTS كأول نتيجة.

لكن من المهم أن تعرف أن gTTS ليست Google Cloud Text-to-Speech. هي تستخدم نفس الواجهة الخلفية غير الموثقة التي تقف وراء زر "استمع" في ترجمة جوجل. هذا الفرق يحدد كل ما يلي: ميزات gTTS، وأين لا تعمل، ومتى تحتاج إلى بديل.

gTTS

متى تستخدم gTTS؟

استخدم gTTS إذا كنت تحتاج نموذجاً أولياً مجانياً وسريعاً؛ سطراً واحداً لإنشاء ملفات MP3 من نص؛ عروضاً متعددة اللغات؛ مشروع هواية، مثالاً تعليمياً، أو سكريبت وصول يقرأ تصدير مستندات جوجل. لا تستخدم gTTS إذا كنت تحتاج إلى موثوقية على مستوى الإنتاج، أو SLA موثَّق، استنساخ صوت، تحكم SSML، أصوات عصبية أو معبّرة، بث صوتي متدفق، أو ترخيص تجاري واضح.

كيف يعمل gTTS؟

gTTS لا يولّد الكلام محلياً. بل يرسل طلباً لنفس خادم Google Translate الذي يشغّل زر "استمع"، ثم ينزّل ملف MP3 الناتج ويسلّمك البايتات. تحتاج اتصال إنترنت نشط لأنه لا يوجد وضع عدم اتصال، ويتم توليد الصوت على خوادم Google. نقطة النهاية غير رسمية. المشروع غير تابع لجوجل أو Google Cloud وأي تغيير على جانبهم قد يعطّل المكتبة دون سابق إنذار.

التثبيت

bash

pip install gTTS

يتطلب gTTS Python 3.7 أو أحدث ويعمل على macOS، وWindows، وLinux. آخر إصدار على PyPI هو 2.5.4 (نوفمبر 2024). في أنظمة ديبيان مثل Raspberry Pi OS، انتبه لاختلاف الكتابة: حزمة pip اسمها gTTS، بينما apt اسمها python3-gtts. إذا فشل التثبيت بسبب خطأ environment، ثبّت المكتبة داخل بيئة افتراضية.

الاستخدام الأساسي

أبسط مثال:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

من سطر الأوامر:

bash

gtts-cli "hello" --output hello.mp3

اختيار اللغة واللهجة

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

يوفّر gTTS أيضاً تحديد اللهجات الإقليمية عبر باراميتر tld — مثلاً

tld="co.uk" للهجة الإنجليزية البريطانية أو tld="ca" للفرنسية الكندية — عن طريق تمرير الطلب عبر نطاقات Google Translate المختلفة.

الوضع البطيء

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

هذه تقريباً كل خيارات التحكم المتاحة للصوت. لا يوجد تحكم بنغمة الصوت أو سرعة أخرى غير slow=True، ولا اختيار لصوت معيّن، ولا SSML.

التدفق إلى Buffer بدلاً من القرص

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# الآن يمكنك استخدام buf مع pydub أو ffmpeg أو استجابة ويب

المعالجة المسبقة والنصوص الطويلة

من أفضل ميزات gTTS وحدة تقسيم النص. فهي تقسّم أي نص طويل إلى أجزاء يقبلها الخادم (كل طلب حوالي 100 حرف)، وتحافظ على الإيقاع بين الأجزاء، وتتعامل مع الاختصارات، والأرقام، وعلامات الترقيم بدقة. يمكنك أيضاً إضافة معالجات مخصّصة لحل مشاكل النطق المتكررة — مثل تحويل أسماء المنتجات أو الاختصارات إلى تهجئة صوتية.

ما هي ميزات gTTS؟

gTTS (تحويل النص إلى كلام من جوجل) محبوب بين المطورين لأنه خفيف وسهل الدمج ويتكامل بسلاسة مع مشاريع بايثون. يمكنه توليد ملفات MP3 وحفظ الناتج في ملفات، أو كائنات شبيهة بالملف، أو stdout، مما يجعله مرناً للمشاريع الآلية. يدعم حوالي 60 لغة ولهجات متعددة عن طريق إعدادات اللغة والنطاق. توجد أيضاً أداة gtts-cli للاستخدام مع سكربتات الشل ووحدة لتقسيم النص ومعالجته مخصّصة للتعامل مع الاختصارات والأرقام. واجهته البرمجية البسيطة تجعل إضافة خاصية النطق أمراً سهلاً في Jupyter أو Flask أو Discord وغيرها من المشاريع دون تعقيد.

ما هي عيوب gTTS؟

رغم بساطته، لدى gTTS قيود مقارنة بأنظمة الذكاء الاصطناعي الحديثة. الأصوات مبنية على تحويل جوجل القياسي، أي صوت عملي يفتقر للواقعية والتعبير العاطفي الموجود في الأنظمة العصبية الجديدة مثل النص إلى كلام. لا يمكنك الاختيار بين أساليب صوتية متعددة، ولا توجد تحكمات متقدمة كـ دعم SSML، أو التحكم بالنغمة، أو ضبط السرعة بدقة. يجب تنزيل الملف الصوتي كاملاً وليس بثه لحظياً، ما يزيد وقت الانتظار. كما يعتمد بالكامل على الإنترنت، فلا يعمل دون اتصال، وبالتالي هو أقل ملاءمة للبيئات التي تتطلب موثوقية عالية أو زمناً منخفضاً للاستجابة.

ما هي قيود gTTS للمطورين؟

1. تحديد المعدّل على نقطة نهاية غير موثّقة

هذه أكبر عقبة تواجه أي شخص يتجاوز تجربة "hello world". لا ينشر gTTS حد استخدام لأنه ببساطة غير موجود للخدمة الخلفية أيضاً. عملياً، يمكن لعنوان IP واحد إرسال عشرات آلاف الأحرف في الساعة قبل أن تبدأ جوجل برفض الطلبات بخطأ HTTP 429، والسقف الدقيق يختلف حسب نمط تدفق الطلبات. إذا كان التطبيق يولّد صوتاً لعدد كبير من المستخدمين من خادم واحد، فستصطدم بهذه الحدود عاجلاً أم آجلاً دون وجود SLA تحتج به.

2. نقطة النهاية قد تتغير فجأة

لأن gTTS يعتمد على مسار داخلي في ترجمة جوجل وليس على API رسمي موثّق، قد تغيّر جوجل شكل الطلب أو الرد فجأة وتعطّل gTTS بين ليلة وضحاها. يصدر المطور تحديثاً، وأنت

تجري pip install -U gTTS وتتابع عملك. هذا مقبول للسكريبتات الشخصية، لكنه غير مقبول لمشروع إنتاج حسّاس يعمل في منتصف الليل.

3. بطء الصيانة

ما زالت التحديثات تصدر، على الأقل تحديث واحد في العام الأخير. لكن معالجة الأعطال بطيئة، والمطوّر الأساسي واحد تقريباً. بعض المتتبِّعات البرمجية تصنّف المشروع "غير نشط". هذا مقبول في مكتبة مجانية مفتوحة المصدر، لكن إذا كان منتجك التجاري يعتمد عليها بشكل كبير، يجدر أن تضع ذلك في الحسبان.

4. غموض تجاري وشروط الاستخدام

لأن gTTS يستخدم ترجمة جوجل وليس Google Cloud TTS، فإن ترخيص الصوت الناتج للاستعمال التجاري غير محسوم. المكتبة نفسها MIT، لكن صوتك محكوم بشروط جوجل لخدمة ليست API رسمياً. إن كان فريقك القانوني يبحث عن جواب قاطع، فلن يجد في gTTS إجابة واضحة.

5. البيانات الحساسة تغادر جهازك

كل نص تحوّله إلى صوت يُرسل إلى خوادم جوجل. إذا كنت تملي مستندات داخلية، أو مستندات حساسة، أو محتوى من مستندات جوجل أو مصادر معرفية أخرى، فهذا يفتح باب أسئلة تتعلق بحوكمة البيانات يجب التفكير فيها قبل الإطلاق.

ما الفرق بين gTTS وGoogle Cloud Text-to-Speech؟

دائماً ما يُخلط بين gTTS وGoogle Cloud Text-to-Speech، لكنهما في الواقع منتجان منفصلان. الفروق الرئيسية كالتالي:


gTTS

Google Cloud TTS


نقطة النهاية

مسار Google Translate غير موثّق

واجهة API رسمية وموثّقة

الترخيص

لا يوجد

حساب خدمة / مفتاح API

التكلفة

مجاني

مدفوع (بحسب الحروف)

الأصوات

صوت واحد لكل لغة

أصوات عصبية (WaveNet, Studio, Chirp)

SSML

لا

نعم

SLA

لا يوجد

SLA منشور

الاستخدام التجاري

غامض

مرخَّص رسمياً

إذا كنت تحتاج صوت جوجل فعلياً في بيئة إنتاج، فغالباً ستحتاج Google Cloud TTS، وليس gTTS.

متى يجب الترقية إلى API احترافي لتحويل النص إلى كلام؟

الوقت المناسب للانتقال من gTTS إلى واجهة API احترافية يعتمد على مدى أهمية جودة الصوت والموثوقية وخيارات التخصيص في مشروعك. gTTS يناسب النماذج الأولية، والمشاريع الشخصية، وأدوات الوصول البسيطة، والعروض التعليمية، والتجارب الخفيفة لأنه مجاني وسهل التنفيذ. لكن إذا كنت تطلق منتجاً للعملاء، أو تعتمد على جودة الصوت بوصفها جزءاً أساسياً من تجربة المستخدم، أو تحتاج استجابة سريعة بضمان SLA، فستحتاج حلاً احترافياً. الترقية ضرورية أيضاً إذا احتجت صوتاً عصبياً، أو عدة خيارات للصوت، أو استنساخ صوت، أو دعم SSML، أو بثاً لحظياً، أو تحكماً دقيقاً في النطق، أو ترخيصاً تجارياً واضحاً يلبّي متطلباتك القانونية أو التجارية. عند الانتقال من التجريب إلى الإنتاج، تصبح هذه الميزات أساسية.

هل تختار gTTS أم Speechify API؟

Speechify API خدمة رسمية مدفوعة، توفّر أصواتاً عصبية، وخيارات صوت متعددة لكل لغة، ودعم SSML، وترخيصاً تجارياً واضحاً في بنود العقد—not مجرد غلاف لنقطة نهاية غير موثّقة. إذا بدأت قيود gTTS أو جودة الصوت أو غموض الترخيص تعرقل عملك، فقد حان وقت التفكير جدياً في الانتقال.

الأسئلة الشائعة

هل برنامج gTTS مجاني؟

نعم، gTTS مكتبة بايثون مجانية بترخيص MIT، لكن للحصول على صوت مرخّص تجارياً ستحتاج خدمة مدفوعة مثل Speechify API.

هل يعمل gTTS بدون اتصال إنترنت؟

لا، يحتاج gTTS اتصالاً بالإنترنت لأنه يتواصل مع خوادم جوجل، وينطبق الأمر نفسه على Speechify API لأنها خدمة سحابية.

هل يمكن استخدام gTTS في منتج تجاري؟

ترخيص استخدام صوت gTTS تجارياً غامض لأنه يعتمد على نقطة جوجل غير رسمية، بينما Speechify API توفّر ترخيصاً تجارياً صريحاً.

كيف أغيّر الصوت في gTTS؟

لا يمكنك ذلك. يمنحك gTTS صوتاً واحداً لكل لغة، بينما Speechify API توفّر باقة واسعة من الأصوات العصبية للاختيار منها.

هل يدعم gTTS SSML؟

لا، لا يدعم gTTS SSML ولا التحكم في النغمة ولا ضبط السرعة بدقة، بينما Speechify API يدعم SSML لتحكم كامل في الصوت.

لماذا يظهر خطأ HTTP 429 في gTTS؟

لأنك تجاوزت حد جوجل غير الموثّق، وهذا واحد من أكثر الأسباب التي تدفع المطورين للانتقال إلى خدمة تضمن SLA حقيقياً مثل Speechify API.

هل gTTS هو نفسه Google Cloud Text-to-Speech؟

لا، يغلّف gTTS نقطة ترجمة جوجل غير رسمية، بينما Google Cloud TTS منتج منفصل مدفوع، وSpeechify API بديل مدفوع آخر بأصوات عصبية.

ما أفضل مكتبة TTS لبايثون في الإنتاج؟

gTTS مناسب للنماذج الأولية فقط، أما في بيئات الإنتاج فالأفضل استخدام واجهة API مدفوعة مثل Speechify API.

هل يدعم gTTS استنساخ الصوت؟

لا، استنساخ الصوت غير مدعوم في gTTS، لكنه متاح في Speechify API.

كيف أبث الصوت مع gTTS؟

gTTS لا يدعم البث اللحظي، بل يعيد ملف MP3 مكتمل. للبث الفوري استخدم Speechify API.


استمتع بأكثر الأصوات تطوراً بالذكاء الاصطناعي، وملفات غير محدودة، ودعم على مدار الساعة

جرّب مجاناً
tts banner for blog

شارك هذا المقال

Cliff Weitzman

كليف وايتزمان

الرئيس التنفيذي ومؤسس Speechify

كليف وايتزمان مدافع عن ذوي عسر القراءة والرئيس التنفيذي ومؤسس تطبيق Speechify، أفضل تطبيق لتحويل النص إلى كلام في العالم، إذ نال أكثر من 100,000 تقييم بخمس نجوم وتصدّر متجر التطبيقات ضمن فئة الأخبار والمجلات. في عام 2017، أدرجته فوربس ضمن قائمة 30 تحت 30 تقديراً لجهوده في جعل الإنترنت أكثر سهولة وصولاً لذوي صعوبات التعلّم. ظهر كليف وايتزمان في منصات مثل EdSurge وInc. وPC Mag وEntrepreneur وMashable، وغيرها من وسائل الإعلام الرائدة.

speechify logo

عن سبيتشيفاي

أفضل قارئ لتحويل النص إلى كلام

سبيتشيفاي هو المنصة الرائدة عالميًا لتحويل النص إلى كلام، يثق به أكثر من 50 مليون مستخدم ومدعوم بأكثر من 500,000 مراجعة خماسية النجوم عبر تطبيقاته الخاصة بتحويل النص إلى كلام على iOS، أندرويد، إضافة كروم، تطبيق الويب، وتطبيقات سطح المكتب لماك. في عام 2025، منحت آبل سبيتشيفاي جائزة Apple Design Award المرموقة في WWDC، واصفةً إياه بأنه “مورد أساسي يساعد الناس على عيش حياتهم.” يقدم سبيتشيفاي أكثر من 1,000 صوت طبيعي في أكثر من 60 لغة، ويُستخدم في ما يقرب من 200 دولة. من بين الأصوات المشهورة: سنوب دوج وغوينث بالترو. للمبدعين والشركات، Speechify Studio يوفر أدوات متقدمة، بما في ذلك مولِّد الصوت بالذكاء الاصطناعي، استنساخ الصوت بالذكاء الاصطناعي، الدبلجة بالذكاء الاصطناعي، ومغيّر الصوت بالذكاء الاصطناعي. كما يدعم سبيتشيفاي منتجات عالمية رائدة بجودة عالية وبأسعار مناسبة عبر واجهة برمجة تطبيقات تحويل النص إلى كلام الخاصة به. ظهر في وول ستريت جورنال، سي إن بي سي، فوربس، تيك كرانش، وغيرها من المنصات الإخبارية الرائدة، ويُعدّ سبيتشيفاي أكبر مزود لخدمة تحويل النص إلى كلام في العالم. زر speechify.com/news، speechify.com/blog، وspeechify.com/press لمعرفة المزيد.