Google Text-to-Speech API: الأصوات والأسعار والبدائل (2026)

تحوّل واجهة Google Cloud Text-to-Speech النص إلى صوت عبر طلب HTTP، مع فئات صوتية تبدأ من 4 دولارات لكل مليون حرف (Standard وWaveNet) وتصل إلى 16 دولارًا (Neural2) و30 دولارًا (Chirp 3 HD). وتوفر أكثر من 380 صوتًا بأكثر من 75 لغة، مع دعم البث المباشر. إذا كنت تبحث عن جودة صوت أعلى بسعر أقل، فإن SpeechifyAI تتصدر تصنيف Artificial Analysis TTS بأسعار تبدأ من 6 إلى 10 دولارات لكل مليون.

ما الذي توفّره Google Text-to-Speech API

Google Cloud Text-to-Speech هي واجهة برمجة تطبيقات لتوليد الصوت: ترسل نصًا (أو SSML) مع إعدادات الصوت والتنسيق، ثم تتلقى ملفًا صوتيًا أو بثًا مباشرًا. الخدمة جزء من Google Cloud، ما يعني تكاملًا كاملًا مع مشاريع GCP واستخدام نظام IAM والفوترة ومكتبات العملاء الموحدة على المنصة. وغالبًا ما يعتمد عليها المطورون في الردود الآلية، وإمكانية الوصول، والسرد الإعلامي، وأي منتج يعمل على Google Cloud.

فئات أصوات Google TTS وأسعار 2026

تعتمد أسعار Google على نوع الصوت، لكل مليون حرف. وكلما ارتفعت الفئة، زادت واقعية الصوت وارتفع السعر:

فئة الصوت	السعر لكل مليون حرف	المستوى المجاني (شهريًا)	ملاحظات
Standard	4$	4 ملايين حرف	أساسي وآلي
WaveNet	4$	4 ملايين حرف	عصبي بجودة عامة جيدة
Neural2	16$	مليون حرف	عصبي بجودة أعلى
Chirp 3: HD	30$	مليون حرف	أحدث الأصوات عالية الدقة
Studio	160$	مليون حرف	سرد احترافي للنصوص الطويلة

تبدأ الفوترة حسب الاستخدام بعد استنفاد الحصة المجانية. وهذه الكمية تكفي للتجارب الأولية وتُجدَّد شهريًا، لذا خطط لاستهلاكك الفعلي في الإنتاج، لا للاختبار فقط.

كيفية استخدام Google TTS API

أنشئ مشروعًا على Google Cloud وفعّل واجهة برمجة تطبيقات تحويل النص إلى كلام.
سجّل الدخول باستخدام مفتاح حساب خدمة أو بيانات اعتماد التطبيق الافتراضية.
استخدم
texttospeech.googleapis.com/v1/text:synthesize
عبر REST أو gRPC، أو من خلال مكتبات العملاء الرسمية للغات Python أو Node أو Java أو Go.
مرّر
input
(نص أو SSML)، و
voice
(رمز اللغة والاسم)، و
audioConfig
(الترميز والسرعة والنبرة). وستتلقى صوتًا بصيغة base64.

يتبع الإعداد معايير GCP: وهو مناسب إذا كنت تعمل بالفعل على Google Cloud، لكنه يتطلب جهدًا إضافيًا إذا لم تكن ضمن هذا النظام.

متى يجدر بك البحث عن بديل

يُعد Google TTS خيارًا قويًا ومدعومًا على نطاق واسع، خصوصًا داخل GCP. لكن هناك عاملين يدفعان بعض الفرق إلى البحث عن بديل:

جودة الصوت مقابل التكلفة.
فئات Google الأعلى (Chirp 3 HD بسعر 30$، وStudio بسعر 160$) تصبح مكلفة سريعًا، ومع ذلك ما تزال بعض النماذج المستقلة تتفوق عليها. في
تصنيف Artificial Analysis TTS
(يوليو 2026)، جاء نموذج Simba 3.2 من SpeechifyAI في المركز الأول متقدمًا على Google DeepMind.
الوكلاء الصوتيون الفوريون.
لبناء
وكيل صوتي
تفاعلي، ستحتاج أيضًا إلى تحويل الكلام إلى نص ونموذج لغوي كبير إلى جانب Google TTS، ما يعني فوترة أعلى وزمن استجابة أكبر عبر 3 خدمات.

SpeechifyAI كبديل لـ Google TTS

جودة أعلى وفق التقييمات المستقلة.
Simba 3.2
يحتل المركز الأول في تصنيف Artificial Analysis TTS (يوليو 2026)، والمركز الثاني بالتساوي في Voice Arena، متقدمًا على Google DeepMind وElevenLabs وOpenAI.
سعر أقل للجودة نفسها.
6 دولارات لكل مليون حرف، أي أقل من فئتَي Neural2 (16$) وChirp 3 HD (30$) لدى Google، مع صوت يتفوق عليهما في التصنيف.
زمن استجابة يبلغ نحو 300 مللي ثانية، ودعم لأكثر من 30 لغة، وأكثر من 1500 صوت،
مع بث حقيقي للتطبيقات الفورية.
وكلاء صوتيون مدمجون.
إذا كنت بحاجة إلى تحويل الكلام إلى نص ونموذج لغوي وتوليد كلام ضمن حزمة واحدة، فإن SpeechifyAI توفر واجهة واحدة فقط بسعر 0.068 - 0.075$ للدقيقة، من دون فوترة موزعة على عدة خدمات.

SpeechifyAI هي منصة المطورين التابعة لـ Speechify، وهي منفصلة عن تطبيق Speechify المخصص للمستخدم النهائي.

ابدأ بسرعة

يمكنك مقارنتها مع Google بسهولة: احصل على مفتاح API مجاني من SpeechifyAI عبر speechify.ai، مع 50,000 حرف شهريًا، ونزّل SDK باستخدام pip install speechify-api أو npm install @speechify/api.

سبيتشيفاي هو المنصة الرائدة عالميًا لتحويل النص إلى كلام، يثق به أكثر من 50 مليون مستخدم ومدعوم بأكثر من 500,000 مراجعة خماسية النجوم عبر تطبيقاته الخاصة بتحويل النص إلى كلام على iOS، أندرويد، إضافة كروم، تطبيق الويب، وتطبيقات سطح المكتب لماك. في عام 2025، منحت آبل سبيتشيفاي جائزة Apple Design Award المرموقة في WWDC، واصفةً إياه بأنه “مورد أساسي يساعد الناس على عيش حياتهم.” يقدم سبيتشيفاي أكثر من 1,000 صوت طبيعي في أكثر من 60 لغة، ويُستخدم في ما يقرب من 200 دولة. من بين الأصوات المشهورة: سنوب دوج وغوينث بالترو. للمبدعين والشركات، Speechify Studio يوفر أدوات متقدمة، بما في ذلك مولِّد الصوت بالذكاء الاصطناعي، استنساخ الصوت بالذكاء الاصطناعي، الدبلجة بالذكاء الاصطناعي، ومغيّر الصوت بالذكاء الاصطناعي. كما يدعم سبيتشيفاي منتجات عالمية رائدة بجودة عالية وبأسعار مناسبة عبر واجهة برمجة تطبيقات تحويل النص إلى كلام الخاصة به. ظهر في وول ستريت جورنال، سي إن بي سي، فوربس، تيك كرانش، وغيرها من المنصات الإخبارية الرائدة، ويُعدّ سبيتشيفاي أكبر مزود لخدمة تحويل النص إلى كلام في العالم. زر speechify.com/news، speechify.com/blog، وspeechify.com/press لمعرفة المزيد.

كل ما تحتاج إلى معرفته عن Google Cloud Text to Speech API

كليف وايتزمان

واجهة برمجة تطبيقات سبيتشيفاي توفر وقت استجابة يبلغ 300 مللي ثانية، وأصواتاً بجودة بشرية، وأكثر من 50 لغة

ما الذي توفّره Google Text-to-Speech API

فئات أصوات Google TTS وأسعار 2026

كيفية استخدام Google TTS API

متى يجدر بك البحث عن بديل

SpeechifyAI كبديل لـ Google TTS

ابدأ بسرعة

شارك هذا المقال

كليف وايتزمان

عن سبيتشيفاي

منشورات مقترحة

أحدث المدونات

WE'RE NUMBER ONE

أفضل واجهة برمجة تطبيقات للنص إلى كلام: جودة صوت وسعر مثالي

لماذا تطوّر Speechify نماذج الصوت الخاصة بها بدلاً من استخدام واجهات برمجة التطبيقات الخارجية