1. ہوم
  2. ٹی ٹی ایس
  3. gtts
تاریخِ تازہ کاری ٹی ٹی ایس

gtts

Cliff Weitzman

کلف وائتزمین

سی ای او / بانی، اسپیچفائی

apple logo2025 ایپل ڈیزائن ایوارڈ
50 ملین+ صارفین

gTTS کیا ہے؟

gTTS ایک اوپن سورس Python لائبریری اور کمانڈ لائن ٹول ہے جو ٹیکسٹ کو MP3 آڈیو میں بدلتا ہے، گوگل ٹرانسلیٹ کے text-to-speech اینڈ پوائنٹ کو کال کرکے۔ آپ آؤٹ پٹ کو فائل میں، آڈیو پراسیسنگ کے لیے فائل جیسے آبجیکٹ میں، یا سیدھا stdout پر لکھ سکتے ہیں۔ اسے Pierre Nicolas Durette نے بنایا، MIT لائسنس کے تحت تقسیم کیا گیا، اور PyPI پر سب سے زیادہ ڈاؤن لوڈ ہونے والے TTS پیکجز میں شامل ہے، تقریباً 175,000 ہفتہ وار ڈاؤن لوڈ کے ساتھ۔ اگر آپ کو کبھی Python میں صرف تین لائنوں میں ٹیکسٹ کو MP3 میں بدلنے کی ضرورت پڑی ہو تو gTTS ہی آپ کا اوّلین حل ہوگا۔

لیکن یہ ذہن میں رکھیں کہ gTTS، Google Cloud Text-to-Speech نہیں ہے۔ یہ وہی ان آفیشل بیک اینڈ استعمال کرتا ہے جو گوگل ٹرانسلیٹ کے "سنیں" بٹن کے پیچھے ہے۔ یہی فرق سمجھنا آگے کے تمام حصوں کے لیے اہم ہے: gTTS کہاں بہترین ہے، کہاں کام نہیں آتی، اور کب آپ کو کوئی دوسرا حل لینا چاہیے۔

gTTS

gTTS کب استعمال کریں؟

gTTS تب استعمال کریں جب آپ کو مفت، تیز پروٹوٹائپنگ چاہیے؛ متن سے MP3 بنانے کا ایک سادہ طریقہ؛ مختلف زبانوں کے ڈیمو؛ شوقیہ پروجیکٹ، تعلیمی مثال، یا ایکسیسبلٹی اسکرپٹ جو گوگل ڈاکس ایکسپورٹ کو اونچی آواز میں پڑھتا ہے۔ gTTS پروڈکشن سطح کے بھروسے، دستاویزی SLA، وائس کلوننگ، SSML کنٹرول، نیورل یا ایکسپریسیو آوازوں، اسٹریمنگ آڈیو یا کمرشل لائسنسنگ کے لیے موزوں نہیں۔

gTTS کیسے کام کرتا ہے؟

gTTS خود مقامی طور پر آواز تیار نہیں کرتا، یہ گوگل ٹرانسلیٹ کے "سنیں" فیچر والے بیک اینڈ کو ریکویسٹ بھیجتا ہے، MP3 ڈاؤن لوڈ کرتا ہے، اور آپ کو بائٹس دیتا ہے۔ اس لیے انٹرنیٹ کنکشن لازمی ہے، آف لائن موڈ نہیں، اور آڈیو آپ کے سسٹم پر نہیں بلکہ گوگل کے سرورز پر تیار ہوتا ہے۔ یہ اینڈ پوائنٹ آفیشل بھی نہیں ہے۔ پروجیکٹ گوگل یا گوگل کلاؤڈ سے منسلک نہیں، اس لیے اپ اسٹریم میں تبدیلیاں بغیر وارننگ کے چیزیں توڑ سکتی ہیں۔

انسٹالیشن

bash

pip install gTTS

gTTS کے لیے Python 3.7 یا اس سے جدید ورژن چاہیے اور یہ macOS، Windows، اور Linux پر چلتا ہے۔ PyPI پر موجودہ ورژن 2.5.4 (نومبر 2024) ہے۔ Debian سسٹمز، مثلاً Raspberry Pi OS، پر نام کے کیس کا دھیان رکھیں: pip پیکج gTTS ہے، جبکہ apt پیکج python3-gtts۔ اگر حالیہ OS پر pip install کے دوران externally-managed-environment ایرر آئے، تو صرف virtual environment میں انسٹال کریں۔

بنیادی استعمال

کم سے کم مثال:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

کمانڈ لائن سے:

bash

gtts-cli "hello" --output hello.mp3

زبان اور لہجے کا انتخاب

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

gTTS tld پیرا میٹر کے ذریعے علاقائی سب ٹیگ بھی منتخب کرنے دیتا ہے — مثلاً

tld="co.uk" برطانوی انگلش یا tld="ca" کینیڈین فرانسیسی کے لیے — یعنی ریکویسٹ مختلف Google Translate ڈومین سے گزار دی جاتی ہے۔

سلو موڈ

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

بس یہی صوتی کنٹرول کی حد ہے۔ کوئی pitch پیرا میٹر نہیں، کوئی ریٹ سلائیڈر نہیں، صرف slow=True؛ نہ الگ الگ آوازیں، نہ SSML۔

ڈسک کی بجائے بفر میں اسٹریمنگ

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# اب buf کو pydub، ffmpeg، یا ویب ریسپانس میں دیں

پری پروسیسنگ اور طویل متن

gTTS کی بہتر انجینئرنگ خصوصیات میں سے ایک اس کا ٹوکنائزر ہے۔ یہ لمبے ان پٹ کو اس طرح ٹکڑوں میں بانٹتا ہے کہ بیک اینڈ قبول کرے (ہر ریکویسٹ کی حد تقریباً 100 کریکٹر ہے)، سرے جوڑ پر intonation برقرار رکھتا ہے، اور abbreviations، decimals اور دیگر punctuation کے مسائل سنبھالتا ہے۔ آپ اپنی مرضی کے پری پروسیسر بھی لگا سکتے ہیں تاکہ بار بار آنے والے الفاظ کی تلفظ غلطیاں ٹھیک کی جا سکیں — مثلاً پروڈکٹ نام یا small الفاظ کے لیے فونٹک املا دے دیں۔

gTTS کے فوائد کیا ہیں؟

gTTS (گوگل ٹیکسٹ ٹو اسپیچ) ڈویلپرز میں مقبول ہے کیونکہ یہ ہلکا پھلکا، استعمال میں آسان، اور Python ورک فلو میں ضم کرنا سادہ ہے۔ یہ MP3 آڈیو فائلیں بنا سکتا ہے اور آؤٹ پٹ براہِ راست فائل، فائل جیسے آبجیکٹ یا stdout پر بھیج سکتا ہے، جو اسے آٹومیشن اور اسکرپٹنگ کے لیے موزوں بناتا ہے۔ یہ تقریباً 60 زبانوں اور dialect ورژنز کے ساتھ وسیع ملٹی لنگوئل سپورٹ بھی دیتا ہے۔ gtts-cli کمانڈ لائن انٹرفیس ہے جو شیل اسکرپٹس میں بھی آسانی سے چلتا ہے، اور خاص الفاظ، نمبرز یا سبسٹیٹیوشنز کے لیے کسٹمائزایبل ٹوکنائزرز اور پری پروسیسرز فراہم کرتا ہے۔ مِنیمل Python API کی وجہ سے Jupyter نوٹ بکس، Flask ایپس، Discord بوٹس یا دیگر ہلکے پراجیکٹس میں اسپیچ فیچر شامل کرنا بھی آسان ہے۔

gTTS کے نقصانات کیا ہیں؟

سادگی کے باوجود، gTTS میں جدید AI وائس پلیٹ فارمز کے مقابلے میں کئی کمی ہیں۔ آوازیں گوگل ٹرانسلیٹ کی عام آؤٹ پٹ پر مبنی ہیں، جو تو کام چلاؤ ہیں، مگر نیورل ٹیکسٹ ٹو اسپیچ سسٹمز جیسی قدرتی ادائیگی، جذبات اور حقیقت پسندی نہیں دیتیں۔ صارفین ایک زبان میں متعدد آوازوں میں سے انتخاب نہیں کر سکتے، نہ SSML سپورٹ، پچ کنٹرول یا اسپیچ ریٹ کی fine-tuning موجود ہے۔ gTTS میں MP3 مکمل ڈاؤن لوڈ کرنا پڑتا ہے، رئیل ٹائم اسٹریمنگ نہیں، جس سے interactive ایپس میں لیٹنسی بڑھ جاتی ہے۔ ہر ریکویسٹ انٹرنیٹ پر جاتی ہے، اس لیے آف لائن چلانا ممکن نہیں، اور یہ ایسے ماحول میں کم موزوں ہو جاتا ہے جہاں فوری جواب یا اعلیٰ بھروسہ درکار ہو۔

ڈویلپرز کے لیے gTTS کی حدود کیا ہیں؟

1. دستاویزی نہ ہونے والے اینڈ پوائنٹ پر ریٹ لمٹ

یہ کسی بھی صارف کے لیے سب سے بڑا مسئلہ ہے جو "ہیلو ورلڈ" سے آگے جا رہا ہو۔ gTTS کے لیے کوئی واضح کوٹہ نہیں کیونکہ اپ اسٹریم سروس نے بھی نہیں دیا۔ عام طور پر ایک ہی IP چند ہزار کریکٹر فی گھنٹہ بھیج سکتا ہے، پھر گوگل HTTP 429 لوٹاتا ہے، اور اصل حد ٹریفک پر منحصر رہتی ہے۔ اگر آپ کی ایپ ایک ہی سرور سے کئی یوزرز کے لیے آڈیو بناتی ہے، تو بالآخر آپ یہ حدود بغیر SLA کے کراس کر جائیں گے۔

2. اینڈ پوائنٹ کسی بھی وقت بدل سکتا ہے

کیونکہ gTTS، گوگل ٹرانسلیٹ کے اندرونی روٹ کو ہدف بناتا ہے، عوامی API کو نہیں، اس لیے گوگل کسی بھی وقت ریکویسٹ اسٹرکچر یا ریسپانس بدل کر gTTS کو توڑ سکتا ہے۔ مینٹینر فکس جاری کرے گا، آپ

pip install -U gTTS چلا کر معاملہ سنبھال سکتے ہیں۔ یہ شوقیہ اسکرپٹ کے لیے تو ٹھیک ہے، پروڈکشن میں رات کے 2 بجے کے لیے بالکل نہیں۔

3. دیکھ بھال کی رفتار

پروجیکٹ اب بھی ریلیز دے رہا ہے (کم از کم پچھلے 12 ماہ میں ایک)، لیکن مسائل حل کرنے کی رفتار سست ہے اور سب کچھ صرف ایک ہی شخص پر ٹکا ہوا ہے۔ کچھ پیکیج ہیلتھ ٹریکرز ریپو کو "غیرفعال" قرار دیتے ہیں۔ مفت MIT لائسنس لائبریری کے لیے یہ عام بات ہے؛ مگر پیڈ پروڈکٹ کے اہم حصے کے طور پر یہ قابلِ غور رسک ہے۔

4. کمرشل اور TOS ابہام

چونکہ gTTS، گوگل ٹرانسلیٹ کے فرنٹ اینڈ کو ہٹ کرتا ہے، Google Cloud TTS کو نہیں، اس لیے کمرشل استعمال کے لیے بننے والی آڈیو کی لائسنسنگ واضح نہیں۔ لائبریری تو MIT لائسنسڈ ہے؛ مگر جو آڈیو ملتی ہے اس پر گوگل کے وہی سروس ٹرمز لاگو ہیں جو TTS API کے طور پر باضابطہ بیان نہیں۔ اگر آپ کی لیگل ٹیم کو صاف جواب درکار ہو تو gTTS یہ گارنٹی نہیں دیتا۔

5. حساس ڈیٹا آپ کے کمپیوٹر سے باہر جاتا ہے

جو بھی سٹرنگ آپ synthesize کریں، وہ گوگل سرورز کو بھیجی جاتی ہے۔ اگر آپ اندرونی دستاویزات، کسٹمر PII، یا گوگل ڈاکس وغیرہ سے مواد پڑھوا رہے ہیں، تو یہ ڈیٹا گورننس کا ایک اہم سوال ہے جس کا حل ضروری ہے۔

gTTS اور Google Cloud Text-to-Speech میں کیا فرق ہے؟

اگرچہ gTTS اور Google Cloud Text-to-Speech کو اکثر ایک ہی سمجھ لیا جاتا ہے، دونوں دراصل مختلف چیزیں ہیں۔ اہم فرق یہ ہیں:


gTTS

گوگل کلاؤڈ TTS


اینڈ پوائنٹ

ان آفیشل گوگل ٹرانسلیٹ روٹ

دستاویزی، عوامی API

تصدیق

کوئی نہیں

سروس اکاؤنٹ / API key

قیمت

مفت

ادائیگی (فی کریکٹر)

آوازیں

ہر زبان کے لیے ایک

نیورل (WaveNet, Studio, Chirp)

SSML

نہیں

ہاں

SLA

کوئی نہیں

شائع شدہ SLA

کمرشل استعمال

غیر واضح

واضح لائسنسنگ

اگر پروڈکشن میں اصل گوگل وائس چاہیے، تو تقریباً یقینی طور پر آپ کو Google Cloud TTS لینا چاہیے، gTTS نہیں۔

پروفیشنل TTS API پر کب جانا چاہیے؟

gTTS سے کسی پروفیشنل ٹیکسٹ ٹو اسپیچ API پر منتقل ہونے کا درست وقت آپ کے پروجیکٹ میں آڈیو کے معیار، بھروسے اور اپنی مرضی کے کنٹرول پر منحصر ہے۔ gTTS پروٹوٹائپس، پورٹ فولیو، ذاتی ایکسسیسبلٹی ٹولز، تعلیمی ڈیمو اور ہلکے ایکسپیریمنٹس کے لیے بہترین ہے کیونکہ یہ مفت، آسان اور سادہ ہے۔ لیکن اگر آپ کمرشل پروڈکٹ بنا رہے ہیں، صارف کے لیے آڈیو کا معیار اہم ہے، یا متعین لیٹنسی اور SLA چاہیے تو پروفیشنل حل لازمی ہو جاتا ہے۔ اپ گریڈ تب بھی مناسب ہے جب آپ کو متعدد آوازوں کے آپشن، وائس کلوننگ، SSML سپورٹ، اسٹریمنگ آڈیو، pacing یا pronunciation پر کنٹرول، یا واضح کمرشل لائسنسنگ درکار ہو۔ ایکسپیریمنٹ سے پروڈکشن کی طرف بڑھتے ہوئے، یہ فیچرز لازمی بن جاتے ہیں۔

آپ کو gTTS یا Speechify API لینا چاہیے؟

Speechify کا ٹیکسٹ ٹو اسپیچ API ایک باقاعدہ سپورٹڈ، پیڈ سروس ہے جس میں نیورل وائس، ہر زبان کے لیے ایک سے زیادہ آوازیں، SSML سپورٹ، اور کمرشل لائسنس معاہدے میں پہلے سے شامل ہے۔ اگر gTTS کی ریٹ لمٹس، آواز کا معیار یا لائسنسنگ آپ کے لیے مسئلہ بن رہے ہوں تو یہی وقت ہے کہ آپ اس پر شفٹ ہو جائیں۔

عمومی سوالات

کیا gTTS مفت ہے؟

جی ہاں، gTTS ایک مفت MIT لائسنس یافتہ Python لائبریری ہے، لیکن کمرشل معیار اور واضح لائسنس والی آڈیو کے لیے آپ کو Speechify API جیسی پیڈ سروس چاہیے۔

کیا gTTS آف لائن کام کرتا ہے؟

نہیں، gTTS کو انٹرنیٹ درکار ہوتا ہے کیونکہ یہ گوگل کے سرور سے کنیکٹ کرتا ہے، اور Speechify API بھی کلاوڈ سروس ہے جس کے لیے انٹرنیٹ لازمی ہے۔

کیا میں gTTS کمرشل پراڈکٹ میں استعمال کرسکتا ہوں؟

gTTS کے کمرشل آؤٹ پٹ کی لائسنسنگ غیر واضح ہے کیونکہ یہ ان آفیشل گوگل اینڈ پوائنٹ پر مبنی ہے، جب کہ Speechify API واضح کمرشل لائسنسنگ فراہم کرتا ہے۔

gTTS میں آوازیں کیسے بدلیں؟

عملاً ممکن نہیں۔ gTTS ہر زبان میں صرف ایک ہی آواز دیتا ہے، جبکہ Speechify API میں آپ نیورل وائسوں کی مختلف اقسام میں سے انتخاب کر سکتے ہیں۔

کیا gTTS SSML سپورٹ کرتا ہے؟

نہیں، gTTS میں SSML سپورٹ، pitch کنٹرول، یا ریٹ کنٹرول موجود نہیں، جبکہ Speechify API پورا prosody کنٹرول فراہم کرتا ہے۔

gTTS HTTP 429 ایرر کیوں دیتا ہے؟

آپ گوگل ٹرانسلیٹ کا غیر سرکاری ریٹ لمٹ کراس کر چکے ہیں، اسی لیے زیادہ تر ڈویلپرز SLA کے ساتھ کسی پروفیشنل سروس، مثلاً Speechify API کی طرف چلے جاتے ہیں۔

کیا gTTS اور گوگل کلاؤڈ ٹیکسٹ ٹو اسپیچ ایک ہی ہیں؟

نہیں، gTTS صرف غیر سرکاری گوگل ٹرانسلیٹ اینڈ پوائنٹ استعمال کرتا ہے، جبکہ گوگل کلاؤڈ TTS ایک الگ پیڈ پروڈکٹ ہے، اور Speechify API نیورل وائس کے ساتھ ایک اور پیڈ آپشن ہے۔

پروڈکشن کے لیے بہترین Python TTS لائبریری کون سی ہے؟

gTTS پروٹوٹائپس کے لیے مناسب ہے، پروڈکشن کے لیے نہیں؛ زیادہ تر ڈویلپرز پروڈکشن میں پیڈ API، مثلاً Speechify API کا رخ کرتے ہیں۔

کیا gTTS وائس کلون کر سکتا ہے؟

نہیں، وائس کلوننگ gTTS میں ممکن نہیں، البتہ Speechify API میں دستیاب ہے۔

gTTS سے آڈیو اسٹریمنگ کیسے کریں؟

gTTS حقیقی وقت میں اسٹریمنگ سپورٹ نہیں کرتا، یہ صرف مکمل MP3 بناتا ہے، اس لیے کم لیٹنسی اسٹریمنگ کے لیے Speechify API استعمال کریں۔


انتہائی جدید اے آئی آوازوں، لامحدود فائلوں اور 24/7 سپورٹ سے لطف اٹھائیں

مفت آزمائیں
tts banner for blog

یہ مضمون شیئر کریں

Cliff Weitzman

کلف وائتزمین

سی ای او / بانی، اسپیچفائی

کلف وائتزمین ڈسلیکسیا کے لیے سرگرم حامی اور اسپیچفائی کے سی ای او و بانی ہیں، جو دنیا کی نمبر 1 ٹیکسٹ ٹو اسپیچ ایپ ہے۔ 1 لاکھ سے زائد 5-اسٹار ریویوز کے ساتھ اس نے ایپ اسٹور کی نیوز و میگزین کیٹیگری میں پہلی پوزیشن حاصل کی۔ 2017 میں وائتزمین کو لرننگ ڈس ایبلٹی رکھنے والے افراد کے لیے انٹرنیٹ کو زیادہ قابلِ رسائی بنانے پر فوربس 30 انڈر 30 میں شامل کیا گیا۔ ان کا تذکرہ ایڈسرج، انک، پی سی میگ، انٹرپرینیئر، میشیبل اور کئی دیگر نمایاں پلیٹ فارمز پر آ چکا ہے۔

speechify logo

اسپیچفائی کے بارے میں

#1 ٹیکسٹ ٹو اسپیچ ریڈر

اسپیچفائی دنیا کا سب سے بڑا ٹیکسٹ ٹو اسپیچ پلیٹ فارم ہے، جس پر 50 ملین سے زائد صارفین اعتماد کرتے ہیں اور 5 لاکھ سے زیادہ پانچ ستارہ ریویوز کے ذریعے اس کی خدمات کو سراہا گیا ہے۔ یہ ٹیکسٹ ٹو اسپیچ iOS، اینڈرائیڈ، کروم ایکسٹینشن، ویب ایپ اور میک ڈیسک ٹاپ ایپس میں دستیاب ہے۔ 2025 میں، ایپل نے اسپیچفائی کو معزز ایپل ڈیزائن ایوارڈ WWDC پر دیا اور اسے ’ایک اہم وسیلہ قرار دیا جو لوگوں کو اپنی زندگی جینے میں مدد دیتا ہے۔‘ اسپیچفائی 60 سے زائد زبانوں میں 1,000+ قدرتی آوازیں فراہم کرتا ہے اور لگ بھگ 200 ممالک میں استعمال ہوتا ہے۔ مشہور شخصیات کی آوازوں میں شامل ہیں سنُوپ ڈاگ اور گوینتھ پیلٹرو۔ تخلیق کاروں اور کاروباری اداروں کے لیے، اسپیچفائی اسٹوڈیو جدید ٹولز فراہم کرتا ہے، جن میں شامل ہیں اے آئی وائس جنریٹر، اے آئی وائس کلوننگ، اے آئی ڈبنگ، اور اس کا اے آئی وائس چینجر۔ اسپیچفائی اپنی اعلیٰ معیار اور کم لاگت والی ٹیکسٹ ٹو اسپیچ API کے ذریعے کئی اہم مصنوعات کو طاقت فراہم کرتا ہے۔ وال اسٹریٹ جرنل، CNBC، فوربز، ٹیک کرنچ اور دیگر بڑے نیوز آؤٹ لیٹس نے اسپیچفائی کو نمایاں کیا ہے۔ اسپیچفائی دنیا کا سب سے بڑا ٹیکسٹ ٹو اسپیچ فراہم کنندہ ہے۔ مزید جاننے کے لیے دیکھیں speechify.com/news، speechify.com/blog اور speechify.com/press۔