gTTS کیا ہے؟
gTTS ایک اوپن سورس Python لائبریری اور کمانڈ لائن ٹول ہے جو ٹیکسٹ کو MP3 آڈیو میں بدلتا ہے، گوگل ٹرانسلیٹ کے text-to-speech اینڈ پوائنٹ کو کال کرکے۔ آپ آؤٹ پٹ کو فائل میں، آڈیو پراسیسنگ کے لیے فائل جیسے آبجیکٹ میں، یا سیدھا stdout پر لکھ سکتے ہیں۔ اسے Pierre Nicolas Durette نے بنایا، MIT لائسنس کے تحت تقسیم کیا گیا، اور PyPI پر سب سے زیادہ ڈاؤن لوڈ ہونے والے TTS پیکجز میں شامل ہے، تقریباً 175,000 ہفتہ وار ڈاؤن لوڈ کے ساتھ۔ اگر آپ کو کبھی Python میں صرف تین لائنوں میں ٹیکسٹ کو MP3 میں بدلنے کی ضرورت پڑی ہو تو gTTS ہی آپ کا اوّلین حل ہوگا۔
لیکن یہ ذہن میں رکھیں کہ gTTS، Google Cloud Text-to-Speech نہیں ہے۔ یہ وہی ان آفیشل بیک اینڈ استعمال کرتا ہے جو گوگل ٹرانسلیٹ کے "سنیں" بٹن کے پیچھے ہے۔ یہی فرق سمجھنا آگے کے تمام حصوں کے لیے اہم ہے: gTTS کہاں بہترین ہے، کہاں کام نہیں آتی، اور کب آپ کو کوئی دوسرا حل لینا چاہیے۔

gTTS کب استعمال کریں؟
gTTS تب استعمال کریں جب آپ کو مفت، تیز پروٹوٹائپنگ چاہیے؛ متن سے MP3 بنانے کا ایک سادہ طریقہ؛ مختلف زبانوں کے ڈیمو؛ شوقیہ پروجیکٹ، تعلیمی مثال، یا ایکسیسبلٹی اسکرپٹ جو گوگل ڈاکس ایکسپورٹ کو اونچی آواز میں پڑھتا ہے۔ gTTS پروڈکشن سطح کے بھروسے، دستاویزی SLA، وائس کلوننگ، SSML کنٹرول، نیورل یا ایکسپریسیو آوازوں، اسٹریمنگ آڈیو یا کمرشل لائسنسنگ کے لیے موزوں نہیں۔
gTTS کیسے کام کرتا ہے؟
gTTS خود مقامی طور پر آواز تیار نہیں کرتا، یہ گوگل ٹرانسلیٹ کے "سنیں" فیچر والے بیک اینڈ کو ریکویسٹ بھیجتا ہے، MP3 ڈاؤن لوڈ کرتا ہے، اور آپ کو بائٹس دیتا ہے۔ اس لیے انٹرنیٹ کنکشن لازمی ہے، آف لائن موڈ نہیں، اور آڈیو آپ کے سسٹم پر نہیں بلکہ گوگل کے سرورز پر تیار ہوتا ہے۔ یہ اینڈ پوائنٹ آفیشل بھی نہیں ہے۔ پروجیکٹ گوگل یا گوگل کلاؤڈ سے منسلک نہیں، اس لیے اپ اسٹریم میں تبدیلیاں بغیر وارننگ کے چیزیں توڑ سکتی ہیں۔
انسٹالیشن
bash
pip install gTTS
gTTS کے لیے Python 3.7 یا اس سے جدید ورژن چاہیے اور یہ macOS، Windows، اور Linux پر چلتا ہے۔ PyPI پر موجودہ ورژن 2.5.4 (نومبر 2024) ہے۔ Debian سسٹمز، مثلاً Raspberry Pi OS، پر نام کے کیس کا دھیان رکھیں: pip پیکج gTTS ہے، جبکہ apt پیکج python3-gtts۔ اگر حالیہ OS پر pip install کے دوران externally-managed-environment ایرر آئے، تو صرف virtual environment میں انسٹال کریں۔
بنیادی استعمال
کم سے کم مثال:
python
from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")
کمانڈ لائن سے:
bash
gtts-cli "hello" --output hello.mp3
زبان اور لہجے کا انتخاب
python
tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")
gTTS tld پیرا میٹر کے ذریعے علاقائی سب ٹیگ بھی منتخب کرنے دیتا ہے — مثلاً
tld="co.uk" برطانوی انگلش یا tld="ca" کینیڈین فرانسیسی کے لیے — یعنی ریکویسٹ مختلف Google Translate ڈومین سے گزار دی جاتی ہے۔
سلو موڈ
python
tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")
بس یہی صوتی کنٹرول کی حد ہے۔ کوئی pitch پیرا میٹر نہیں، کوئی ریٹ سلائیڈر نہیں، صرف slow=True؛ نہ الگ الگ آوازیں، نہ SSML۔
ڈسک کی بجائے بفر میں اسٹریمنگ
python
from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# اب buf کو pydub، ffmpeg، یا ویب ریسپانس میں دیں
پری پروسیسنگ اور طویل متن
gTTS کی بہتر انجینئرنگ خصوصیات میں سے ایک اس کا ٹوکنائزر ہے۔ یہ لمبے ان پٹ کو اس طرح ٹکڑوں میں بانٹتا ہے کہ بیک اینڈ قبول کرے (ہر ریکویسٹ کی حد تقریباً 100 کریکٹر ہے)، سرے جوڑ پر intonation برقرار رکھتا ہے، اور abbreviations، decimals اور دیگر punctuation کے مسائل سنبھالتا ہے۔ آپ اپنی مرضی کے پری پروسیسر بھی لگا سکتے ہیں تاکہ بار بار آنے والے الفاظ کی تلفظ غلطیاں ٹھیک کی جا سکیں — مثلاً پروڈکٹ نام یا small الفاظ کے لیے فونٹک املا دے دیں۔
gTTS کے فوائد کیا ہیں؟
gTTS (گوگل ٹیکسٹ ٹو اسپیچ) ڈویلپرز میں مقبول ہے کیونکہ یہ ہلکا پھلکا، استعمال میں آسان، اور Python ورک فلو میں ضم کرنا سادہ ہے۔ یہ MP3 آڈیو فائلیں بنا سکتا ہے اور آؤٹ پٹ براہِ راست فائل، فائل جیسے آبجیکٹ یا stdout پر بھیج سکتا ہے، جو اسے آٹومیشن اور اسکرپٹنگ کے لیے موزوں بناتا ہے۔ یہ تقریباً 60 زبانوں اور dialect ورژنز کے ساتھ وسیع ملٹی لنگوئل سپورٹ بھی دیتا ہے۔ gtts-cli کمانڈ لائن انٹرفیس ہے جو شیل اسکرپٹس میں بھی آسانی سے چلتا ہے، اور خاص الفاظ، نمبرز یا سبسٹیٹیوشنز کے لیے کسٹمائزایبل ٹوکنائزرز اور پری پروسیسرز فراہم کرتا ہے۔ مِنیمل Python API کی وجہ سے Jupyter نوٹ بکس، Flask ایپس، Discord بوٹس یا دیگر ہلکے پراجیکٹس میں اسپیچ فیچر شامل کرنا بھی آسان ہے۔
gTTS کے نقصانات کیا ہیں؟
سادگی کے باوجود، gTTS میں جدید AI وائس پلیٹ فارمز کے مقابلے میں کئی کمی ہیں۔ آوازیں گوگل ٹرانسلیٹ کی عام آؤٹ پٹ پر مبنی ہیں، جو تو کام چلاؤ ہیں، مگر نیورل ٹیکسٹ ٹو اسپیچ سسٹمز جیسی قدرتی ادائیگی، جذبات اور حقیقت پسندی نہیں دیتیں۔ صارفین ایک زبان میں متعدد آوازوں میں سے انتخاب نہیں کر سکتے، نہ SSML سپورٹ، پچ کنٹرول یا اسپیچ ریٹ کی fine-tuning موجود ہے۔ gTTS میں MP3 مکمل ڈاؤن لوڈ کرنا پڑتا ہے، رئیل ٹائم اسٹریمنگ نہیں، جس سے interactive ایپس میں لیٹنسی بڑھ جاتی ہے۔ ہر ریکویسٹ انٹرنیٹ پر جاتی ہے، اس لیے آف لائن چلانا ممکن نہیں، اور یہ ایسے ماحول میں کم موزوں ہو جاتا ہے جہاں فوری جواب یا اعلیٰ بھروسہ درکار ہو۔
ڈویلپرز کے لیے gTTS کی حدود کیا ہیں؟
1. دستاویزی نہ ہونے والے اینڈ پوائنٹ پر ریٹ لمٹ
یہ کسی بھی صارف کے لیے سب سے بڑا مسئلہ ہے جو "ہیلو ورلڈ" سے آگے جا رہا ہو۔ gTTS کے لیے کوئی واضح کوٹہ نہیں کیونکہ اپ اسٹریم سروس نے بھی نہیں دیا۔ عام طور پر ایک ہی IP چند ہزار کریکٹر فی گھنٹہ بھیج سکتا ہے، پھر گوگل HTTP 429 لوٹاتا ہے، اور اصل حد ٹریفک پر منحصر رہتی ہے۔ اگر آپ کی ایپ ایک ہی سرور سے کئی یوزرز کے لیے آڈیو بناتی ہے، تو بالآخر آپ یہ حدود بغیر SLA کے کراس کر جائیں گے۔
2. اینڈ پوائنٹ کسی بھی وقت بدل سکتا ہے
کیونکہ gTTS، گوگل ٹرانسلیٹ کے اندرونی روٹ کو ہدف بناتا ہے، عوامی API کو نہیں، اس لیے گوگل کسی بھی وقت ریکویسٹ اسٹرکچر یا ریسپانس بدل کر gTTS کو توڑ سکتا ہے۔ مینٹینر فکس جاری کرے گا، آپ
pip install -U gTTS چلا کر معاملہ سنبھال سکتے ہیں۔ یہ شوقیہ اسکرپٹ کے لیے تو ٹھیک ہے، پروڈکشن میں رات کے 2 بجے کے لیے بالکل نہیں۔
3. دیکھ بھال کی رفتار
پروجیکٹ اب بھی ریلیز دے رہا ہے (کم از کم پچھلے 12 ماہ میں ایک)، لیکن مسائل حل کرنے کی رفتار سست ہے اور سب کچھ صرف ایک ہی شخص پر ٹکا ہوا ہے۔ کچھ پیکیج ہیلتھ ٹریکرز ریپو کو "غیرفعال" قرار دیتے ہیں۔ مفت MIT لائسنس لائبریری کے لیے یہ عام بات ہے؛ مگر پیڈ پروڈکٹ کے اہم حصے کے طور پر یہ قابلِ غور رسک ہے۔
4. کمرشل اور TOS ابہام
چونکہ gTTS، گوگل ٹرانسلیٹ کے فرنٹ اینڈ کو ہٹ کرتا ہے، Google Cloud TTS کو نہیں، اس لیے کمرشل استعمال کے لیے بننے والی آڈیو کی لائسنسنگ واضح نہیں۔ لائبریری تو MIT لائسنسڈ ہے؛ مگر جو آڈیو ملتی ہے اس پر گوگل کے وہی سروس ٹرمز لاگو ہیں جو TTS API کے طور پر باضابطہ بیان نہیں۔ اگر آپ کی لیگل ٹیم کو صاف جواب درکار ہو تو gTTS یہ گارنٹی نہیں دیتا۔
5. حساس ڈیٹا آپ کے کمپیوٹر سے باہر جاتا ہے
جو بھی سٹرنگ آپ synthesize کریں، وہ گوگل سرورز کو بھیجی جاتی ہے۔ اگر آپ اندرونی دستاویزات، کسٹمر PII، یا گوگل ڈاکس وغیرہ سے مواد پڑھوا رہے ہیں، تو یہ ڈیٹا گورننس کا ایک اہم سوال ہے جس کا حل ضروری ہے۔
gTTS اور Google Cloud Text-to-Speech میں کیا فرق ہے؟
اگرچہ gTTS اور Google Cloud Text-to-Speech کو اکثر ایک ہی سمجھ لیا جاتا ہے، دونوں دراصل مختلف چیزیں ہیں۔ اہم فرق یہ ہیں:
اگر پروڈکشن میں اصل گوگل وائس چاہیے، تو تقریباً یقینی طور پر آپ کو Google Cloud TTS لینا چاہیے، gTTS نہیں۔
پروفیشنل TTS API پر کب جانا چاہیے؟
gTTS سے کسی پروفیشنل ٹیکسٹ ٹو اسپیچ API پر منتقل ہونے کا درست وقت آپ کے پروجیکٹ میں آڈیو کے معیار، بھروسے اور اپنی مرضی کے کنٹرول پر منحصر ہے۔ gTTS پروٹوٹائپس، پورٹ فولیو، ذاتی ایکسسیسبلٹی ٹولز، تعلیمی ڈیمو اور ہلکے ایکسپیریمنٹس کے لیے بہترین ہے کیونکہ یہ مفت، آسان اور سادہ ہے۔ لیکن اگر آپ کمرشل پروڈکٹ بنا رہے ہیں، صارف کے لیے آڈیو کا معیار اہم ہے، یا متعین لیٹنسی اور SLA چاہیے تو پروفیشنل حل لازمی ہو جاتا ہے۔ اپ گریڈ تب بھی مناسب ہے جب آپ کو متعدد آوازوں کے آپشن، وائس کلوننگ، SSML سپورٹ، اسٹریمنگ آڈیو، pacing یا pronunciation پر کنٹرول، یا واضح کمرشل لائسنسنگ درکار ہو۔ ایکسپیریمنٹ سے پروڈکشن کی طرف بڑھتے ہوئے، یہ فیچرز لازمی بن جاتے ہیں۔
آپ کو gTTS یا Speechify API لینا چاہیے؟
Speechify کا ٹیکسٹ ٹو اسپیچ API ایک باقاعدہ سپورٹڈ، پیڈ سروس ہے جس میں نیورل وائس، ہر زبان کے لیے ایک سے زیادہ آوازیں، SSML سپورٹ، اور کمرشل لائسنس معاہدے میں پہلے سے شامل ہے۔ اگر gTTS کی ریٹ لمٹس، آواز کا معیار یا لائسنسنگ آپ کے لیے مسئلہ بن رہے ہوں تو یہی وقت ہے کہ آپ اس پر شفٹ ہو جائیں۔
عمومی سوالات
کیا gTTS مفت ہے؟
جی ہاں، gTTS ایک مفت MIT لائسنس یافتہ Python لائبریری ہے، لیکن کمرشل معیار اور واضح لائسنس والی آڈیو کے لیے آپ کو Speechify API جیسی پیڈ سروس چاہیے۔
کیا gTTS آف لائن کام کرتا ہے؟
نہیں، gTTS کو انٹرنیٹ درکار ہوتا ہے کیونکہ یہ گوگل کے سرور سے کنیکٹ کرتا ہے، اور Speechify API بھی کلاوڈ سروس ہے جس کے لیے انٹرنیٹ لازمی ہے۔
کیا میں gTTS کمرشل پراڈکٹ میں استعمال کرسکتا ہوں؟
gTTS کے کمرشل آؤٹ پٹ کی لائسنسنگ غیر واضح ہے کیونکہ یہ ان آفیشل گوگل اینڈ پوائنٹ پر مبنی ہے، جب کہ Speechify API واضح کمرشل لائسنسنگ فراہم کرتا ہے۔
gTTS میں آوازیں کیسے بدلیں؟
عملاً ممکن نہیں۔ gTTS ہر زبان میں صرف ایک ہی آواز دیتا ہے، جبکہ Speechify API میں آپ نیورل وائسوں کی مختلف اقسام میں سے انتخاب کر سکتے ہیں۔
کیا gTTS SSML سپورٹ کرتا ہے؟
نہیں، gTTS میں SSML سپورٹ، pitch کنٹرول، یا ریٹ کنٹرول موجود نہیں، جبکہ Speechify API پورا prosody کنٹرول فراہم کرتا ہے۔
gTTS HTTP 429 ایرر کیوں دیتا ہے؟
آپ گوگل ٹرانسلیٹ کا غیر سرکاری ریٹ لمٹ کراس کر چکے ہیں، اسی لیے زیادہ تر ڈویلپرز SLA کے ساتھ کسی پروفیشنل سروس، مثلاً Speechify API کی طرف چلے جاتے ہیں۔
کیا gTTS اور گوگل کلاؤڈ ٹیکسٹ ٹو اسپیچ ایک ہی ہیں؟
نہیں، gTTS صرف غیر سرکاری گوگل ٹرانسلیٹ اینڈ پوائنٹ استعمال کرتا ہے، جبکہ گوگل کلاؤڈ TTS ایک الگ پیڈ پروڈکٹ ہے، اور Speechify API نیورل وائس کے ساتھ ایک اور پیڈ آپشن ہے۔
پروڈکشن کے لیے بہترین Python TTS لائبریری کون سی ہے؟
gTTS پروٹوٹائپس کے لیے مناسب ہے، پروڈکشن کے لیے نہیں؛ زیادہ تر ڈویلپرز پروڈکشن میں پیڈ API، مثلاً Speechify API کا رخ کرتے ہیں۔
کیا gTTS وائس کلون کر سکتا ہے؟
نہیں، وائس کلوننگ gTTS میں ممکن نہیں، البتہ Speechify API میں دستیاب ہے۔
gTTS سے آڈیو اسٹریمنگ کیسے کریں؟
gTTS حقیقی وقت میں اسٹریمنگ سپورٹ نہیں کرتا، یہ صرف مکمل MP3 بناتا ہے، اس لیے کم لیٹنسی اسٹریمنگ کے لیے Speechify API استعمال کریں۔

