1. หน้าหลัก
  2. TTS
  3. gtts
Updated on TTS

gtts

Cliff Weitzman

Cliff Weitzman

ซีอีโอ/ผู้ก่อตั้ง Speechify

#1 โปรแกรมอ่านข้อความเป็นเสียง
ให้ Speechify อ่านให้คุณฟัง

apple logoรางวัล Apple Design Award 2025
ผู้ใช้งานกว่า 50 ล้านคน

gTTS คืออะไร?

gTTS เป็นไลบรารี Python แบบโอเพ่นซอร์สและเครื่องมือบรรทัดคำสั่งที่แปลงข้อความเป็นเสียงพูดไฟล์ MP3 โดยเรียกใช้ endpoint ของ Google Translate text-to-speech คุณสามารถเขียนผลลัพธ์ลงไฟล์, object คล้ายไฟล์เพื่อนำเสียงไปประมวลผลต่อ หรือส่งออก stdout ได้โดยตรง ผู้เขียนคือ Pierre Nicolas Durette และแจกภายใต้ข้อตกลง MIT license นับเป็นแพ็คเกจ TTS ที่มีผู้ดาวน์โหลดมากสุดใน PyPI ราว 175,000 ครั้งต่อสัปดาห์ ถ้าคุณเคยหาวิธีแปลง string เป็น MP3 ด้วย Python 3 ไม่กี่บรรทัด gTTS ก็มักจะเป็นคำตอบแรกที่เจอ

แต่ต้องย้ำว่า gTTS ไม่ใช่ Google Cloud Text-to-Speech มันติดต่อเบื้องหลังเดียวกับปุ่ม "ฟัง" ของ Google Translate ที่ไม่มีเอกสารเผยแพร่ ความต่างนี้ส่งผลต่อจุดเด่น ข้อจำกัด และสถานการณ์ที่ควรเลือกใช้หรือเปลี่ยนไปใช้เครื่องมืออื่น

gTTS

ควรใช้ gTTS เมื่อไหร่?

ใช้ gTTS ถ้าต้องการสร้างต้นแบบเร็วฟรี, สร้างไฟล์ MP3 จากข้อความแบบง่าย, เดโมหลายภาษา, โปรเจกต์งานอดิเรก งานสอน หรือสคริปต์ ช่วยการเข้าถึง ที่อ่าน Google Docs ให้ฟัง หลีกเลี่ยงหากต้องการใช้งานระดับ production, SLA, โคลนเสียง, SSML, คุมอารมณ์น้ำเสียง, สตรีมเสียง หรือใบอนุญาตเชิงพาณิชย์ที่ชัดเจน

gTTS ทำงานอย่างไร?

gTTS ไม่สังเคราะห์เสียงในเครื่อง มันสร้าง request ไปหลังบ้าน Google Translate รับไฟล์ MP3 กลับมาและส่ง byte ให้คุณ นั่นหมายความว่าคุณต้องต่ออินเทอร์เน็ต ไม่มีโหมดออฟไลน์ และเสียงถูกสร้างที่เซิร์ฟเวอร์ Google endpoint นี้ไม่มีเอกสารประกอบ และโปรเจกต์ไม่ได้ร่วมกับ Google/Cloud การเปลี่ยนแปลง upstream อาจทำให้ gTTS ใช้ไม่ได้ทันที

การติดตั้ง

bash

pip install gTTS

gTTS ต้องการ Python 3.7 ขึ้นไป และใช้ได้กับ macOS, Windows, Linux PyPI เวอร์ชันปัจจุบันคือ 2.5.4 (พฤศจิกายน 2024) ในระบบ Debian/Raspberry Pi ชื่อ pip คือ gTTS, apt คือ python3-gtts ถ้า pip install ขึ้น externally-managed-environment บนระบบใหม่ ให้ติดตั้งใน virtual environment แทน

การใช้งานพื้นฐาน

ตัวอย่างที่สั้นที่สุด:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

สั่งงานผ่าน Command Line

bash

gtts-cli "hello" --output hello.mp3

เลือกภาษาและสำเนียง

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

gTTS ยังรองรับ sub-tag ภูมิภาคด้วยพารามิเตอร์ tld — เช่น

tld="co.uk" สำหรับสำเนียงอังกฤษแบบบริทิช หรือ tld="ca" สำหรับฝรั่งเศสแบบแคนาดา โดยส่ง request ผ่านโดเมน Google Translate ที่ต่างกัน

โหมดช้า (Slow Mode)

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

นี่คือฟีเจอร์ควบคุมเสียงทั้งหมด ไม่มีตัวคุม pitch หรือ rate นอกจาก slow=True ไม่มีเลือกเสียงแต่ละคน และไม่มี SSML

สตรีมไฟล์ไป Buffer แทน Disk

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# now feed buf into pydub, ffmpeg, a web response, etc.

Pre-processing และข้อความยาว

หนึ่งในจุดเด่นของ gTTS คือ tokenizer ที่ตัดข้อความยาวเป็นช่วงสั้นๆ (ไม่เกิน 100 ตัวอักษรต่อครั้ง), รักษาน้ำเสียงระหว่างรอยต่อ, แก้ปัญหาคำย่อ ทศนิยม และวรรคตอนที่ซับซ้อนได้ คุณยังสามารถเขียน pre-processor เองเพื่อแก้คำออกเสียงเฉพาะที่ใช้ซ้ำ เช่น ชื่อสินค้า หรือชื่อย่อให้อ่านถูก

ข้อดีของ gTTS มีอะไรบ้าง?

gTTS (Google Text-to-Speech) เป็นที่นิยมในหมู่นักพัฒนา เพราะน้ำหนักเบา ติดตั้งง่าย เข้ากับ workflow Python ได้ดี สร้างไฟล์ MP3 เก็บผลลงไฟล์, object หรือ stdout ได้ จึงเหมาะกับงานอัตโนมัติ/สคริปต์ รองรับราว 60 ภาษา หลายสำเนียงผ่านค่า lang/tld มีทั้ง CLI (gtts-cli) ใช้งานง่ายกับ shell script และ tokenizer, pre-processor สำหรับคำย่อ ตัวเลข และข้อความแทนค่า Python API ที่เรียบง่าย ทำให้ใส่ใน Jupyter, Flask, Discord bot และโปรเจกต์ขนาดเล็กได้สะดวก โดยไม่ต้องเรียนรู้อะไรมาก

ข้อเสียของ gTTS?

แม้จะใช้ง่าย gTTS ก็มีข้อจำกัดชัดเจนเมื่อเทียบกับแพลตฟอร์มเสียง AI สมัยใหม่ เสียงมีแค่มาตรฐาน Google Translate ที่ขาดอินโทเนชันและความเป็นธรรมชาติแบบ neural text to speech รุ่นใหม่ เลือกเสียงได้แค่ 1 ต่อภาษา ไม่มีคุม pitch, SSML หรือความเร็วละเอียดพิเศษ ต้องดาวน์โหลดไฟล์ MP3 ทั้งชุดก่อนเล่น ไม่รองรับสตรีมสด จึงมี latency ข้อจำกัดสำคัญอีกอย่างคือทุก request ต้องผ่านเน็ต ไม่มีโหมดออฟไลน์ จึงไม่เหมาะกับระบบที่ต้องการเสถียรภาพหรือเสียงตอบสนองเร็วมาก

ข้อจำกัดของ gTTS สำหรับนักพัฒนาคืออะไร?

1. การจำกัด rate บน endpoint ที่ไม่มีเอกสาร

นี่คือกับดักใหญ่สุดสำหรับงานที่เกิน "hello world" เพราะ gTTS และบริการ upstream ไม่มีประกาศ quota ใช้งานจริง ไอพีเดียวมักส่งได้ไม่กี่หมื่นตัวอักษรต่อชั่วโมง ก่อนจะโดน Google ส่ง HTTP 429 กลับมา เพดานที่เจอจริงขึ้นกับลักษณะการใช้ ถ้าแอปคุณสร้างเสียงให้ user จำนวนมากจากเซิร์ฟเวอร์เดียว ท้ายที่สุดก็จะชนลิมิตนี้ โดยไม่มี SLA ให้พึ่งพา

2. Endpoint เปลี่ยนโดยไม่มีแจ้งล่วงหน้า

เพราะ gTTS ใช้ route ภายใน Google Translate ไม่ใช่ public API ที่มีเวอร์ชัน Google เปลี่ยน request/response เมื่อไหร่ก็ได้ และที่ผ่านมาก็เคยเปลี่ยนมาแล้ว ผู้ดูแลจึงต้องปล่อยแพตช์ แล้วคุณ

pip install -U gTTS แล้วใช้งานต่อได้ ปกติสำหรับสคริปต์เล่น ไม่เหมาะกับ deployment production โดยเฉพาะงานที่สำคัญตอนตี 2

3. ความถี่การดูแล (Maintenance cadence)

โปรเจกต์ยังออกเวอร์ชันใหม่ (เคยอัปเดตภายใน 12 เดือนล่าสุด) แต่การจัดการ issue ช้า และมีผู้ดูแลคนเดียว health บางเว็บมอง repo ว่า "inactive" ซึ่งสำหรับไลบรารีฟรีก็ถือว่าไม่แปลก แต่หากใช้เป็น dependency หลักในโปรเจกต์ที่มีรายได้ ก็ควรคิดให้รอบคอบ

4. ความไม่ชัดเจนเรื่องพาณิชย์และ TOS

เพราะ gTTS ใช้ frontend Google Translate ไม่ใช่ Google Cloud TTS เงื่อนไขการใช้เสียง MP3 เชิงพาณิชย์จึงไม่มีระบุชัด gTTS ตัวไลบรารีเป็น MIT; แต่เสียงที่ได้อยู่ภายใต้ข้อกำหนดของ Google ที่ไม่ได้ระบุบริการ TTS อย่างเป็นทางการ ถ้าทีมกฎหมายต้องการคำตอบชัดเจน gTTS อาจไม่ตอบโจทย์

5. ข้อมูลอ่อนไหวถูกส่งออกนอกเครื่อง

ข้อความที่คุณนำไปสร้างเสียงถูกส่งไปเซิร์ฟเวอร์ Google ถ้าคุณใช้กับ เอกสาร ภายใน, ข้อมูล PII หรือคอนเทนต์จาก Google Docs และแหล่งข้อมูลอื่น ต้องคิดถึงนโยบายข้อมูลและข้อกำหนดด้าน privacy ให้ดีก่อนนำไปใช้จริง

ความต่างระหว่าง gTTS กับ Google Cloud Text-to-Speech คืออะไร?

แม้ gTTS และ Google Cloud Text-to-Speech จะถูกสับสนบ่อย แต่มันไม่ใช่ผลิตภัณฑ์เดียวกัน ความต่างหลักๆ คือ:


gTTS

Google Cloud TTS


Endpoint

เส้นทางใน Google Translate ที่ไม่มีเอกสาร

API สาธารณะที่มีเอกสาร กำหนดเวอร์ชัน

Auth

ไม่มี

Service account / API key

ค่าใช้จ่าย

ฟรี

เสียเงิน (คิดตามตัวอักษร)

เสียงพูด

ภาษา 1 เสียง

Neural (WaveNet, Studio, Chirp)

SSML

ไม่มี

มี

SLA

ไม่มี

SLA ที่เผยแพร่

ใช้เชิงพาณิชย์

ไม่ชัดเจน

ได้รับอนุญาตโดยชัดเจน

ถ้าต้องการเสียง Google ในระบบจริง คุณควรเลือก Google Cloud TTS มากกว่า gTTS

ควรอัปเกรดเป็น TTS API ระดับมืออาชีพเมื่อไหร่?

เวลาที่เหมาะในการเปลี่ยนจาก gTTS เป็น text to speech API มืออาชีพขึ้นอยู่กับความสำคัญของคุณภาพเสียง ความเสถียร และการปรับแต่งในโปรเจกต์ gTTS เหมาะสำหรับโปรโตไทป์, โปรเจกต์ส่วนตัว, เครื่องมือช่วยเหลือ, เดโมด้านการศึกษา และโครงการทดลองเพราะฟรีและใช้ง่าย แต่ถ้าเป็นสินค้าจริง, user เสียงสำคัญกับ UX หรืออยากได้ latency ที่มี SLA ควรเลือกโซลูชันระดับมืออาชีพ การอัปเกรดก็เหมาะเมื่อคุณต้องการเสียงหลากหลาย, โคลนเสียง, รองรับ SSML, สตรีม, คุมจังหวะ-น้ำเสียง หรือใบอนุญาตเชิงธุรกิจแบบชัดเจน เมื่อโปรเจกต์เปลี่ยนจากทดลองเป็น production ฟีเจอร์เหล่านี้จะยิ่งสำคัญ

ควรเลือก gTTS หรือ API ของ Speechify?

Speechify text to speech API เป็นเซอร์วิสเสียเงินที่รองรับการใช้งานจริง, มีเสียง Neural, เลือกเสียงหลากหลายต่อภาษา, SSML และลิขสิทธิ์เชิงพาณิชย์ กรณี gTTS เริ่มชนขีดจำกัดด้านจำนวนเสียง คุณภาพ หรือ TOS ให้ลองพิจารณาตัวเลือกนี้

คำถามที่พบบ่อย

gTTS ใช้ฟรีไหม?

gTTS เป็น Python ไลบรารีฟรีภายใต้ MIT license แต่ถ้าต้องการเสียงพร้อมลิขสิทธิ์เชิงพาณิชย์ควรเลือก Speechify API

gTTS ใช้งานออฟไลน์ได้ไหม?

ไม่ได้ gTTS ต้องเชื่อมอินเทอร์เน็ตเพราะแปลงเสียงที่ฝั่ง Google ซึ่ง Speechify API ก็ต้องต่อเน็ตเช่นกันเพราะเป็นระบบคลาวด์

ใช้ gTTS ในสินค้าพาณิชย์ได้ไหม?

สิทธิการใช้เสียง gTTS เชิงพาณิชย์ยังไม่ชัดเจนเพราะพึ่ง endpoint Google ที่ไม่มีระบุอย่างเป็นทางการ ส่วน Speechify API ให้ license เชิงพาณิชย์โดยตรง

เปลี่ยนเสียงใน gTTS ทำอย่างไร?

เปลี่ยนไม่ได้ gTTS มีแค่ 1 เสียงต่อภาษา แต่ Speechify API มีแคตตาล็อกเสียง neural ให้เลือกจำนวนมาก

gTTS รองรับ SSML ไหม?

ไม่รองรับ SSML, ไม่มีตัวคุม pitch หรือ rate แบบละเอียด แต่ Speechify API รองรับ SSML แบบเต็ม

ทำไม gTTS ได้ HTTP 429?

คุณชนลิมิต rate ใน Google Translate แล้ว นี่คือสาเหตุที่ dev หลายคนย้ายไประบบที่มี SLA จริง อย่าง Speechify API

gTTS และ Google Cloud Text-to-Speech เหมือนกันไหม?

ไม่เหมือน gTTS ใช้ endpoint Google Translate ที่ไม่เป็นทางการ Cloud TTS เป็นสินค้าแยกต่างหากที่ต้องจ่าย ส่วน Speechify API คืออีกตัวเลือก TTS neural แบบคิดค่าใช้บริการ

ไลบรารี TTS Python ที่ดีที่สุดสำหรับ production?

gTTS เหมาะกับต้นแบบ ไม่ใช่ production งานจริง dev ส่วนมากย้ายไปใช้ API จ่ายเงิน เช่น Speechify API

gTTS clone เสียงได้ไหม?

ทำไม่ได้ โคลนเสียง ต้องใช้ Speechify API

gTTS สตรีมเสียงได้อย่างไร?

gTTS ไม่รองรับสตรีมสด ได้แค่ MP3 สำเร็จรูป ถ้าต้องการสตรีม latency ต่ำให้ใช้ Speechify API


เพลิดเพลินกับเสียง AI ที่ล้ำสมัยที่สุด ไฟล์ไม่จำกัด และการสนับสนุนตลอด 24/7

ทดลองฟรี
tts banner for blog

แชร์บทความนี้

Cliff Weitzman

Cliff Weitzman

ซีอีโอ/ผู้ก่อตั้ง Speechify

คลิฟฟ์ ไวท์ซ์แมน เป็นผู้ขับเคลื่อนสิทธิผู้มีภาวะดิสเล็กเซีย และดำรงตำแหน่งซีอีโอและผู้ก่อตั้ง Speechify แอปแปลงข้อความเป็นเสียงอันดับ 1 ของโลก ที่กวาดรีวิว 5 ดาวกว่า 100,000 รายการ และเคยครองอันดับ 1 ใน App Store หมวดข่าวสารและนิตยสาร ในปี 2017 ไวท์ซ์แมนติดโผ Forbes 30 Under 30 จากผลงานผลักดันให้โลกออนไลน์เข้าถึงได้มากขึ้นสำหรับผู้มีความบกพร่องทางการเรียนรู้ ผลงานของคลิฟฟ์ ไวท์ซ์แมนถูกกล่าวถึงในสื่อชั้นนำอย่าง EdSurge, Inc., PC Mag, Entrepreneur, Mashable และอีกมากมาย

speechify logo

เกี่ยวกับ Speechify

#1 โปรแกรมอ่านข้อความเป็นเสียง

Speechify เป็นแพลตฟอร์ม แปลงข้อความเป็นเสียง ชั้นนำของโลกที่มีผู้ใช้งานกว่า 50 ล้านคน และได้รับรีวิวระดับ 5 ดาวมากกว่า 500,000 รีวิวในแอปพลิเคชัน iOS, Android, Chrome Extension, เว็บแอป และ แอปบน Mac ในปี 2025 Apple ได้มอบรางวัล Apple Design Award อันทรงเกียรติให้กับ Speechify ในงาน WWDC โดยกล่าวว่าเป็น “ทรัพยากรสำคัญที่ช่วยให้ผู้คนใช้ชีวิตได้ง่ายขึ้น” Speechify มีเสียงธรรมชาติกว่า 1,000 เสียงใน 60+ ภาษา และมีผู้ใช้งานในเกือบ 200 ประเทศ เสียงคนดังที่มีให้เลือกใช้งาน เช่น Snoop Dogg, Mr. Beast และ Gwyneth Paltrow สำหรับผู้สร้างสรรค์และธุรกิจ Speechify Studio มีเครื่องมือขั้นสูง เช่น AI Voice Generator, AI Voice Cloning, AI Dubbing และ AI Voice Changer Speechify ยังสนับสนุนผลิตภัณฑ์ชั้นนำด้วย Text to Speech API ที่มีคุณภาพสูงและคุ้มค่า นอกจากนี้ยังได้รับการนำเสนอใน The Wall Street Journal, CNBC, Forbes, TechCrunch และสื่อชั้นนำอื่น ๆ Speechify เป็นผู้ให้บริการแปลงข้อความเป็นเสียงที่ใหญ่ที่สุดในโลก เยี่ยมชม speechify.com/news, speechify.com/blog และ speechify.com/press เพื่อเรียนรู้เพิ่มเติม