1. TTS
  2. gtts
Updated on TTS

gtts

Cliff Weitzman

클리프 바이츠먼

Speechify CEO 겸 창업자

apple logo2025 애플 디자인 어워드
5천만+ 사용자

gTTS란?

gTTS는 오픈소스 파이썬 라이브러리이자 CLI 도구로, 구글 번역의 음성 합성 엔드포인트를 호출해 텍스트를 음성 MP3로 변환합니다. 결과를 파일이나 파일 객체, 또는 stdout에 쓸 수 있습니다. Pierre Nicolas Durette가 개발했고 MIT 라이선스로 배포되며, PyPI에서 주간 약 17만 5천 건 다운로드되는 인기 TTS 패키지 중 하나입니다. 파이썬 3줄로 문자열을 MP3로 바꿔야 했다면, 아마 gTTS가 첫 검색 결과였을 것입니다.

단, gTTS는 Google Cloud Text-to-Speech와 동일하지 않습니다. 구글 번역의 숨겨진 음성 합성 백엔드(번역기 내 "듣기" 버튼)를 사용합니다. 이 차이가 아래 모든 설명, 즉 gTTS의 장단점과 한계, 대안 선택 기준을 좌우합니다.

gTTS

gTTS를 언제 사용해야 할까요?

무료, 빠른 프로토타이핑, 텍스트 MP3 변환 원라이너, 다국어 데모, 취미/수업/ 접근성 스크립트, Google Docs 파일 음성 읽기 등에 gTTS를 쓰세요. 하지만 서비스 수준, 음성 복제, SSML, 신경망/감정 목소리, 스트리밍, 명확한 상업적 이용 라이선스가 필요하면 적합하지 않습니다.

gTTS는 어떻게 동작하나요?

gTTS는 로컬에서 음성을 합성하지 않습니다. 구글 번역 "듣기" 백엔드로 요청을 보내 MP3를 다운로드해 바이트로 제공합니다. 즉, 오프라인 모드가 없으므로 항상 인터넷이 필요하고, 음성은 내 PC가 아닌 구글 서버에서 생성됩니다. 이 엔드포인트는 공식 API가 아니므로, 구글ㆍ구글 클라우드와 무관하며 예고 없이 작동이 중단될 수 있습니다.

설치 방법

bash

pip install gTTS

gTTS는 Python 3.7 이상 필요하며 macOS, Windows, Linux에서 작동합니다. 최신 PyPI 버전은 2.5.4(2024년 11월)입니다. Debian/라즈베리파이 계열에서는 pip 패키지는 gTTS, apt 패키지는 python3-gtts입니다. 설치 중 externally-managed-environment 오류가 발생하면 가상 환경에 설치하세요.

기본 사용법

최소 예제:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

커맨드 라인 사용:

bash

gtts-cli "hello" --output hello.mp3

언어, 악센트 선택

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

gTTS는 tld 파라미터로 지역 방언도 지원합니다. 예시:

tld="co.uk"이면 영국 영어, tld="ca"이면 캐나다 프랑스어 악센트처럼, 구글 번역의 도메인별로 요청을 보냅니다.

느린 읽기 모드

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

이것이 제공되는 전체 조절 옵션입니다. pitch, 속도 슬라이더(slow=True 외), 음성 선택, SSML은 없습니다.

파일 대신 버퍼로 스트리밍

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# now feed buf into pydub, ffmpeg, a web response, etc.

전처리 & 긴 텍스트

gTTS의 강점 중 하나는 토크나이저입니다. 긴 입력을 백엔드가 허용하는 길이(100자 내외)로 잘라 음성의 억양을 최대한 살리고, 약어/소수점/기타 문장부호도 제대로 처리합니다. 반복 발음 문제는 직접 전처리기를 연결해(예: 제품명, 약어를 발음 기호로 치환) 보정할 수 있게 설계돼 있습니다.

gTTS의 장점은?

gTTS(Google Text-to-Speech)는 가볍고 구현이 쉬우며 파이썬 워크플로우에 잘 녹아들어 개발자에게 인기가 많습니다. MP3 음성 파일 생성과 파일·파일 객체·stdout 저장이 가능해 자동화나 스크립트에 활용도가 높습니다. 약 60개 언어와 다양한 방언도 지원하고, CLI(gtts-cli)로 셸 스크립트와 연동이 쉬우며, 약어·숫자·치환용 토크나이저와 전처리를 커스터마이징할 수도 있습니다. 최소한의 API만 제공돼 주피터, Flask, 디스코드 봇 등 가벼운 프로젝트에 음성 기능을 손쉽게 붙일 수 있습니다.

gTTS의 단점은?

gTTS는 단순하지만 최신 AI 음성 플랫폼과 비교하면 한계가 큽니다. 목소리는 구글 번역 기본 음성이며, 자연스러운 억양·감정·현실감이 떨어집니다. 언어당 음성 선택권이 없고, SSML, 음조, 세밀한 속도, 고급 제어 기능도 없습니다. 재생 전 전체 MP3를 모두 받아야 하며(실시간 스트리밍 없음), 요청마다 인터넷 연결이 필수라 신뢰성이나 저지연이 중요한 환경에는 맞지 않습니다.

개발자에게 gTTS의 한계는?

1. 미공개 엔드포인트의 요청 제한

"hello world"를 넘어서면 가장 크게 다가오는 장벽입니다. gTTS와 백엔드 모두 쿼터를 공개하지 않습니다. 실제로는 IP당 시간당 수만 자까지도 가능하지만, 트래픽 상황에 따라 달라집니다. 서버 1대로 많은 사용자에게 오디오를 제공하면 곧 제한(HTTP 429)에 걸릴 수 있고, 이 문제에 대한 SLA도 없습니다.

2. 엔드포인트가 예고 없이 바뀜

gTTS는 버전·문서화된 API 대신 구글 번역 내부 경로를 쓰므로, 구글이 구조를 변경하면 gTTS가 바로 동작을 멈출 수도 있습니다. 유지자가 빠르게 수정하더라도

pip install -U gTTS로 직접 복구해야 하며, 취미가 아닌 새벽 2시의 운영 환경에선 치명적일 수 있습니다.

3. 유지보수 속도 문제

최근 12개월에도 업데이트는 있었지만, 이슈 처리 속도가 느리고 사실상 1인 유지 보수입니다. 일부 패키지 헬스 트래커에서는 비활성에 가깝다고 평가할 정도입니다. MIT 라이선스 무료 OSS에선 흔한 일이지만, 상용 서비스에선 리스크로 봐야 합니다.

4. 상업 용도 및 약관 불확실성

gTTS는 구글 번역 프론트엔드를 사용해, 만들어진 오디오의 상업적 활용 가능 여부가 문서상 명확하지 않습니다. 라이브러리는 MIT지만 오디오는 공식 TTS API가 아니라 구글 서비스 약관을 적용받습니다. 법적으로 확실한 답이 필요하다면 gTTS는 해답을 주지 못합니다.

5. 민감 정보가 외부로 전송됨

합성하는 모든 문자열이 구글 서버로 전송됩니다. 내부 문서, 고객 개인정보, Google Docs 등에서 불러온 데이터라면 출시 전 반드시 데이터 관리 이슈를 따져봐야 합니다.

gTTS와 Google Cloud Text-to-Speech의 차이?

gTTS와 Google Cloud Text-to-Speech는 자주 혼동되지만, 완전히 다른 서비스입니다. 주요 차이는 다음과 같습니다.


gTTS

Google Cloud TTS


엔드포인트

비공개 구글 번역 경로

버전 및 문서화된 공개 API

인증

없음

API 키/서비스 계정

비용

무료

유료(글자수 과금)

음성

언어별 1개 음성

신경망(WaveNet 등)

SSML

아니오

SLA

없음

공식 SLA 제공

상업 사용

불분명

명확히 허용

프로덕션에서 구글 음성이 필요하다면, 거의 항상 Google Cloud TTS를 써야 합니다.

언제 전문 TTS API로 업그레이드해야 할까요?

음성 품질, 안정성, 커스터마이징이 프로젝트에 얼마나 중요한지에 따라 업그레이드 타이밍이 달라집니다. gTTS는 프로토타입/포트폴리오/접근성/교육/가벼운 실험에 적합합니다. 유저 대상 제품/상용 서비스/품질·저지연·SLA가 중요하다면 전문 API가 필요합니다. 고급 목소리, 음성 복제, SSML, 스트리밍, 정밀 조절, 명확한 상업 라이선스가 필요하면 대체가 필수입니다.

gTTS와 Speechify API, 무엇을 선택해야 할까?

Speechify의 TTS API는 공식 지원·유료·신경망 음성·언어별 다중 보이스· SSML·상업 라이선스가 계약에 포함된 서비스입니다(비공식 백엔드 아님). gTTS의 한계(요청 제한, 품질, 약관)가 불편하다면 대안 검토를 권장합니다.

FAQ

gTTS는 무료인가요?

네, gTTS는 무료 MIT·파이썬 라이브러리입니다. 단, 상업용·라이선스 보장 오디오가 필요하다면 Speechify API와 같은 유료 서비스가 더 적합합니다.

gTTS는 오프라인에서도 되나요?

아니요. gTTS는 구글 서버와 통신해야 하므로 인터넷이 필수입니다. Speechify API도 클라우드 기반이라 연결이 필요합니다.

gTTS를 상업 제품에 쓸 수 있나요?

gTTS는 비공개 구글 엔드포인트를 이용하기 때문에 상업적 오디오 사용 라이선스가 불분명합니다. Speechify API는 상업 이용을 명시적으로 허용합니다.

gTTS에서 목소리를 바꿀 수 있나요?

거의 불가능합니다. gTTS는 언어별 1개 음성만 제공하고, Speechify API는 다양한 신경망 목소리 중에서 선택할 수 있습니다.

gTTS는 SSML을 지원하나요?

아니요. gTTS는 SSML, pitch, 세밀한 속도 조절을 지원하지 않고, Speechify API가 SSML을 완벽 지원합니다.

gTTS에서 HTTP 429 오류란?

구글 번역 미공개 엔드포인트의 요청 한도(쿼터)에 도달한 경우입니다. SLA가 명확한 Speechify API로 옮기는 주요 이유 중 하나입니다.

gTTS와 Google Cloud Text-to-Speech는 동일한가요?

아닙니다. gTTS는 비공식 구글 번역 엔드포인트 래퍼이고, Google Cloud TTS는 완전히 별도의 유료 제품입니다. Speechify API는 신경망 보이스를 제공하는 또 다른 유료 대안입니다.

프로덕션에 쓸 최고의 파이썬 TTS 라이브러리는?

gTTS는 프로토타입용으론 괜찮지만, 프로덕션 용도로는 적합하지 않습니다. 대부분은 Speechify API 같은 유료 API로 이전해 사용합니다.

gTTS로 목소리 복제(클로닝)가 가능한가요?

아니요, 음성 클로닝은 gTTS에서 지원하지 않지만, Speechify API에서 이용할 수 있습니다.

gTTS로 오디오 스트리밍이 되나요?

gTTS는 실시간 스트리밍을 지원하지 않고, 완성된 MP3만 반환합니다. 저지연 스트리밍이 필요하면 Speechify API를 사용하세요.


최첨단 AI 음성, 무제한 파일, 24/7 지원을 마음껏 활용하세요

무료로 체험하기
tts banner for blog

이 기사 공유하기

Cliff Weitzman

클리프 바이츠먼

Speechify CEO 겸 창업자

클리프 바이츠먼은 난독증 권익 옹호자이자 Speechify의 CEO 겸 창업자입니다. Speechify는 전 세계에서 가장 인기 있는 텍스트 음성 변환 앱으로, 별 다섯 개 리뷰 10만 개 이상을 받았고 앱 스토어의 뉴스 및 잡지 카테고리에서 1위를 기록했습니다. 2017년, 바이츠먼은 학습장애가 있는 이들이 인터넷을 더 쉽게 활용하도록 기여한 공로로 포브스 ‘30 언더 30’에 선정되었습니다. 클리프 바이츠먼은 EdSurge, Inc., PC Mag, Entrepreneur, Mashable 등 주요 매체에 소개되었습니다.

speechify logo

Speechify 소개

텍스트 음성 변환 분야 1위

Speechify는 세계 최고의 텍스트 음성 변환 플랫폼으로, 5천만 명 이상의 사용자와 50만 개가 넘는 5성 평가를 받은 신뢰받는 서비스입니다. 텍스트 음성 변환 iOS, Android, 크롬 확장 프로그램, 웹 앱, 그리고 맥 데스크톱 앱 전반에 걸쳐 제공됩니다. 2025년에 애플은 Speechify를 권위 있는 애플 디자인 어워드 수상작으로 선정했고, WWDC에서도 “사람들의 삶에 도움이 되는 중요한 자원”이라고 평가했습니다. Speechify는 60개 이상의 언어로 1,000개 이상의 네이티브 음성을 제공하며, 약 200개국에서 사용되고 있습니다. 셀러브리티 음성에는 스눕 독기네스 팰트로도 포함되어 있습니다. 크리에이터와 비즈니스를 위한 Speechify Studio에는 고급 기능이 탑재되어 있습니다. AI 음성 생성기, AI 음성 복제, AI 더빙, 그리고 AI 음성 변환기 기능을 제공합니다. Speechify는 또한 고품질이면서 경제적인 텍스트 음성 변환 API로 다양한 인기 서비스에 동력을 공급하고 있습니다. Speechify는 월스트리트저널, CNBC, 포브스, TechCrunch 등 주요 언론 매체에 소개된 세계 최대 규모의 텍스트 음성 변환 서비스입니다. 더 자세한 내용은 speechify.com/news, speechify.com/blog, speechify.com/press에서 확인하세요.