1. Начало
  2. Текст към говор (TTS)
  3. gtts
Updated on Текст към говор (TTS)

gtts

Cliff Weitzman

Клиф Вайцман

Главен изпълнителен директор и основател на Speechify

apple logoApple Design Award 2025
50M+ потребители

Какво е gTTS?

gTTS е отворена Python библиотека и CLI инструмент, който преобразува текст в MP3 аудио чрез Google Translate text-to-speech. Може да запише изхода във файл, в обект за аудио обработка или директно в stdout. Автор е Pierre Nicolas Durette, лицензирана е по MIT и е сред най-сваляните TTS пакети в PyPI – около 175 000 сваляния седмично. Ако ви е трябвало да превърнете низ в MP3 с 3 реда Python, вероятно първо сте попаднали именно на gTTS.

Но е важно да се знае, че gTTS не е Google Cloud Text-to-Speech. Използва същия недокументиран бекенд, който задвижва бутона „Слушай“ в Google Translate. Тази разлика определя кога gTTS е подходящ, къде се чупи и кога е по-добре да изберете друг инструмент.

gTTS

Кога да използвате gTTS?

gTTS е подходящ за безплатни, бързи прототипи; едноредово генериране на MP3; многоезични демота; хоби проект, учебен пример или accessibility скрипт, който чете Google Docs. Не използвайте gTTS, ако ви трябва надеждна продукционна среда, документация, клониране на глас, SSML, невронни/изразителни гласове, стрийминг аудио или ясни лицензи.

Как работи gTTS?

gTTS не синтезира локално. Изпраща заявка към Google Translate „Слушай“, тегли генерирания MP3 и ви връща байтовете. Трябва ви интернет връзка — няма офлайн режим. Аудиото се генерира на сървър на Google, не на вашата машина. Крайната точка е неофициална и без връзка с Google или Google Cloud, така че промени могат да я счупят без предупреждение.

Инсталиране

bash

pip install gTTS

gTTS се нуждае от Python 3.7+ и работи на macOS, Windows и Linux. Последната версия в PyPI е 2.5.4 (ноември 2024). На Debian-подобни системи, като Raspberry Pi OS, внимавайте: pip пакетът е gTTS, apt — python3-gtts. Ако получите externally-managed-environment грешка, инсталирайте във виртуална среда.

Базова употреба

Минимален работещ пример:

python

from gtts import gTTS
tts = gTTS("Hello, world.")tts.save("hello.mp3")

От командния ред:

bash

gtts-cli "hello" --output hello.mp3

Избор на език и акцент

python

tts = gTTS("Bonjour le monde", lang="fr")tts.save("bonjour.mp3")

gTTS позволява регионални подтагове чрез tld параметър – например

tld="co.uk" за британски английски акцент или tld="ca" за канадски френски акцент — заявката минава през различни Google Translate домейни.

Бавно говорене

python

tts = gTTS("Read this slowly.", lang="en", slow=True)tts.save("slow.mp3")

Това са почти всички контроли на речта. Няма параметър за тон, няма rate плъзгач извън slow=True, няма избор на глас или SSML.

Стрийм към буфер, вместо към диск

python

from io import BytesIOfrom gtts import gTTS
buf = BytesIO()gTTS("Stream me").write_to_fp(buf)buf.seek(0)# now feed buf into pydub, ffmpeg, a web response, etc.

Предварителна обработка и дълги текстове

Сред по-добрите функции на gTTS е токенизиращият механизъм. Режe дълъг вход на части до 100 знака, пази интонация между тях и обработва съкращения, десетични числа, пунктуация. Може и да добавите свои пре-процесори за чести проблеми с произношение — примерно да замените имена с фонетични варианти.

Какви са предимствата на gTTS?

gTTS (Google Text-to-Speech) е предпочитан от програмисти, защото е лек, лесен за ползване и се интегрира добре в Python среди. Генерира MP3 файлове и записва директно във файл, подобен обект или stdout, което улеснява автоматизацията и скриптовете. Поддържа около 60 езика, различни диалекти чрез езикови кодове и tld, което го прави удачен за прости мултиезични приложения. Разполага с CLI (gtts-cli) и с настройваеми токенизатори за работа със съкращения, числа и подмяна на текст. Лесният Python API позволява добавяне на реч в Jupyter, Flask, Discord ботове и прости проекти без много учене.

Какви са недостатъците на gTTS?

Въпреки простотата си, gTTS има ограничения спрямо новите AI TTS системи. Гласовете са стандартни и звучат функционално, но без естествена интонация, емоция и реализъм като при невронните text to speech системи. Няма избор между няколко гласа на език и липсват разширени контроли като SSML, настройка на pitch или скорост. Трябва да се изтегли целият MP3 преди възпроизвеждане — няма стрийминг и това води до забавяне при интерактивни приложения. Всяка заявка минава през интернет — не работи офлайн и не е подходящ, ако са нужни надеждност и ниска латентност.

Какви са ограниченията на gTTS за разработчици?

1. Ограничения на скорост при недокументиран endpoint

Това е основният проблем след "hello world". gTTS няма официална квота, защото и услугата няма. Обикновено един IP може да изпрати десетки хиляди знаци на час, преди Google да върне HTTP 429. Лимитът варира според трафика. Ако създавате аудио за много потребители от един сървър, ще го достигнете, без SLA за подкрепа.

2. Ендпойнтът може да се смени без предупреждение

gTTS използва вътрешен Google Translate маршрут, не публичен API. Google е чупила gTTS без предупреждение с промяна във форматите. Поддръжката го оправя, вие

pip install -U gTTS и продължавате. Това е ОК за хоби скрипт, не и за продукция посред нощ.

3. Честота на поддръжка

Проектът все още има издания (поне едно през последната година), но разглеждането на проблеми е бавно и има само един поддържащ. Част от тракерите го класифицират като „неактивен“. За безплатна MIT библиотека е нормално, но като зависимост в платен продукт — помислете.

4. Неясни условия за търговска употреба

gTTS използва Google Translate, не Google Cloud TTS, и няма яснота относно лиценза за комерсиална употреба на генерирания звук. Библиотеката е MIT, но аудиото се управлява от условията на Google за услуга, която формално не е TTS API. Ако юристът ви чака категоричен отговор, gTTS не може да го даде.

5. Чувствителни данни напускат машината ви

Всеки изговорен текст се изпраща към Google. Ако озвучавате вътрешни документи, лични данни или съдържание от Google Docs, това е въпрос на управление на данни, който трябва да се обмисли преди да внедрите решението.

Каква е разликата между gTTS и Google Cloud Text-to-Speech?

Често gTTS и Google Cloud TTS се бъркат, но не са един и същ продукт. Разликите са:


gTTS

Google Cloud TTS


Endpoint

Недокументиран маршрут в Google Translate

Официален публичен API с документация

Auth

Няма

Служебен акаунт / API ключ

Цена

Безплатно

Платено (на знак)

Гласове

По един на език

Невронни (WaveNet, Studio, Chirp)

SSML

Не

Да

SLA

Няма

Публикуван SLA

Търговска употреба

Неясна

Ясно лицензирана

Ако ви трябва Google Voice за продукция, почти сигурно искате Google Cloud TTS, не gTTS.

Кога да преминете към професионален TTS API?

Кога да преминете от gTTS към професионален TTS API зависи от това колко са важни качеството, надеждността и настройките на аудиото за проекта. gTTS е отличен за прототипи, лични достъпни инструменти, демота и експерименти, защото е безплатен и лесен. Но ако пускате продукт към клиенти, качеството или закъснението са важни или ви трябва SLA, тогава професионално решение е нужно. Преминаването има смисъл и щом ви трябват разширени функции — различни гласове, клониране, SSML, стрийминг, контрол на темпо и артикулация или ясен търговски лиценз. При преминаване от експеримент към продукция, изброените често стават задължителни.

gTTS или Speechify API?

Speechify API е официална платена услуга с невронни гласове, избор на глас на език, SSML и търговски лиценз по договор — не е обвивка около неофициален интерфейс. Ако лимитите, гласът или TOS на gTTS ви пречат, това е логичният път напред.

ЧЗВ

Безплатен ли е gTTS?

Да, gTTS е безплатна Python библиотека с MIT лиценз, но за лицензирано аудио за комерсиални цели ще ви трябва платена услуга като Speechify API.

Работи ли gTTS офлайн?

Не, gTTS изисква интернет, защото изпраща заявки към Google. Същото важи и за Speechify API, който е в облака.

Може ли gTTS да се ползва в търговски продукт?

Лицензирането на резултата от gTTS е неясно — разчита на неофициален Google ендпойнт. Speechify API предлага ясен търговски лиценз.

Как да сменя гласа в gTTS?

Не може реално. gTTS дава по един глас на език; Speechify API има каталог с невронни гласове.

Поддържа ли gTTS SSML?

Не, gTTS няма SSML, pitch control и фин контрол на скоростта. Speechify API поддържа SSML за пълен контрол на интонацията.

Какво означава HTTP 429 грешка в gTTS?

Достигнали сте лимита на Google Translate — честа причина разработчиците да мигрират към услуга с реален SLA като Speechify API.

Същото ли е gTTS като Google Cloud Text-to-Speech?

Не, gTTS използва неофициален Google Translate ендпойнт, а Google Cloud TTS е друг платен продукт; Speechify API е още една платена алтернатива с невронни гласове.

Коя е най-добрата Python TTS библиотека за продукция?

gTTS е подходящ за прототипи, но не и за продукция; повечето разработчици преминават към платен API като Speechify API.

Може ли gTTS да клонира глас?

Не, клониране на глас не се поддържа от gTTS, но е налично в Speechify API.

Как да стриймвам аудио с gTTS?

gTTS не поддържа стрийминг в реално време — връща готов MP3. За стрийминг използвайте Speechify API.


Възползвайте се от най-напредналите AI гласове, неограничени файлове и 24/7 поддръжка

Пробвайте безплатно
tts banner for blog

Споделете тази статия

Cliff Weitzman

Клиф Вайцман

Главен изпълнителен директор и основател на Speechify

Клиф Вайцман е застъпник за хора с дислексия и е главен изпълнителен директор и основател на Speechify — приложението номер 1 в света за преобразуване на текст в реч, с над 100 000 петзвездни отзива и първо място в App Store в категорията „Новини и списания“. През 2017 г. Вайцман е включен в престижния списък Forbes 30 под 30 за приноса си към това интернет да бъде по-достъпен за хора с обучителни затруднения. Клиф Вайцман е представян в EdSurge, Inc., PC Mag, Entrepreneur, Mashable и много други водещи медии.

speechify logo

За Speechify

#1 четец за текст към реч

Speechify е водещата в света платформа за текст към реч, на която се доверяват над 50 милиона потребители и която има повече от 500 000 петзвездни отзива за своите приложения за текст към реч за iOS, Android, разширение за Chrome, уеб приложение и настолно приложение за Mac. През 2025 година Apple отличи Speechify с престижната Apple Design Award на WWDC, определяйки я като „ключов ресурс, който помага на хората да живеят по-добре“. Speechify предлага над 1000 естествено звучащи гласа на над 60 езика и се използва в близо 200 държави. Сред известните гласове са Snoop Dogg и Гуинет Полтроу. За създатели и бизнеси Speechify Studio предоставя напреднали инструменти, включително AI генератор на гласове, AI клониране на глас, AI дублаж и AI променящ глас. Speechify също задвижва водещи продукти със своето висококачествено и достъпно като цена API за текст към реч. Представено в The Wall Street Journal, CNBC, Forbes, TechCrunch и други водещи медии, Speechify е най-големият доставчик на услуги за текст към реч в света. Посетете speechify.com/news, speechify.com/blog и speechify.com/press, за да научите повече.