Всичко за Google Cloud Text to Speech API

Генеративният AI и изкуственият интелект напреднаха значително. Текст към реч е сравнително старо понятие — използва се отдавна. Има много какво да се каже по темата и тук ще я разгледам от всички ъгли. Независимо дали сте начинаещ или експерт, това ще ви даде по-ясна представа за Text to Speech API на Google.

Преди да навлезем в темата, трябва да уточним основните положения. Нека дефинираме някои термини и да изградим база за разбиране.

Нека разграничим двете технологии — текст към реч и API, и да видим ролята на Google Cloud.

Бележка от редактора: Търсите водещ API за текст към реч? Вижте лесния за използване и добре документиран API за текст към реч на Speechify.

Текст към реч

Писал съм подробно по темата, може да прочетете моя блог „Какво е текст към реч“ и също така да научите повече за синтез на реч. Те са по-задълбочени, но тук ще ги обобщя накратко.

Текст към реч използва технология, наречена синтез на реч, за преобразуване на думи в AI аудио. Приложенията са много — от помощ за хора с дислексия и слабо зрение до по-ефективна работа.

API

API означава Application Programming Interface – мост между две приложения. Ако правите приложение с аудио съдържание и искате текст към реч, можете да разработите функцията сами или просто да се свържете с готов API за текст към реч.

Вместо да разработвате функцията от нулата, разчитате на външен API, който добавя текст към реч за вашия текст.

Google Cloud API

Тук влиза Google Cloud. Google предлага мощен API за текст към реч с различни ценови схеми. Всеки, който прави кастъм приложения с нужда от текст към реч, може лесно да използва TTS функциите на Google. TTS означава текст към реч.

Вижте quickstart в Google Cloud Console на https://cloud.google.com/. Там има уроци, управление на акаунти, достъп до гласове wavenet и други.

Google Cloud е облачна платформа на Google с много услуги. Можете да изберете една, няколко или всички. Просто създавате ключове за удостоверяване за всяко API. Повечето услуги са платени, но често има и безплатен лимит.

Google купи DeepMind през 2014 заради технологията за текст към реч и невронните мрежи. DeepMind вече е Google DeepMind, всичко е под една шапка.

Вече имаме основа, нека разгледаме Google Cloud Text to Speech API в детайл.

Функции на Google Text to Speech API

Google е световен технологичен лидер и TTS API предлага първокласни възможности, които непрекъснато се развиват.

Глас с висока вярност

Гласовете при текст към реч на Google са сред най-добрите в индустрията. Звучат почти като човек и имат естествена интонация. TTS е в ранен етап, а който постигне най-добър човешки звук, ще превземе пазара.

Избор на гласове

Google предлага най-голям избор от гласове – така проектът ви няма да звучи като другите или като конкурентите ви.

Създай свой собствен глас

Това е свързано с клониране на глас. Може да си направите собствен глас чрез запис на вас или друг човек (с разрешение), и този глас ще чете вашия текст.

Невронни гласове

Невронните гласове са с най-високо качество. Могат да се използват на различни езици, така че да достигнете до по-широка публика.

Студио гласове

Гласовете от типа „студио“ са най-професионални и звучат така, сякаш са записани в студио.

Настройка на гласа

Изберете глас и настройте скорост, височина и други параметри, за да го пригодите към вашия проект.

Колко струва Google Text to Speech API?

Цената зависи от качеството на гласа и дължината на текста. Колкото по-естествено звучи, толкова е по-скъпо. Но и най-висококачествените гласове са сравнително достъпни.

Тип глас	Безплатно на месец	След изчерпване на безплатното
Neural2	0 до 1 млн. байта	$16 на един милион байта
Polyglot	0 до 1 млн. байта	$16 на един милион байта
Studio	0 до 100 000 байта	$160 на един милион байта
Стандартен	0 до 4 млн. знака	$4 на милион знака
Wavenet	0 до 1 млн. знака	$16 на милион знака

Каква е разликата между знаци и байтове

Както виждате, цената варира според качеството на гласа. Кодирането и обработката на текста в реч също е на различни нива. При по-ниските, например Standard Voices, цената се брои по знаци.

Ако проектът ви има 4 милиона знака, трансформирането им в реч ще струва $16 при стандартните гласове.

Студио гласовете искат повече изчислителна мощ и се таксуват на база байтове. При някои езици, например японски, един знак може да е няколко байта.

Така че за точна цена е важно да знаете кой език ползвате и средния брой байтове на знак.

Как да започнете с Google Cloud Platform Text to Speech API?

Създайте Google Cloud акаунт или влезте тук
Създайте нов проект и му дайте име.
Добавете разплащателен метод. Плащате само за реално ползване.
Изберете проекта си и го свържете с разплащателния акаунт.
Активирайте Text-to-Speech API. Потърсете „speech“ в лентата горе.
Изберете Cloud Text-to-Speech API от резултатите.
Настройте удостоверяване за вашата среда. Вижте инструкциите за authentication.

Може да пробвате Text-to-Speech и без да го вързвате към проект:

Изберете „TRY THIS API“.
За да активирате Text-to-Speech API, натиснете ENABLE.

Вижте документацията на Google Cloud за още помощ.

Как да изключите Text to Speech API

За да деактивирате Text-to-Speech API, отидете в Google Cloud Platform и натиснете „Go to APIs overview“ в полето за APIs. Намерете Text-to-Speech API, натиснете го и изберете бутона „DISABLE API“.

Започнете с Google Text to Speech API

След като сте настроили проекта си, използвайте команден ред за начало.

gcloud init

Създайте локално удостоверяване

gcloud auth application-default login

Сега инсталирайте client библиотека. В примера: Node.js

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API поддържа тези езици:

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Как работи Google Cloud API?

Всичко започва с прост API call. Изпращате текст, получавате обратно аудиофайл със синтезираната реч. Може да избирате глас, език и други, а API за текст към реч ви връща аудиофайла.

Вижте как се инсталира и ползва клиент библиотека за текст към реч тук. Примерите са за Node.js, но може и за Python, PHP и др.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

И това е всичко. Настроихте Google Cloud Text to Speech API и изпратихте първа заявка за преобразуване на текст в реч. Файлът може да е в различен формат – OGG или MP3.

Начини за използване на Google Text to Speech API

Google Text to Speech (TTS) API дава много възможности за различни индустрии. Чести приложения са:

Текст към реч за хора с нарушено зрение: Прилага се за преобразуване на текст в говор, за да се направи дигиталното съдържание достъпно за хора с нарушено зрение.
Автоматизирани телефонни системи: Използва се за естествено звучащи гласови съобщения и отговори в кол центрове.
Глас за мултимедийно съдържание: Генерира човешко звучащи гласове за видео, подкасти и др.
Текст към реч за преведен текст: Чете преведен текст с цел езиково обучение или ползване на съдържание на чужд език.
Помощ при четене за дислексия: TTS подпомага хора с дислексия или затруднения в четенето.
Гласова навигация в приложения: Интегрира се в навигации за говорими упътвания.
Текст към реч в образованието: Подобрява електронното обучение с гласово четене на уроци.
Синтез на реч за продуктивни приложения: Интегрира се в бележки и задачи за гласова обратна връзка.
Човешки глас за виртуални асистенти: За гласови асистенти за по-добра комуникация с потребителя.
Аудио аларми и нотификации: Гласови известия за IoT устройства за по-добра информираност.

Най-добри алтернативи на Google Cloud TTS API

Към януари 2022 г. има няколко алтернативи на Google Text to Speech API. Популярността и възможностите на тези услуги се променят с времето. Най-известни са:

Speechify Text to Speech API: Speechify Text to Speech API предлага над 1000 реалистични и емоционални AI гласове на 60+ езика и диалекти. Запишете се още днес.
Amazon Polly: Част от AWS, Polly дава естествено звучаща синтезирана реч на различни езици и гласове. Добре се интегрира с другите AWS услуги.
Microsoft Azure Speech Service: Azure Speech Service включва Text to Speech и поддържа гласови асистенти, навигация и др.
IBM Watson Text to Speech: IBM Watson има услуга, която преобразува текст в естествена реч с различни гласове.
Nuance Communications: Nuance предлага решения за гласово разпознаване, включително текст към реч, за здраве, автомобили, обслужване на клиенти.
CereProc: CereProc е технологична фирма за текст към реч с качествени синтетични гласове за достъпност, забавление и комуникация.
iSpeech: iSpeech предлага текст към реч услуги в облака с много езици и гласове – подходящ за мобилни приложения и сайтове.
ResponsiveVoice: ResponsiveVoice е прост и достъпен API за текст към реч за уеб приложения на различни езици.
Neospeech: Neospeech предлага текст към реч с фокус върху естествени гласове за електронно обучение и забавление.
ReadSpeaker: ReadSpeaker има online и offline решения за текст към реч за уеб, електронно обучение, достъпност.
Acapelabox: Acapela Group предлага облачен API за текст към реч с много езици и гласове за различни индустрии.

ЧЗВ

Google предлага няколко типа гласове и почти всеки има безплатен лимит. Например стандартният глас е безплатен до 1 милион байта. После – $16 на милион байта. Значи може да има безплатно ползване с ограничени знаци/байтове.

Просто направете акаунт на https://cloud.google.com/text-to-speech/ и следвайте стъпките. Описал съм процеса подробно по-горе в този блог.

Влезте в Google Cloud акаунта, създайте проект и тогава можете да си генерирате API ключ.

URL за Google Text to Speech API е https://cloud.google.com/text-to-speech/

Няма точно безплатен пробен период за Google Cloud. Всеки продукт има собствен безплатен лимит и условия.

Не. За Google Cloud Text to Speech API е нужен интернет.

Удостоверяване към Google Cloud, включително Text to Speech API, става с API ключ, OAuth 2.0 или service account. Методът зависи от случая и приложението.

Бих дал 5 звезди. Много е лесна за ползване, търсачката работи добре, цените са добри и като цяло продуктът е отличен.

Google Text to Speech API предлага библиотеки за много езици, включително Python. Поддържа и REST API, така че всички езици с HTTP заявки са съвместими.

Интегрирането става чрез използване на TextToSpeech класа и API заявки. Подробни инструкции има в официалната документация за Android.

За Google Text to Speech API в JavaScript изпратете HTTP заявки към API endpoint. Процесът включва съставяне на правилна заявка и обработка на отговора. Вижте официалната документация за подробности.

Speechify е водещата в света платформа за текст към реч, на която се доверяват над 50 милиона потребители и която има повече от 500 000 петзвездни отзива за своите приложения за текст към реч за iOS, Android, разширение за Chrome, уеб приложение и настолно приложение за Mac. През 2025 година Apple отличи Speechify с престижната Apple Design Award на WWDC, определяйки я като „ключов ресурс, който помага на хората да живеят по-добре“. Speechify предлага над 1000 естествено звучащи гласа на над 60 езика и се използва в близо 200 държави. Сред известните гласове са Snoop Dogg и Гуинет Полтроу. За създатели и бизнеси Speechify Studio предоставя напреднали инструменти, включително AI генератор на гласове, AI клониране на глас, AI дублаж и AI променящ глас. Speechify също задвижва водещи продукти със своето висококачествено и достъпно като цена API за текст към реч. Представено в The Wall Street Journal, CNBC, Forbes, TechCrunch и други водещи медии, Speechify е най-големият доставчик на услуги за текст към реч в света. Посетете speechify.com/news, speechify.com/blog и speechify.com/press, за да научите повече.

Всичко за Google Cloud Text to Speech API

Клиф Вайцман

Speechify API осигурява 300 ms латентност, естествени човешки гласове и поддръжка на над 50 езика