Генеративният AI и изкуственият интелект изминаха дълъг път. Преобразуването на текст в реч е сравнително по-стара концепция, която съществува от доста време. Тук има много за разглеждане и категоризиране и ще го разделя на части, за да го разгледам от всички ъгли. Независимо дали сте начинаещ или професионалист, това трябва да ви донесе цялостна яснота относно Google Text to Speech API.
Добре, преди да се потопим в темата, е важно да поставим основните правила. Нека дефинираме няколко термина и изградим нашата основа, за да стъпим здраво върху нея.
Нека разграничим двете технологии тук: преобразуване на текст в реч и API, и да видим каква е ролята на Google Cloud.
Бележка на редактора: Търсите водещ API за преобразуване на текст в реч? Разгледайте добре документирания и лесен за ползване text to speech API на Speechify.
Преобразуване на текст в реч
Писал съм доста по тази тема и можете да прочетете моя Какво е преобразуване на текст в реч блог, както и да научите повече за синтез на реч, за да придобиете добро разбиране по темата. Тези материали са по-задълбочени и можете да ги пропуснете за момента. Ще ги обобщя в няколко изречения.
Преобразуването на текст в реч разчита на технология, наречена синтез на реч, за да преобразува думите в изкуствено генерирана реч. Приложенията за това са най-различни — от помощ на хора с трудности при четене като дислексия и лошо зрение до повишаване на ефективността.
API
API означава Application Programming Interface (интерфейс за програмиране на приложения). Той просто действа като мост между две приложения. Ако разработвате приложение, което има аудио съдържание и изисква функция за преобразуване на текст в реч, ще трябва или сами да изградите тази функция, или просто да се свържете с вече съществуващ API за текст в реч.
Така ще се фокусирате върху създаването на вашето приложение и ще разчитате на външен API като мост, за да интегрирате функцията за преобразуване на текст в реч и да синтезирате вашия текст.
Google Cloud API
Тук се намесва Google Cloud. Google разработи мощен API за текст в реч и го предлага на разработчици с различни ценови условия. Всеки разработчик, който иска да изгради персонализирани приложения или уеб приложения с функция за преобразуване на текст в реч, може лесно да осъществи тази връзка чрез възможностите на Google TTS. Да, TTS е съкращението на text to speech.
Намерете бърз старт в Google Cloud Console на https://cloud.google.com/. Можете да откриете уроци, да управлявате своя service account, да имате достъп до wavenet гласове и още.
Самият Google Cloud е облачна платформа, предоставена от Google, която предлага множество модулни услуги. Можете да изберете да използвате една, няколко или всички услуги. Всичко, което ви трябва, е да създадете ключове за достъп за удостоверяване към всеки API – тоест моста. Повечето, ако не всички, услуги се заплащат, макар че може да има и безплатен праг.
Google купи DeepMind през 2014 г. заради технологията им за текст в реч и работата им по невронни мрежи. Ако видите DeepMind, това сега е Google DeepMind – всичко е едно и също.
Вече изградихме добро разбиране, нека навлезем по-дълбоко в Google Cloud Text to Speech API.
Функции на Google Text to Speech API
Google е световен технологичен пионер и лидер, това е безспорно. Когато става въпрос за TTS API, може да очаквате функционалности от световна класа, които непрекъснато се развиват.
Висококачествена реч
Гласовете на Google за преобразуване на текст в реч са едни от най-добрите в индустрията. Звучат много човешки, с естествена интонация. TTS е все още в ранните си етапи и тези, които могат най-добре да синтезират звук така, че да наподобява естествена човешка реч, ще спечелят това състезание.
Избор на гласове
Google твърди, че има най-голям избор от гласове, така че вашият проект не трябва да звучи като останалите 1000 или, още по-лошо, като приложението на конкурентите ви.
Създайте собствен глас
Това граничи с клониране на глас. Можете да създадете свой собствен персонализиран глас, като запишете себе си или друг човек (със съгласието му). След това този запис може да се използва за озвучаване на целия ви текст.
Невронни гласове
Невронните гласове предлагат най-високо качество сред голямото разнообразие от гласове. Можете също така да интернационализирате тези гласове, за да разширите международната си аудитория.
Студио гласове
Студио гласовете са най-висок клас и звучат изключително професионално, сякаш са записани по традиционния метод.
Фина настройка на гласа
Изберете глас, след което коригирайте скоростта, височината и други параметри, за да персонализирате тона или гласа.
Колко струва Google Text to Speech API?
Всичко зависи от качеството на гласа и дължината на текста. Колкото по-естествено звучене търсите, толкова по-скъпо ще бъде. Но „скъпо“ е относително в случая. Дори и най-качествените гласове са сравнително евтини.
| Тип глас | Безплатно на месец | След изчерпване на безплатната употреба |
| Neural2 гласове | 0 до 1 милион байта | $16 на един милион байта |
| Polyglot гласове | 0 до 1 милион байта | $16 на един милион байта |
| Студио гласове | 0 до 100 000 байта | $160 на един милион байта |
| Стандартни гласове | 0 до 4 милиона знака | $4 на един милион знака |
| Wavenet гласове | 0 до 1 милион знака | $16 на един милион знака |
Каква е разликата между знаци и байтове?
Както виждате, цените варират значително в зависимост от качеството на гласа. Кодирането на аудио файловете и обработката за превръщане на текст в реч се различават според нивото. За по-ниските нива – например стандартни гласове – цената е по-ниска и се изчислява според броя знаци.
Това означава, че ако вашият проект има 4 милиона знака, ще ви струва $16 да ги преобразувате в реч със стандартни гласове.
Студио гласовете изискват повече изчислителна мощност и цената им е базирана на байтове. В някои езици, например японски, един символ може да е съставен от няколко байта.
Затова, за най-точно ценообразуване, е важно да знаете на какъв език работите и да имате базово разбиране колко байта се падат на един символ, за да изчислите приблизително цената.
Как да настроите вашия Google Cloud Platform Text to Speech API проект?
- Създайте Google Cloud акаунт или влезте тук
- Създайте нов проект и го наименувайте подходящо
- Добавете метод за плащане. Ще ви се таксува само реалното потребление.
- След това изберете проекта си и го свържете с платежен акаунт.
- Активирайте Text-to-Speech API. Отидете в лентата “search products and resources” в горната част на страницата и напишете "speech".
- От показаните резултати изберете Cloud Text-to-Speech API.
- Настройте удостоверяване за вашата развойна среда. За инструкции вижте настройване на удостоверяване за Text-to-Speech.
Можете също да пробвате Text-to-Speech, без да го свързвате с вашия проект:
- Изберете опцията TRY THIS API.
- За да активирате Text-to-Speech API за вашия проект, натиснете ENABLE.
Вижте документацията на Google Cloud за допълнителна помощ.
Как да деактивирате Text to Speech API
За да деактивирате Text-to-Speech API, отидете в таблото на Google Cloud Platform и кликнете на "Go to APIs overview" в полето APIs. Намерете Text-to-Speech API и кликнете върху него, след което изберете бутона "DISABLE API" в горната част на страницата.
Как да започнете с Google Text to Speech API
След като проектът ви е настроен, можете да използвате командния ред, за да започнете.
gcloud initСъздайте локално удостоверяване
gcloud auth application-default loginСега можете да инсталирате клиентска библиотека. В този пример ще разгледаме Node.js.
npm install --save @google-cloud/text-to-speechGoogle Cloud Text to Speech API поддържа следните езици:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Как работи Google Cloud API?
Всичко започва с едно просто повикване към API. Изпращате своя текст в заявка и после получавате аудио файл със звученето на вашия текст. Можете да зададете специфични изисквания: да изберете глас, език и т.н., а API за преобразуване на текст в реч ще ви върне аудио файл с резултата.
Можете да научите как да инсталирате и използвате клиентските библиотеки за текст в реч тук. Примерите с код са на Node.js, но можете да изберете и Python, PHP или каквото ви е удобно.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);И това е всичко. Настроихте Google Cloud Text to Speech API и изпратихте първата си заявка за преобразуване на текст в реч. Можете да получите файла в различни формати – OGG, MP3 и други.
Ето няколко начина да използвате Google Text to Speech API
Google Text-to-Speech (TTS) API предлага гъвкаво решение за различни случаи на използване в много сектори. Някои от най-често срещаните приложения включват:
- Текст в реч за незрящи потребители: Използване на TTS в приложения за преобразуване на писмено съдържание в говор, така че цифровата информация да стане достъпна за хората с нарушено зрение.
- Автоматизирани телефонни системи: Използване на TTS за създаване на естествено звучащи съобщения и отговори за интерактивни гласови системи в обслужването на клиенти или телефонни линии за информация.
- Озвучавания за медийно съдържание: Генериране на естествени гласове за видеа, подкасти или други мултимедийни материали с цел подобряване на потребителското изживяване.
- Текст в реч за преведенo съдържание: Преобразуване на преведен текст в реч за улеснение на обучението по езици, международната комуникация или консумацията на съдържание на различни езици.
- Четене в помощ на хора с дислексия: Осигуряване на функция текст в реч за подпомагане на хора с дислексия или трудности при четене да консумират писмено съдържание.
- Гласова навигация в приложения: Вграждане на TTS в навигационни приложения с цел предоставяне на гласови упътвания или локационна информация.
- Текст в реч за образователно съдържание: Подобряване на обучението чрез преобразуване на образователни текстове в говор, което подпомага разбирането и ангажираността на учениците.
- Синтез на реч за продуктивностни приложения: Вграждане на TTS в инструменти за продуктивност като бележки или задачи с цел гласова обратна връзка или получаване на информация чрез говор.
- Естествен глас за виртуални асистенти: Гласови асистенти с естествено звучащ TTS за по-добро взаимодействие и предоставяне на информация в разговорен вид.
- Звукови сигнали и известия: Използване на TTS за предоставяне на звукови сигнали, известия или статуси на IoT устройства за по-добра осведоменост на потребителя.
Най-добрите алтернативи на Google Cloud TTS API
Към януари 2022 г. съществуват няколко алтернативи на Google Text-to-Speech API. Имайте предвид, че популярността и възможностите на тези услуги може да са се променили оттогава. Ето някои по-известни алтернативи:
- Speechify Text to Speech API: С удоволствие обявяваме разработването на API за преобразуване на текст към реч, който предлага най-естествените и обичани AI гласове на Speechify директно на разработчици по целия свят. Запишете се днес.
- Amazon Polly: Предлаган от Amazon Web Services (AWS), Polly осигурява естествено звучащ синтез на реч на различни езици и с различни гласове. Интегрира се отлично с останалите AWS услуги.
- Microsoft Azure Speech Service: Azure Speech Service предлага възможност за преобразуване на текст в реч и се използва в различни приложения, включително гласови асистенти, навигационни системи и други.
- IBM Watson Text to Speech: IBM Watson предлага услуга за преобразуване на текст в естествена реч чрез разнообразие от гласове.
- Nuance Communications: Nuance предлага различни решения за разпознаване на глас и реч, включително текст в реч, за приложения в здравеопазването, автомобилната индустрия и обслужването на клиенти.
- CereProc: CereProc е компания за текст в реч, която предлага висококачествени синтетични гласове за достъпност, забавление и комуникация.
- iSpeech: iSpeech осигурява cloud-базирани услуги за преобразуване на текст в реч с поддръжка на много езици и гласове. Подходящо е за мобилни приложения и уебсайтове.
- ResponsiveVoice: ResponsiveVoice е лесен и достъпен API за текст в реч, който поддържа много езици и може да се използва в различни уеб приложения.
- Neospeech: Neospeech предлага решения за текст в реч с фокус върху естествено звучащи гласове. Тяхната технология се използва в електронно обучение и забавление.
- ReadSpeaker: ReadSpeaker предоставя онлайн и офлайн решения за текст в реч за уебсайтове, електронно обучение и услуги за достъпност.
- Acapelabox: Acapela Group предлага облачен API за текст в реч, Acapelabox, с много езици и гласове за приложения в различни индустрии.
Често задавани въпроси за Google Text to Speech API
Google има няколко нива на гласове и почти всяко ниво има безплатен лимит. Например, стандартните гласове са безплатни до първия милион байта. След това струва $16 на милион байта. Така че, да, възможно е да е безплатен с ограничен брой знаци или байтове.
Просто си създайте акаунт на https://cloud.google.com/text-to-speech/ и следвайте стъпките там. Освен това съм описал процеса подробно по-горе в този блог.
Можете да получите ключ за Google Text to Speech API, като влезете във вашия Google Cloud акаунт и създадете проект. След като създадете своя проект, можете да генерирате API ключ.
URL-ът за Google Text to Speech API е https://cloud.google.com/text-to-speech/
Технически няма определен безплатен пробен период за Google Cloud. Google Cloud има няколко отделни услуги и всяка има свои условия и безплатни нива.
Не. Google Cloud Text to Speech API изисква интернет връзка.
Удостоверяването към услугите на Google Cloud, включително Text-to-Speech API, може да стане чрез API ключове, OAuth 2.0 или служебни акаунти (service accounts). Подходящият метод на удостоверяване зависи от случая на използване и типа на приложението.
Бих го оценил с 5 звезди. Лесно е за използване, функцията за търсене е страхотна и се използва най-много. Ценообразуването е прилично и като цяло е отличен продукт.
Google Text-to-Speech API осигурява клиентски библиотеки за различни програмни езици, включително Python. Поддържа също API заявки по REST, така че е съвместим с езици, които могат да изпращат HTTP заявки.
Интегрирането на Google Text-to-Speech API в Android приложение става чрез използване на класа TextToSpeech и изпращане на API заявки. Подробни инструкции ще намерите в официалната документация за Android разработчици.
За да внедрите Google Text-to-Speech API в JavaScript приложение, можете да изпращате HTTP заявки към крайните точки на API. Процесът включва съставяне на съответната API заявка и обработване на отговора с вашия JavaScript код. Подробности ще намерите в официалната документация.

