Viskas apie Google Cloud Text to Speech API

Generatyvusis DI ir dirbtinis intelektas nuėjo ilgą kelią. Teksto į garsą – senesnė technologija, naudojama jau ilgą laiką. Čia daug ką galima apžvelgti iš įvairių pusių. Nesvarbu, ar esate naujokas, ar profesionalas, ši apžvalga padės geriau suprasti Google Text to Speech API.

Prieš pradėdami, apsibrėžkime pagrindines sąvokas, kad būtų aišku, nuo ko startuojame.

Atskirkime dvi technologijas: teksto į garsą ir API, ir aptarkime Google Cloud vaidmenį.

Redaktoriaus pastaba: Ieškote patikimos teksto į garsą API? Išbandykite lengvai naudojamą ir gerai dokumentuotą Speechify teksto į garsą API.

Teksto į garsą

Plačiai rašiau šia tema – galite paskaityti mano Kas yra teksto į garsą tinklaraštį, o sintezės gidas padės dar geriau suprasti šią temą. Ten viskas išnagrinėta giliau, bet galite kol kas praleisti – čia viską sutrauksiu į kelis sakinius.

Teksto į garsą paremta kalbos sinteze, kuri paverčia tekstą DI sugeneruotu balsu. Naudojimo scenarijų daugybė – nuo pagalbos skaitantiems, turintiems disleksiją ar silpną regą, iki produktyvumo didinimo.

API

API reiškia programinę sąsają. Ji sujungia dvi programas. Jei kuriate programėlę, kuri turi garsinį turinį ir reikia teksto į garsą funkcijos, galite ją rašyti patys arba tiesiog prijungti programą prie esamos teksto į garsą API.

Jūs susitelkiate į savo programėlės kūrimą, o balso sintezės funkcijai naudojatės trečiųjų šalių API.

Google Cloud API

Čia į sceną ateina Google Cloud. Google sukūrė galingą teksto į garsą API ir siūlo ją įvairiais planais. Norintys kurti individualias ar internetines programėles su teksto į garsą gali naudoti Google TTS funkciją. TTS – trumpinys nuo text to speech.

Greitą pradžią rasite Google Cloud Console https://cloud.google.com/. Ten yra pamokos, paskyros valdymas, Wavenet balsai ir dar daug daugiau.

Google Cloud – tai Google siūloma debesų platforma su modulinėmis paslaugomis. Galite naudoti vieną ar kelias paslaugas – tereikia sukurti prisijungimo raktus kiekvienai API. Dauguma paslaugų mokamos, bet yra ir nemokamas limitas.

2014 metais Google įsigijo DeepMind dėl jos teksto į garsą technologijos bei neuroninių tinklų kūrimo. Jei matote DeepMind – tai dabar Google DeepMind.

Susipažinę su pagrindais, pasinerkime giliau į Google Cloud Text to Speech API.

Google Text to Speech API savybės

Google – pasaulinė technologijų lyderė. Kalbant apie TTS API, čia rasite aukščiausio lygio, nuolat tobulinamas funkcijas.

Aukšto tikslumo garsas

Google teksto į garsą balsai – vieni geriausių rinkoje. Jie labai natūralūs, su tikroviškomis intonacijomis. TTS dar ankstyvoje stadijoje, bet labiausiai natūraliai skambantys balsai galiausiai laimės šią lenktynę.

Balsų pasirinkimas

Google siūlo itin platų balsų pasirinkimą, tad jūsų projektas neskambės taip pat, kaip visi kiti ar konkurentų aplikacija.

Sukurkite savo balsą

Tai artima balso klonavimo technologijai. Galite susikurti individualų balsą įrašydami save ar kitą asmenį su jo leidimu. Tą balsą galite naudoti visų tekstų skaitymui.

Neuroniniai balsai

Neuroniniai balsai pasižymi geriausia kokybe iš visų. Juos galima pritaikyti tarptautinei auditorijai.

Studijos balsai

Studijinis balsas – aukščiausia kokybė, sukurianti profesionalų įspūdį, lyg įrašyta studijoje.

Balso reguliavimas

Pasirinkite balsą ir reguliuokite greitį, toną bei kitas savybes, kad pritaikytumėte jį pagal savo poreikius.

Kiek kainuoja Google Text to Speech API?

Kaina priklauso nuo balso kokybės ir teksto ilgio. Kuo natūralesnis garsas, tuo brangiau, nors iš esmės skirtumas nedidelis: net aukščiausios kokybės balsai nėra brangūs.

Balso tipas	Nemokama per mėn.	Pasiekus nemokamą ribą
Neural2 balsai	0–1 mln. baitų	16 $ už 1 mln. baitų
Polyglot balsai	0–1 mln. baitų	16 $ už 1 mln. baitų
Studijos balsai	0–100 000 baitų	160 $ už 1 mln. baitų
Standartiniai balsai	0–4 mln. ženklų	4 $ už 1 mln. ženklų
Wavenet balsai	0–1 mln. ženklų	16 $ už 1 mln. ženklų

Kuo skiriasi simboliai ir baitai?

Kaip matote, kainos stipriai priklauso nuo balso kokybės. Balso kodavimas ir apdorojimas skiriasi pagal lygį. Pigesni, pvz., standartiniai balsai, kainuoja mažiau ir skaičiuojami už simbolius.

Tai reiškia, kad turint 4 mln. simbolių projekte, už jų konvertavimą į garsą su standartiniu tipu mokėsite 16 $.

Studijos balsams reikia daugiau apdorojimo galios, todėl kaina skaičiuojama už baitus. Kai kuriose kalbose, pvz., japonų, vieną simbolį gali sudaryti keli baitai.

Norint tiksliai paskaičiuoti kainą, būtina žinoti, kokia kalba naudojama ir kiek vidutiniškai baitų tenka vienam simboliui – tada galite įvertinti galutinę sumą.

Kaip sukonfigūruoti savo Google Cloud Platform Text to Speech API projektą?

Susikurkite Google Cloud paskyrą arba prisijunkite čia
Sukurkite naują projektą ir suteikite jam aiškų pavadinimą
Pridėkite atsiskaitymo būdą. Mokėsite tik už faktiškai sunaudotas paslaugas.
Pasirinkite savo projektą ir priskirkite jį atsiskaitymo paskyrai.
Aktyvuokite Text-to-Speech API. Viršuje paieškos juostoje įrašykite „speech“.
Iš rezultatų pasirinkite Cloud Text-to-Speech API.
Sukonfigūruokite autentifikavimą savo aplinkai. Instrukcijų ieškokite „Set up authentication for Text-to-Speech“.

Text-to-Speech galite išbandyti ir be projekto:

Pasirinkite funkciją IŠBANDYTI API (TRY THIS API).
Kad įjungtumėte Text-to-Speech savo projektui, paspauskite ĮJUNGTI (ENABLE).

Papildomos pagalbos rasite Google Cloud dokumentacijoje.

Kaip išjungti Text to Speech API

Norėdami išjungti Text-to-Speech API, eikite į Google Cloud Platform valdymo skydelį, spauskite „Eiti į API apžvalgą“ (APIs overview). Suraskite Text-to-Speech API, spustelėkite ją ir viršuje pasirinkite „IŠJUNGTI API“ (DISABLE API).

Kaip pradėti naudotis Google Text to Speech API

Sukūrę projektą, galite pradėti darbą naudodami komandų eilutę.

gcloud init

Sukurkite vietinį autentifikavimą

gcloud auth application-default login

Dabar įsidiekite kliento biblioteką. Čia pavyzdys su Node.js

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API palaiko šias programavimo kalbas:

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Kaip veikia Google Cloud API?

Viskas prasideda nuo API kvietimo. Jūs siunčiate tekstą – gaunate garso failą su perskaitytu tekstu. Užklausoje galite pasirinkti balsą, kalbą ir kitus parametrus, o teksto į garsą API atsiųs jums garso failą.

Kaip įdiegti bei naudoti teksto į garsą kliento biblioteką, rasite čia. Kodų pavyzdžiai pateikti su Node.js, bet galite naudoti bet kurią kitą kalbą (pvz., Python ar PHP).

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

Ir viskas! Sukonfigūravote Google Cloud Text to Speech API ir išsiuntėte pirmąją užklausą. Failą galite gauti įvairiais formatais – nuo OGG iki MP3.

Kaip galima naudoti Google Text to Speech API

Google Text to Speech (TTS) API – universalus sprendimas daugelyje sričių. Pritaikymo galimybių daug, štai keli dažniausi panaudojimo atvejai:

Teksto į garsą regos negalią turintiems: Naudokite TTS programėlėse, kad tekstas būtų skaitomas regėjimo negalią turintiems naudotojams.
Automatizuotos telefonų sistemos: Kurkite natūraliai skambančius pranešimus ir atsakymus balso paslaugoms ar skambučių centrams.
Garsinimas medijos turiniui: Naudokite natūralų balsą vaizdo įrašams, tinklalaidėms ar kitam medijos turiniui.
Teksto į garsą verstam turiniui: Versto teksto pavertimas garsu palengvina kalbų mokymąsi ir turinio vartojimą įvairiomis kalbomis.
Pagalba disleksiją turintiems: TTS padeda žmonėms, turintiems disleksiją ar skaitymo sunkumų, lengviau suprasti tekstą.
Balso navigacija programėlėse: Integruokite TTS į navigacijos programėles balsinėms instrukcijoms ar vietos informacijai girdėti.
Švietimo turinio garsinimas: Pagerinkite e. mokymosi patirtį versdami mokomąjį tekstą į garsą.
Kalbos sintezė produktyvumo programoms: Integruokite TTS į užrašų ar užduočių programėles, kad informaciją galėtumėte „atsiversti“ į balsą.
Natūralus balsas virtualiems asistentams: Virtualiems asistentams naudokite natūraliai skambantį TTS – jie tampa patogesni ir malonesni naudoti.
Garsiniai pranešimai ir įspėjimai: TTS galima naudoti žodiniams įspėjimams ar pranešimams išmaniuose įrenginiuose (IoT).

Geriausios alternatyvos Google Cloud TTS API

2022 m. pradžioje buvo keletas alternatyvų Google Text to Speech API. Jų aktualumas ir galimybės galėjo pasikeisti. Štai kelios žinomesnės alternatyvos:

Speechify Text to Speech API: Speechify Text to Speech API siūlo daugiau nei 1000 natūralių ir emociškai DI balsų 60+ kalbų ir tarmių. Rezervuokite vietą jau šiandien.
Amazon Polly: Amazon Web Services (AWS) paslauga Polly siūlo natūralų balso sintezę daugeliu kalbų ir įvairių balsų. Puikiai integruojasi su AWS sprendimais.
Microsoft Azure Speech Service: Azure Speech Service turi teksto į garsą funkciją, tinkančią virtualiems asistentams, navigacijai ir kt.
IBM Watson Text to Speech: IBM Watson siūlo balso sintezę, leidžiančią paversti tekstą natūraliu garsu įvairiais balsais.
Nuance Communications: Nuance teikia sprendimus kalbos ir balso atpažinimui, taip pat ir teksto į garsą, pvz., sveikatos, automobilių ar klientų aptarnavimo sektoriams.
CereProc: CereProc – teksto į garsą technologijų kompanija, siūlanti aukštos kokybės sintezę įvairioms sritims: prieinamumui, pramogoms, komunikacijai.
iSpeech: iSpeech siūlo debesyje veikiančią teksto į garsą paslaugą su daugybės kalbų ir balsų palaikymu. Tinka mobiliosioms ir interneto aplikacijoms.
ResponsiveVoice: ResponsiveVoice – paprasta ir nebrangi teksto į garsą API, tinkanti daugeliui kalbų ir internetinėms aplikacijoms.
Neospeech: Neospeech siūlo teksto į garsą sprendimus su natūraliu balsu – naudojama e. mokyme ir pramogoms.
ReadSpeaker: ReadSpeaker siūlo tiek internetinius, tiek neprisijungusius veikiančius sprendimus prieinamumui, svetainėms, e. mokymui.
Acapelabox: Acapela Group siūlo debesyje veikiančią teksto į garsą API – Acapelabox, tinkančią įvairioms sritims ir kalboms.

DUK

Google turi kelis balso lygius ir beveik kiekviename yra nemokama riba. Pvz., standartiniai balsai nemokami iki 1 mln. baitų. Vėliau – 16 $ už 1 mln. baitų. Taip, galima naudotis nemokamai, jei neviršysite limitų.

Tiesiog susikurkite paskyrą https://cloud.google.com/text-to-speech/ ir vykdykite ten nurodytus žingsnius. Šį procesą taip pat aprašiau aukščiau šiame tinklaraštyje.

Google Text to Speech API raktą gausite prisijungę prie savo Google Cloud paskyros ir sukūrę projektą. Tuomet galėsite sugeneruoti API raktą.

Google Text to Speech API URL – https://cloud.google.com/text-to-speech/

Oficialaus nemokamo bandomojo laikotarpio nėra. Google Cloud siūlo kelias paslaugas, kiekvienai taikomi atskiri limitai ir nemokamos ribos.

Ne. Google Cloud Text to Speech API reikia interneto ryšio.

Prie Google Cloud paslaugų, taip pat ir Text to Speech API, galima jungtis naudojant API raktus, OAuth 2.0 ar paslaugų paskyras. Pasirinkimas priklauso nuo naudojimo scenarijaus ir aplikacijos tipo.

Vertinu 5 žvaigždutėmis. Paprasta naudoti, patogi paieška, gera kaina ir apskritai labai geras produktas.

Google Text to Speech API siūlo kliento bibliotekas įvairioms kalboms, įskaitant Python. Taip pat palaiko REST API, tad veikia su bet kuriomis kalbomis, galinčiomis siųsti HTTP užklausas.

Google Text to Speech API integravimui į Android naudokite TextToSpeech klasę ir vykdykite API užklausas. Išsamesnes instrukcijas rasite oficialioje Android dokumentacijoje.

Norėdami naudoti Google Text to Speech API su JavaScript, siųskite HTTP užklausas į API galinį tašką. Sukurkite tinkamą užklausą ir apdorokite atsakymą JavaScript kode. Daugiau rasite oficialioje dokumentacijoje.

Speechify yra pirmaujanti pasaulyje teksto į kalbą platforma, kuria pasitiki daugiau nei 50 milijonų vartotojų ir kurią pagrindžia daugiau nei 500 000 penkių žvaigždučių atsiliepimų skirtingose teksto į kalbą iOS, Android, Chrome plėtinio, internetinės programėlės ir Mac darbalaukio programose. 2025 m. Apple apdovanojo Speechify prestižiniu Apple dizaino apdovanojimu per WWDC, pavadindama jį „esminiu ištekliumi, padedančiu žmonėms gyventi visavertį gyvenimą“. Speechify siūlo daugiau nei 1 000 natūraliai skambančių balsų daugiau nei 60 kalbų ir naudojamas beveik 200 šalių. Tarp įžymybių balsų – Snoop Dogg ir Gwyneth Paltrow. Kūrėjams ir verslui Speechify Studio suteikia išplėstinius įrankius, tarp kurių yra AI balso generatorius, AI balso klonavimas, AI dubliavimas ir AI balso keitiklis. Speechify taip pat aprūpina pažangius produktus kokybišku ir ekonomišku teksto į kalbą API. Apie mus rašė The Wall Street Journal, CNBC, Forbes, TechCrunch ir kiti didieji naujienų portalai, todėl Speechify yra didžiausias teksto į kalbą teikėjas pasaulyje. Apsilankykite speechify.com/news, speechify.com/blog ir speechify.com/press ir sužinokite daugiau.

Viskas apie Google Cloud Text to Speech API

Cliff Weitzman

Speechify API užtikrina 300 ms delsą, žmogaus kokybės balsus ir daugiau nei 50 kalbų