Sve što trebate znati o Google Cloud Text to Speech API-ju

Generativna i umjetna inteligencija znatno su napredovale. Pretvaranje teksta u govor stariji je koncept i koristi se već godinama. Ima dosta toga za razjasniti, pa ću sve objasniti iz raznih kuteva. Bilo da ste početnik ili stručnjak, ovo bi vam trebalo približiti Google Text to Speech API.

Prije nego što zaronimo dublje, moramo postaviti osnovna pravila. Definirat ćemo nekoliko pojmova kako bismo imali jasan temelj.

Razdvojimo ove dvije tehnologije – tekst u govor i API-je – te pojasnimo koja je uloga Google Clouda.

Napomena urednika: Tražite najbolji API za tekst u govor? Isprobajte Speechify – detaljno dokumentiran, jednostavan za korištenje API za tekst u govor.

Tekst u govor

Opširno sam pisao o ovoj temi – bacite oko na moj Što je tekst u govor blog te na tekst o sintezi govora, kako biste dublje ušli u temu. Ti članci idu detaljnije, no zasad ih možete preskočiti. Ukratko ću ih sažeti u nekoliko rečenica.

Tekst u govor koristi tehnologiju sinteze govora za pretvaranje riječi u govor pogonjen umjetnom inteligencijom. Primjena je mnogo: pomaže osobama s poteškoćama pri čitanju, poput disleksije ili slabog vida, ali i svima koji žele raditi učinkovitije.

API

API znači programsko sučelje aplikacije. Njegova je glavna zadaća povezati dvije aplikacije. Ako radite aplikaciju s audio sadržajem i treba vam pretvorba teksta u govor, možete sami razviti tekst u govor funkcionalnost ili koristiti već postojeći API za tekst u govor.

Tako se možete usredotočiti na razvoj svoje aplikacije, dok API treće strane omogućuje da jednostavno dodate funkcionalnost teksta u govor.

Google Cloud API

Tu na scenu stupa Google Cloud. Google je razvio snažan API za tekst u govor i nudi ga developerima uz razne modele naplate. Svatko tko želi izraditi vlastite aplikacije ili web-aplikacije s tekstom u govor može jednostavno iskoristiti Googleove TTS mogućnosti. TTS označava text to speech.

Brzi početak pronađite na Google Cloud Console https://cloud.google.com/. Tamo ćete naći tutorijale, upravljati servisnim računom, koristiti wavenet glasove i još mnogo toga.

Google Cloud je Googleova cloud platforma koja nudi brojne modularne servise. Možete koristiti jedan, više ili sve servise. Potrebno je generirati pristupne ključeve za autentifikaciju svakog API-ja, tj. mosta prema usluzi. Većina servisa se naplaćuje, uz mogući besplatni prag.

Google je 2014. kupio DeepMind zbog njihove tehnologije teksta u govor i razvoja neuronskih mreža. Ako naiđete na DeepMind, sada je to Google DeepMind – dio iste kompanije.

Sada kad su osnove jasnije, bacimo detaljniji pogled na Google Cloud Text to Speech API.

Mogućnosti Google Text to Speech API-ja

Google je globalni tehnološki lider, tu nema dvojbe. Kod TTS API-ja možete računati na vrhunske značajke koje se stalno razvijaju.

Govorna jasnoća visoke kvalitete

Googleovi glasovi za tekst u govor jedni su od najboljih. Zvuče vrlo prirodno, s realističnom intonacijom. TTS je tek u začecima; oni koji uspiju stvoriti najbolju sintezu glasa bit će u prednosti.

Velik izbor glasova

Google nudi iznimno širok raspon glasova pa vaš projekt ne mora zvučati isto kao brojni drugi ili kao konkurentska aplikacija.

Kreirajte vlastiti glas

Ovo je blisko s kloniranjem glasa. Možete snimiti sebe ili nekoga drugog, uz dozvolu, i koristiti taj uzorak kao glas za čitanje svog teksta.

Neuronski glasovi

Neuronski glasovi prednjače po kvaliteti. Možete ih internacionalizirati i tako dosegnuti širu publiku.

Studijski glasovi

Studijski glasovi su premium opcija, zvuče profesionalno, poput standardne studijske snimke.

Podešavanje glasa

Odaberite glas i prilagodite brzinu, visinu tona i ostale parametre kako biste stvorili željeni ton.

Koliko košta Google Text to Speech API?

Cijena ovisi o kvaliteti glasa i količini teksta. Što prirodniji glas želite, to je cijena viša. Ipak, ukupno je prilično pristupačno. Čak ni najkvalitetniji glasovi nisu skupi.

Tip glasa	Besplatno mjesečno	Nakon prelaska limita
Neural2 glasovi	0 do 1 milijun bajtova	$16 za milijun bajtova
Polyglot glasovi	0 do 1 milijun bajtova	$16 za milijun bajtova
Studijski glasovi	0 do 100.000 bajtova	$160 za milijun bajtova
Standardni glasovi	0 do 4 milijuna znakova	$4 za milijun znakova
Wavenet glasovi	0 do 1 milijun znakova	$16 za milijun znakova

Razlika između znakova i bajtova

Cijene variraju ovisno o kvaliteti glasa. Proces kodiranja i obrade za pretvorbu teksta u govor razlikuje se po razini. Kod osnovnih standardnih glasova naplata je niža i računa se po znakovima.

To znači da će vas 4 milijuna znakova koštati 16 $ uz Standardne glasove.

S druge strane, za Studijske glasove, zbog veće procesorske zahtjevnosti, obračunava se po bajtovima. Primjerice, u japanskom jedan znak može imati više bajtova.

Za preciznu cijenu važno je znati koji jezik koristite i koliko bajtova u prosjeku predstavlja jedan znak.

Kako postaviti Google Cloud Platform Text to Speech API projekt?

Napravite Google Cloud račun ili se prijavite ovdje
Kreirajte novi projekt i prikladno ga imenujte
Dodajte način plaćanja. Plaćate samo ono što zaista koristite.
Zatim odaberite projekt i povežite ga s računom za naplatu.
Aktivirajte Text-to-Speech API. U traku za pretragu upišite "speech".
Iz prikazanih rezultata odaberite Cloud Text-to-Speech API.
Postavite autentifikaciju za razvojno okruženje. Za upute pogledajte službenu dokumentaciju za autentifikaciju za Text-to-Speech.

Text-to-Speech možete isprobati i bez povezivanja s projektom:

Odaberite TRY THIS API opciju.
Za korištenje API-ja s projektom kliknite ENABLE.

Pogledajte Google Cloud dokumentaciju za dodatnu pomoć.

Kako isključiti Text to Speech API

Za deaktivaciju Text-to-Speech API-ja otvorite Google Cloud Platform nadzornu ploču i kliknite na "Go to APIs overview" poveznicu u API okviru. Pronađite Text-to-Speech API, kliknite ga pa na vrhu stranice odaberite "DISABLE API".

Počnite koristiti Google Text to Speech API

Nakon što ste postavili projekt, možete krenuti putem naredbenog retka.

gcloud init

Postavite lokalnu autentifikaciju

gcloud auth application-default login

Sada možete instalirati klijentsku biblioteku. U ovom primjeru koristimo Node.js.

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API podržava sljedeće jezike:

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Kako radi Google Cloud API?

Sve počinje API pozivom. Pošaljete tekst i dobijete zvučnu datoteku govorenog teksta. U zahtjevu možete birati glas, jezik i druge postavke, a API za tekst u govor će vratiti zvučni zapis.

Kako instalirati i koristiti klijentske knjižnice za tekst u govor pročitajte ovdje. Naši primjeri su za Node.js, ali možete koristiti Python, PHP i druge jezike prema potrebi.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

I to je to. Postavili ste Google Cloud Text to Speech API i poslali prvi zahtjev za pretvorbu teksta u govor. Zvučne datoteke možete dobiti u raznim formatima: od OGG-a do MP3.

Kako koristiti Google Text to Speech API

Google Text to Speech (TTS) API nudi raznolika rješenja za više industrija. Neki česti primjeri korištenja su:

Tekst u govor za slabovidne: Korištenje TTS-a za čitanje teksta naglas, čineći digitalne informacije dostupnima osobama s oštećenjem vida.
Automatski telefonski sustavi: Primjena TTS-a za odgovaranje korisnicima i automatske govorne poruke.
Govorni zapisi za medijski sadržaj: Generiranje prirodnog glasa za video, podcast ili druge medije za bolji korisnički doživljaj.
Tekst u govor za prevedeni sadržaj: Pretvaranje prevedenog teksta u govor za učenje jezika i međunarodnu komunikaciju.
Pomoć kod disleksije: TTS pomaže osobama s disleksijom i teškoćama u čitanju tekstova.
Vokalna navigacija: Integracija TTS-a za zvučno navođenje u aplikacijama.
Edukacijski sadržaj: Pretvorba obrazovnog teksta u govor za lakše učenje i bolje razumijevanje.
Govor za aplikacije produktivnosti: Ugradnja TTS-a u alate za bilješke ili zadatke radi zvučnog povratnog informiranja.
Prirodni glas za virtualne asistente: TTS omogućuje bolju i prirodniju interakciju s korisnikom.
Zvukovne obavijesti: Korištenje TTS-a za zvučna upozorenja, notifikacije i status na IoT uređajima.

Najbolje alternative Google Cloud TTS API-ju

Prema podacima do siječnja 2022., postoji nekoliko alternativa za Google Text to Speech API. Napomena: popularnost i mogućnosti tih servisa s vremenom se mogu mijenjati. Evo nekoliko značajnih alternativa:

Speechify Text to Speech API: Speechify Text to Speech API nudi preko 1.000 realističnih i emocionalnih AI glasova na 60+ jezika i dijalekata. Prijavite se već danas.
Amazon Polly: Dio AWS-a, Polly nudi prirodni govor na raznim jezicima i glasovima. Odličan je za integraciju s ostalim AWS servisima.
Microsoft Azure Speech Service: Azure uključuje Text to Speech i podržava različite aplikacije, od virtualnih asistenata do navigacije.
IBM Watson Text to Speech: IBM Watson nudi API za pretvaranje pisanog teksta u prirodni govor s više glasova.
Nuance Communications: Nuance nudi razna govorna rješenja, uključujući tekst u govor, za zdravstvo, autoindustriju i korisničku podršku.
CereProc: CereProc je tvrtka za sintezu govora koja nudi visokokvalitetne sintetičke glasove za pristupačnost, zabavu i komunikaciju.
iSpeech: iSpeech nudi cloud TTS servis s više jezika i glasova – za mobilne aplikacije i web-stranice.
ResponsiveVoice: ResponsiveVoice je jednostavan, povoljan API za tekst u govor s više jezika za web-aplikacije.
Neospeech: Neospeech nudi tekst u govor s fokusom na prirodne glasove, a koristi se u e-learningu i zabavi.
ReadSpeaker: ReadSpeaker nudi online i offline rješenja za tekst u govor za web, e-learning i pristupačnost.
Acapelabox: Acapela grupa nudi cloud API za tekst u govor, s više jezika i glasova za razne industrije.

FAQ

Google nudi više vrsta glasova, svaki s vlastitim besplatnim pragom. Standardni glasovi besplatni su do prvog milijuna bajtova, zatim 16 $ za milijun bajtova. Dakle, može biti besplatan, ali samo do određenog broja znakova ili bajtova.

Jednostavno izradite račun na https://cloud.google.com/text-to-speech/ i pratite tamošnje korake. Također, proces je detaljno opisan u blogu iznad.

API ključ možete dobiti tako da uđete u svoj Google Cloud račun i izradite projekt. Nakon što kreirate projekt, generirate API ključ.

URL za Google Text to Speech API je https://cloud.google.com/text-to-speech/

Nema klasičnog probnog razdoblja za Google Cloud. Svaka usluga ima vlastite uvjete i besplatne limite.

Ne. Google Cloud Text to Speech API zahtijeva internetsku vezu.

Autentikacija za Google Cloud servise, uključujući Text to Speech API, moguća je preko API ključeva, OAuth 2.0 ili servisnih računa. Izbor ovisi o načinu upotrebe i vrsti aplikacije.

Dajem 5 zvjezdica. Jednostavno za korištenje, pretraga je odlična i najčešće korištena, cijene su korektne, a proizvod je vrlo dobar.

Google Text to Speech API ima klijentske knjižnice za više jezika, uključujući Python. Podržava i REST API upite, pa se može koristiti sa svim jezicima koji podržavaju HTTP zahtjeve.

Integracija Google Text to Speech API-ja u Android aplikaciju koristi TextToSpeech klasu i API pozive. Detaljne upute pronaći ćete u službenoj dokumentaciji za Android developere.

Za implementaciju Google Text to Speech API-ja u JavaScript aplikaciji, šaljite HTTP zahtjeve prema API-ju. Proces uključuje ispravno sastavljanje zahtjeva i obradu odgovora u kodu. Za detalje pogledajte službenu dokumentaciju.

Speechify je vodeća svjetska platforma za pretvaranje teksta u govor kojoj vjeruje više od 50 milijuna korisnika, s više od 500.000 recenzija s pet zvjezdica na svojim aplikacijama za iOS, Android, Chrome ekstenziju, web-aplikaciju i Mac desktop. Godine 2025. Apple je dodijelio Speechifyju prestižnu nagradu Apple Design Award na WWDC-u, opisavši ga kao “ključni resurs koji ljudima pomaže živjeti svoje živote”. Speechify nudi više od 1000 prirodnih glasova na više od 60 jezika i koristi se u gotovo 200 zemalja. Među glasovima slavnih su Snoop Dogg i Gwyneth Paltrow. Za kreatore i tvrtke Speechify Studio pruža napredne alate, uključujući AI generator glasa, AI kloniranje glasa, AI sinkronizaciju i vlastiti AI mijenjač glasa. Speechify također pokreće vodeće proizvode svojim visokokvalitetnim i pristupačnim API-jem za pretvaranje teksta u govor. Istaknut u The Wall Street Journalu, CNBC-ju, Forbesu, TechCrunchu i drugim velikim medijima, Speechify je najveći svjetski pružatelj usluga pretvaranja teksta u govor. Posjetite speechify.com/news, speechify.com/blog i speechify.com/press za više informacija.

Sve što trebate znati o Google Cloud Text to Speech API-ju

Cliff Weitzman

Speechify API donosi latenciju od 300 ms, glasove ljudske kvalitete i podršku za više od 50 jezika