1. Domov
  2. API
  3. Všetko o Google Cloud Text to Speech API
Updated on API

Všetko o Google Cloud Text to Speech API

Cliff Weitzman

Cliff Weitzman

CEO/Zakladateľ Speechify

Speechify API ponúka latenciu 300 ms, hlasy v kvalite ľudského hlasu a podporu viac ako 50 jazykov

apple logoApple Design Award 2025
50M+ používateľov

Generatívna AI aj umelá inteligencia výrazne pokročili. Prevod textu na reč je už rokmi overený koncept. Čaká nás veľa zaujímavostí a prehľad tém, ktoré rozoberiem z rôznych uhlov pohľadu. Či ste začiatočník alebo profík, získate jasný prehľad o Google Text to Speech API.

Skôr než sa pustíme do témy, poďme si ujasniť základné pojmy, na ktorých budeme stavať.

Oddelíme dve technológie – prevod textu na reč a API – a pozrieme sa na úlohu Google Cloud.

Poznámka redaktora: Hľadáte špičkové API na prevod textu na reč? Pozrite si skvele zdokumentované a ľahko použiteľné API na prevod textu na reč od Speechify.

Prevod textu na reč

O tejto téme som písal podrobne, prečítajte si môj blog Čo je prevod textu na reč a tiež o syntéze reči pre lepšie pochopenie. Ak chcete, môžete to preskočiť – všetko zhrniem stručne.

Prevod textu na reč využíva technológiu zvanú syntéza reči na prevedenie slov na AI reč. Využitie je široké: od pomoci ľuďom s ťažkosťami pri čítaní (dyslexia, zrak) až po zrýchlenie práce.

API

API znamená Application Programming Interface – rozhranie medzi dvoma aplikáciami. Ak vyvíjate aplikáciu s audiom a potrebujete prevod textu na reč, nemusíte funkciu vytvárať sami – stačí ju prepojiť s existujúcim prevodom textu na reč alebo použiť hotové API na prevod textu na reč.

Vy sa sústredíte na svoju aplikáciu a API využijete ako most, ktorý jej dodá funkciu prevodu textu na reč.

Google Cloud API

Tu vstupuje do hry Google Cloud. Google má výkonné API na prevod textu na reč a ponúka ho v rôznych cenových plánoch. Vývojári, ktorí chcú vytvoriť vlastné aplikácie s funkciou prevodu textu na reč, jednoducho využijú TTS od Googlu. TTS znamená text to speech.

Rýchly štart nájdete na Google Cloud Console https://cloud.google.com/. Sú tu návody, spravíte si účty a získate prístup k Wavenet hlasom a ďalším zdrojom.

Google Cloud je cloudová platforma od Google s modulárnymi službami. Vyberte si jednu alebo viac služieb podľa potreby. Stačí si vytvoriť prístupové kľúče na overenie pre každé API. Väčšina (prípadne všetky) služby sú platené, no často majú bezplatný limit.

Google kúpil DeepMind v roku 2014 pre jeho technológiu prevodu textu na reč a vývoj neurónových sietí. Ak narazíte na názov DeepMind, myslí sa tým už Google DeepMind.

Keď už máme jasno, poďme sa detailnejšie pozrieť na Google Cloud Text to Speech API.

Funkcie Google Text to Speech API

Google je svetová jednotka v technológiách. Pri TTS API nájdete špičkové funkcie, ktoré sa neustále vyvíjajú.

Vysoká vernosť reči

Google hlasy prevodu textu na reč patria medzi najlepšie. Znejú veľmi prirodzene s ľudskou intonáciou. TTS je ešte len na začiatku a ten, kto dokáže spraviť hlas najprirodzenejší, vyhrá.

Výber hlasov

Google ponúka veľmi široký výber hlasov, takže váš projekt nemusí znieť rovnako ako konkurencia.

Vytvorte si vlastný hlas

Toto je blízke klonovaniu hlasu. Vytvoríte vlastný hlas nahrávaním seba alebo niekoho iného (so súhlasom). Váš hlas potom môže čítať všetky texty.

Neurónové hlasy

Neurónové hlasy sú najkvalitnejšie a umožňujú jednoduchú internacionalizáciu pre publikum z celého sveta.

Štúdiové hlasy

Štúdiové hlasy sú najvyššia trieda a pôsobia dôveryhodne, akoby boli nahraté klasickou štúdiovou formou.

Ladenie hlasu

Vyberte hlas a upravte rýchlosť, tón, výšku či ďalšie vlastnosti podľa potreby.

Koľko stojí Google Text to Speech API?

Všetko závisí od kvality hlasu a dĺžky textu. Čím prirodzenejší hlas chcete, tým drahší bude. Aj tak sú aj tie najlepšie hlasy cenovo dostupné.

Typ hlasuBezplatne/mesPo vyčerpaní bezplatného limitu
Neural2 hlasy0 – 1 milión bajtov16 $/milión bajtov
Polyglot hlasy0 – 1 milión bajtov16 $/milión bajtov
Štúdiové hlasy0 – 100 000 bajtov160 $/milión bajtov
Štandardné hlasy0 – 4 milióny znakov4 $/milión znakov
Wavenet hlasy0 – 1 milión znakov16 $/milión znakov

Aký je rozdiel medzi znakmi a bajtmi?

Ako vidíte, ceny sa líšia podľa kvality hlasu. Spôsob kódovania a spracovania textu na reč sa v jednotlivých úrovniach líši. Pri nižších, napríklad štandardných hlasoch, sa cena počíta podľa znakov.

Ak máte v projekte 4 milióny znakov, za ich prevod na reč pri štandardných hlasoch zaplatíte 16 $.

Štúdiové hlasy potrebujú viac výkonu, preto sa účtuje podľa bajtov. V niektorých jazykoch (napr. japončina) vie jeden znak zabrať viac bajtov.

Pre najpresnejšiu cenu je dôležité poznať jazyk a priemerný počet bajtov na znak.

Ako nastaviť svoj projekt Google Cloud Platform Text to Speech API?

  1. Vytvorte si Google Cloud účet alebo sa prihláste tu
  2. Vytvorte nový projekt a vhodne ho pomenujte.
  3. Pridajte spôsob platby. Platíte len za reálne použitie.
  4. Vyberte projekt a priraďte ho k fakturačnému účtu.
  5. Aktivujte Text-to-Speech API. Do vyhľadávania hore napíšte "speech".
  6. Zo zoznamu vyberte Cloud Text-to-Speech API.
  7. Nastavte autentifikáciu prostredia. Postupujte podľa návodu na nastavenie autentifikácie pre Text-to-Speech.

Text-to-Speech si môžete vyskúšať aj bez napojenia na projekt:

  1. Vyberte možnosť TRY THIS API.
  2. Na použitie vo svojom projekte kliknite na ENABLE pri Text-to-Speech API.

Podrobnosti nájdete v Google Cloud dokumentácii.

Ako vypnúť Text to Speech API

Na deaktiváciu Text-to-Speech API prejdite do Google Cloud Platform a kliknite na "Prehľad API" v paneli API. Následne vyberte Text-to-Speech API, kliknite naň a hore na stránke zvoľte "DISABLE API".

Začnite s Google Text to Speech API

Po nastavení projektu môžete spustiť príkazový riadok.

gcloud init

Vytvorte si lokálnu autentifikáciu

gcloud auth application-default login

Teraz môžete nainštalovať klientsku knižnicu. Na príklade Node.js:

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API podporuje tieto jazyky:

  1. Go
  2. Java
  3. Node.js
  4. C++
  5. C#
  6. PHP
  7. Python
  8. Ruby
  9. TypeScript
  10. Terraform
  11. YAML

Ako funguje Google Cloud API?

Všetko začína jednoduchým API volaním. Odošlete svoj text v požiadavke a dostanete audio súbor s rečou. Môžete špecifikovať hlas, jazyk a ďalšie – API na prevod textu na reč vráti požadované audio.

Ako nainštalovať a použiť klientské knižnice prevodu textu na reč sa dozviete tu. Naše ukážky sú pre Node.js, no môžete použiť aj Python, PHP alebo iné – podľa toho, čo vám vyhovuje.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

Hotovo. Nastavili ste Google Cloud Text to Speech API a poslali prvú požiadavku na prevod textu na reč. Výsledný súbor získate v OGG aj MP3 formáte.

Ako využiť Google Text to Speech API

Google Text to Speech (TTS) API ponúka všestranné využitie naprieč mnohými odvetviami. Bežné príklady použitia:

  1. Prevod textu na reč pre zrakovo postihnutých: Pomáha premieňať písaný text na hovorenú reč – sprístupňuje digitálny obsah pre zrakovo postihnutých používateľov.
  2. Automatické telefónne systémy: TTS vytvára prirodzené hlásenia a odpovede pre infolinky a zákaznícke centrá.
  3. Dabing pre médiá: Generuje reč pre videá, podcasty a iný obsah – zlepšuje zážitok používateľov.
  4. Prevod pre preložený obsah: Prevod prekladov na hlas uľahčuje učenie jazykov aj konzumáciu obsahu v cudzích jazykoch.
  5. Podpora čítania pre dyslektikov: TTS pomáha ľuďom s dyslexiou alebo poruchami čítania prijímať textový obsah.
  6. Hlasová navigácia v aplikáciách: TTS v navigačných appkách poskytuje hlasové pokyny či informácie o mieste v reálnom čase.
  7. Vzdelávací obsah: Prevod textu na reč v e-learningu zlepšuje pochopenie aj zapojenie.
  8. Produktivita: TTS v poznámkach či úlohách – hlasová spätná väzba aj informácie nahlas.
  9. Virtuálni asistenti: TTS umožňuje hlasovým asistentom pôsobiť prirodzene v rozhovoroch.
  10. Zvukové upozornenia a notifikácie: TTS generuje zvukové výstrahy pre IoT zariadenia a zlepšuje pohotovosť používateľa.

Najlepšie alternatívy ku Google Cloud TTS API

Podľa mojich údajov k januáru 2022 existuje viac alternatív k Google Text to Speech API. Dôležité je, že popularita a možnosti sa môžu časom meniť. Tu sú niektoré známe možnosti:

  1. Speechify Text to Speech API: Speechify Text to Speech API ponúka viac než 1 000 realistických emocionálnych AI hlasov v 60+ jazykoch. Rezervujte si miesto.
  2. Amazon Polly: Amazon Polly ponúka realistickú syntézu reči vo viacerých jazykoch a hlasoch, dobre funguje v rámci AWS.
  3. Microsoft Azure Speech Service: Azure ponúka TTS pre viaceré aplikácie, vrátane asistentov, navigácie a pod.
  4. IBM Watson Text to Speech: IBM Watson umožní prevod písaného textu na prirodzenú reč vo viacerých hlasoch.
  5. Nuance Communications: Nuance poskytuje riešenia pre rozpoznávanie aj prevod reči (text to speech) – využitie v zdravotníctve, autách aj zákazníckych centrách.
  6. CereProc: CereProc je text to speech spoločnosť s kvalitnými syntetickými hlasmi – využiteľné v prístupnosti, zábave či komunikácii.
  7. iSpeech: iSpeech je cloudová služba čítania textu pre viac jazykov a hlasov, vhodná aj pre appky a weby.
  8. ResponsiveVoice: ResponsiveVoice je jednoduché a cenovo dostupné API na čítanie textu s podporou mnohých jazykov, najmä pre webové aplikácie.
  9. Neospeech: Neospeech ponúka spreva textu na reč s dôrazom na prirodzenosť – využitie v e-learningu aj zábave.
  10. ReadSpeaker: ReadSpeaker má online aj offline TTS riešenia pre weby, e-learning aj služby prístupnosti.
  11. Acapelabox: Acapela Group má cloudové API na čítanie textu, Acapelabox, s podporou viacerých jazykov a hlasov pre rôzne oblasti.

FAQ

Google má niekoľko úrovní hlasov a väčšina má bezplatný limit. Napríklad štandardné hlasy sú zadarmo do 1 milióna bajtov, potom 16 $ za milión bajtov. Takže áno, s limitom môže byť bezplatný.

Stačí si vytvoriť účet na https://cloud.google.com/text-to-speech/ a riadiť sa tam uvedenými krokmi. Postup nájdete aj v tomto blogu vyššie.

Kľúč získate prihlásením do Google Cloud, vytvorením projektu a následným vygenerovaním API key.

URL pre Google text to speech API je https://cloud.google.com/text-to-speech/

Technicky Google Cloud nemá jednotnú skúšobnú dobu. Každá služba má vlastné podmienky a bezplatné úrovne.

Nie. Google Cloud Text to Speech API vyžaduje internetové pripojenie.

Pripojenie ku Google službám vrátane Text to Speech API je možné cez API kľúč, OAuth 2.0 alebo servisné účty. Záleží na type použitia a aplikácii.

Dal by som 5 hviezd. Používanie je jednoduché, vyhľadávanie skvelé, cena primeraná a celkovo ide o výborný produkt.

Google Text to Speech API má knižnice pre rôzne programovacie jazyky vrátane Pythonu. Podporuje tiež REST API, takže je kompatibilné so všetkými jazykmi, ktoré vedia posielať HTTP požiadavky.

Integráciu do Android aplikácie realizujete cez triedu TextToSpeech a API požiadavky. Postup a detaily nájdete v oficiálnej dokumentácii pre Android vývojárov.

Na implementáciu použite HTTP požiadavky na endpoint API. Potrebné je pripraviť požiadavku a spracovať odpoveď v JavaScripte. Detaily nájdete v oficiálnej dokumentácii.

Získajte rýchly, škálovateľný a pre vývojárov prívetivý prístup k obľúbeným hlasom Speechify cez API

Získať prístup k API
api access banner

Zdieľať tento článok

Cliff Weitzman

Cliff Weitzman

CEO/Zakladateľ Speechify

Cliff Weitzman je zástanca ľudí s dyslexiou a CEO a zakladateľ Speechify, najlepšej aplikácie na prevod textu na reč na svete, s viac než 100 000 päťhviezdičkovými hodnoteniami a prvým miestom v App Store v kategórii Správy a časopisy. V roku 2017 bol zaradený do rebríčka Forbes 30 pod 30 za sprístupňovanie internetu ľuďom s poruchami učenia. Objavil sa v médiách ako EdSurge, Inc., PC Mag, Entrepreneur či Mashable.

speechify logo

O Speechify

#1 čítačka textu na reč

Speechify je popredná svetová platforma na prevod textu na reč, ktorej dôveruje viac ako 50 miliónov používateľov a ktorú podporuje vyše 500 000 päťhviezdičkových recenzií naprieč aplikáciami na prevod textu na reč pre iOS, Android, rozšírenie pre Chrome, webovú aplikáciu a desktopovú aplikáciu pre Mac. V roku 2025 Apple ocenilo Speechify prestížnou cenou Apple Design Award na konferencii WWDC a označilo ho za „kľúčový zdroj, ktorý pomáha ľuďom žiť svoj život“. Speechify ponúka viac ako 1 000 prirodzene znejúcich hlasov v 60+ jazykoch a používa sa takmer v 200 krajinách. Medzi známe hlasy patria Snoop Dogg a Gwyneth Paltrow. Pre tvorcov a firmy Speechify Studio ponúka pokročilé nástroje vrátane generátora AI hlasu, AI klonovania hlasu, AI dabingu a AI meniča hlasu. Speechify zároveň poháňa špičkové produkty pomocou svojho kvalitného a cenovo dostupného API na prevod textu na reč. Objavilo sa v The Wall Street Journal, CNBC, Forbes, TechCrunch a ďalších popredných spravodajských médiách. Speechify je najväčší poskytovateľ prevodu textu na reč na svete. Navštívte speechify.com/news, speechify.com/blog a speechify.com/press a zistite viac.