Kõik, mida pead teadma Google Cloud Text to Speech API-st

Generatiivne tehisintellekt on teinud muljetavaldava arenguhüppe. Teksti kõneks tehnoloogia on aga juba ammu olemas. Selgitan asja võimalikult lihtsalt ja lühidalt, et nii algaja kui kogenud kasutaja saaks selge pildi Google Text to Speech API-st.

Enne põhiteema juurde minekut tasub põhimõisted üle käia. Teen selle osa kiiresti ja arusaadavalt, et saaksime edasi liikuda kindla vundamendiga.

Eristame siin kahte tehnoloogiat: teksti kõneks ja API-d. Vaatame ka, milline on Google Cloudi roll.

Toimetaja märkus: otsid parimat teksti kõneks API-d? Proovi Speechify’i hästi dokumenteeritud ja lihtsat teksti kõneks API-d.

Teksti kõneks

Olen sellest teemast pikemalt kirjutanud – saad lugeda minu „Mis on teksti kõneks“ blogipostitust ja kõnesünteesi juhendit, kui soovid süvitsi minna. Soovi korral võid need praegu vahele jätta — teen siin lühikokkuvõtte.

Teksti kõneks tugineb kõnesünteesi tehnoloogiale, mis muudab kirjaliku teksti AI abil kõneks. Kasutusvaldkondi on palju: see aitab näiteks düsleksiaga või kehva nägemisega inimesi, aga ka kõiki, kes tahavad oma töövoogu kiirendada.

API

API tähendab rakenduste programmeerimisliidest. See on nagu sild kahe rakenduse vahel. Kui lood rakenduse, kus on vaja teksti kõneks funktsiooni, võid selle ise nullist arendada või kasutada valmis teksti kõneks API-t.

Sina saad keskenduda oma äpi arendamisele ja ühendada vajaliku kõnesünteesi funktsiooni kolmanda osapoole API abil — nii genereeritakse sinu tekstist kõne.

Google Cloud API

Siin tulebki mängu Google Cloud. Google on loonud võimsa teksti kõneks API ning pakub seda arendajatele mitme hinnapaketi alusel. Iga arendaja, kes soovib teha personaalseid või veebirakendusi, saab mugavalt kasutada Google TTS funktsioone. Jah, TTS tähendab teksti kõneks.

Leia kiirstardijuhend Google Cloud Console’ist https://cloud.google.com/. Sealt leiad juhendid, teenushalduse, Wavenet hääled ja muud tööriistad.

Google Cloud on Google’i pilveplatvorm, mis pakub hulgaliselt moodulteenuseid. Võid valida kas ühe, mitu või kõik. Iga API (ehk silla) jaoks tuleb luua juurdepääsuvõtmed. Peaaegu kõik teenused on tasulised, kuid sageli on olemas ka tasuta maht.

Google ostis DeepMindi 2014. aastal just selle teksti kõneks tehnoloogia ja närvivõrkude arenduse tõttu. Kui kuuled nime DeepMind, siis tänaseks on see Google DeepMind — sisuliselt sama ettevõte.

Nüüd, kus põhitõed on selged, sukeldume sügavamalt Google Cloud Text to Speech API maailma.

Google Text to Speech API funktsioonid

Google on ülemaailmne tehnoloogia liider ja seda ka TTS API valdkonnas. Võid alati arvestada tippklassi, pidevalt arenevate funktsioonidega.

Kvaliteetne kõne

Google’i teksti kõneks hääled on maailma parimate seas – need kõlavad väga loomulikult ja inimliku intonatsiooniga. TTS tehnoloogia areneb kiiresti ning need, kes suudavad luua kõige elutruumaid, inimesele sarnaseid hääli, on selles valdkonnas esirinnas.

Häälte valik

Google pakub üht suurimat häälte valikut, nii et sinu projekt ei pea kõlama nagu kõik teised või konkurentide rakendus.

Loo oma hääl

See läheb juba hääle kloonimise maailma. Saad salvestada oma või kellegi teise häält (tema loal) ja kasutada seda kõigi tekstide ettelugemiseks.

Neuraalhääled

Neuraalhääled on kvaliteedilt tippklassis. Neid saab kasutada ka rahvusvahelistes projektides erinevates keeltes.

Stuudiohääled

Stuudiohääled on kõige kõrgema klassi lahendus ja kõlavad väga professionaalselt, justkui oleks need salvestatud traditsioonilises helistuudios.

Hääle häälestus

Vali hääl ja kohanda selle kiirust, kõrgust jms – saad ise hääle tonaalsust ja omadusi peenhäälestada.

Kui palju maksab Google Text to Speech API?

Hind sõltub hääle kvaliteedist ja teksti mahust. Mida loomulikum hääl, seda kallim — kuid „kallis“ on suhteline, sest isegi tippkvaliteet on üsna taskukohane.

Hääle tüüp	Tasuta kuus	Pärast tasuta piiri
Neural2 hääled	0–1 miljon baiti	$16 iga miljoni baidi kohta
Polyglot hääled	0–1 miljon baiti	$16 iga miljoni baidi kohta
Stuudiohääled	0–100 000 baiti	$160 miljoni baidi kohta
Standardhääled	0–4 miljonit märki	$4 miljoni märgi kohta
Wavenet hääled	0–1 miljon märki	$16 miljoni märgi kohta

Mis vahe on märkidel & baitidel?

Nagu näha, sõltub hind tugevalt hääle kvaliteedist. Teksti kõneks muutmise koodi- ja protsessorikulu on eri pakettides erinev. Odavamate (nt Standard Voices) puhul arvestatakse märke.

Näiteks kui sinu projektis on 4 miljonit märki, maksad $16, et need tekstilõigud muuta kõneks Standard märkide hinnaga.

Stuudiohääled vajavad rohkem ressursse ja nende puhul arvestatakse baite. Mõnes keeles, nt jaapani keeles, võib üks märk koosneda mitmest baidist.

Kõige täpsema hinna jaoks tuleb teada, mis keeles töö toimub, mitu baiti on ühel märgil keskmiselt ja selle põhjal hinnang teha.

Kuidas seadistada oma Google Cloud Platform Text to Speech API projekt?

Loo Google Cloudi konto või logi sisse siin
Loo uus projekt ja anna sellele nimi.
Lisa makseviis. Maksad ainult tegeliku kasutuse eest.
Vali oma projekt ja seo see maksekontoga.
Aktiveeri Text-to-Speech API. Ava lehe ülaservas otsinguriba ja kirjuta „speech“.
Otsingutulemustest vali Cloud Text-to-Speech API.
Seadista arenduskeskkonna autentimine. Juhised leiad Text-to-Speech autentimise dokumentatsioonist.

Võid Text-to-Speech teenust ka enne projektiga sidumist järele proovida:

Vali TRY THIS API valik.
Text-to-Speech API lubamiseks oma projektis vajuta ENABLE.

Lisainfo ja abi saamiseks loe Google Cloud dokumentatsiooni.

Kuidas Text to Speech API välja lülitada

API keelamiseks ava Google Cloud Platformi juhtpaneel ja klõpsa API-de kastis lingil "Go to APIs overview". Otsi Text-to-Speech API üles, vali selle nimi ja vajuta lehe ülaosas nuppu DISABLE API.

Alusta Google Text to Speech API kasutamist

Kui projekt on loodud, saad kohe käsurealt pihta hakata.

gcloud init

Seadista kohalik autentimine.

gcloud auth application-default login

Nüüd installi klienditeek. Näites kasutatakse Node.js-i.

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API toetab neid programmeerimiskeeli:

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Kuidas Google Cloud API töötab?

Kõik algab lihtsast API-päringust: saadad teksti ja vastu saad helifaili, kus tekst on ette loetud. Saab määrata keele, hääle jne. Tagastatakse valmis audiotulemus.

Õpi klienditeekide paigaldamist ja kasutamist teksti kõneks loomiseks siit. Näidiskoodid on Node.js jaoks, kuid valida saab ka muid keeli (Python, PHP jne).

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

Ja ongi kõik. Seadistasid Google Cloud Text to Speech API ja tegid oma esimese päringu, et muuta tekst kõneks. Faili saab alla laadida mitmes formaadis, nt OGG ja MP3.

Google Text to Speech API kasutuskohad

Google Text-to-Speech (TTS) API-d saab kasutada väga paljudes valdkondades. Mõned levinumad kasutusviisid on:

Teksti kõneks nägemispuudega kasutajatele: Loeb teksti ette, muutes info nägemispuudega inimestele paremini kättesaadavaks.
Automatiseeritud telefonisüsteemid: Loob loomuliku kõlaga vastused ja teavitused kõnede automaatvastussüsteemides.
Meediasisu pealelugemine: Genereerib loomuliku heliriba videotele, podcastidele jms.
Tõlgitud teksti ettelugemine: Loeb tõlgitud teksti ette, aidates keeleõppes ja rahvusvahelises suhtluses.
Lugemistugi düsleksikutel: Aitab düsleksia või muude lugemisraskustega inimestel teksti kuulata.
Häälnavigatsioon rakendustes: Annab navirakendustes juhiseid ja infot kuulmis-kanali kaudu.
Õppematerjalide kuulamine: E-õppes saab tekstid muuta kuuldavaks, mis parandab arusaamist ja kaasatust.
Kõnesüntees tootlikkuse rakendustes: Lisab märkme- ja ülesandeäppidesse ettelugemise funktsiooni.
Virtuaalabiliste loomulik kõne: Muudab vestlusel põhinevad virtuaalabilised kõlalt loomulikumaks.
Kuuldavad märguanded ja teated: TTS võimaldab IoT seadmetes häälteavitusi, parandades kasutajakogemust.

Parimad alternatiivid Google Cloud TTS API-le

Minu viimase ülevaate (jaanuar 2022) järgi on Google Text-to-Speech API-le olemas mitmeid alternatiive. Teenuste populaarsus ja võimalused võivad küll aja jooksul muutuda. Siin mõned tuntumad variandid:

Speechify Text to Speech API: Speechify Text to Speech API pakub üle 1000 elutruu ja emotsionaalse AI-hääle 60+ keeles ja murdes. Registreeru juba täna.
Amazon Polly: AWS-i teenus, mis loob loomulikku kõnet eri keeltes ja häältega. Töötab hästi koos teiste AWS-teenustega.
Microsoft Azure Speech Service: Azure Speech Service sisaldab TTS-i, mis sobib virtuaalabiliste, navigatsioonisüsteemide jpm lahenduste jaoks.
IBM Watson Text to Speech: IBM Watson võimaldab muuta kirjutatud teksti loomulikuks kõneks, kasutades erinevaid hääli.
Nuance Communications: Nuance pakub erinevaid kõne- ja kõnetuvastusteenuseid, sh teksti kõneks lahendusi, mida kasutatakse tervishoius, autotööstuses ja klienditeeninduses.
CereProc: CereProc pakub teksti kõneks tuge kvaliteetsete sünteeshäältega ligipääsetavuse, meelelahutuse ja suhtlusrakenduste jaoks.
iSpeech: iSpeech pakub pilvepõhist teksti kõneks tuge mitmes keeles ja erinevate häältega. Sobib nii mobiilirakendustele kui veebile.
ResponsiveVoice: ResponsiveVoice on lihtne ja taskukohane tekst-kõne API mitmes keeles, mida saab kasutada veebirakendustes.
Neospeech: Neospeech pakub teksti kõneks lahendusi, keskendudes võimalikult loomulikele häältele. Levinud kasutusvaldkonnad on e-õpe ja meelelahutus.
ReadSpeaker: ReadSpeaker pakub online- ja offline-lahendusi eri kanalites: veebilehed, e-õpe, ligipääsetavusteenused.
Acapelabox: Acapela Group pakub pilvepõhist teksti kõneks API-t Acapelabox, mis sobib paljude tööstusharude ja kasutusjuhtude jaoks.

KKK

Google’il on mitu häältekategooriat ning enamikus neist on tasuta limiit. Näiteks standardhääled on tasuta kuni miljoni baidini. Sealt edasi on hind $16 miljoni baidi kohta. Jah, teatud mahu või märkideni saab teenust tasuta proovida.

Loo konto saidil https://cloud.google.com/text-to-speech/ ja järgi sealset juhendit. Samuti olen kõik sammud selles blogipostituses detailselt lahti seletanud.

Logi Google Cloudi, loo projekt ja pärast projekti loomist saad genereerida API-võtme.

Google Text to Speech API URL on https://cloud.google.com/text-to-speech/

Google Cloudil ei ole ühtset tasuta prooviperioodi — igal teenusel on oma piirangud ja tasuta tasemed.

Ei, Google Cloud Text to Speech API vajab toimimiseks internetiühendust.

Google Cloudi teenuseid, sh Text-to-Speech API-d, saab autentida API-võtme, OAuth 2.0 või teenusekontoga. Õige meetod sõltub kasutusviisist ja rakenduse tüübist.

Annaksin 5 tärni. Seda on lihtne kasutada, otsing töötab väga hästi, hinnad on mõistlikud — kokkuvõttes väga hea teenus.

Google Text-to-Speech API pakub klienditeeke paljudes keeltes, sh Pythonis. Samuti toetab see REST API-päringuid ja töötab kõigi HTTP-võimekusega programmeerimiskeeltega.

Google Text-to-Speech API integreerimiseks Androidis kasuta TextToSpeech klassi koos API-päringutega. Täpsemad juhised leiad ametlikust Androidi dokumentatsioonist.

Google Text-to-Speech API kasutamiseks JavaScriptis saada HTTP-päring API lõpp-punktile. Koosta õige päring ja töötle vastus oma JS-koodis. Detailid on kirjas ametlikus dokumentatsioonis.

Speechify on maailma juhtiv tekst kõneks platvorm, mida usaldab üle 50 miljoni kasutaja ja millele on antud enam kui 500 000 viietärnilist arvustust selle tekstist kõneks tehnoloogia eest iOS-, Android-, Chrome Extension-, veebirakendus- ja Mac desktop-rakendustes. 2025. aastal pälvis Speechify Apple’ilt prestiižse Apple’i disainiauhinna WWDC-l, nimetades seda „oluliseks ressursiks, mis aitab inimestel paremini elada.” Speechify pakub üle 1 000 loodusliku kõlaga hääle rohkem kui 60 keeles ning seda kasutatakse ligi 200 riigis. Kuulsuste häältest on saadaval näiteks Snoop Dogg ja Gwyneth Paltrow. Loojatele ja ettevõtetele pakub Speechify Studio täiustatud tööriistu, sh AI-häälegeneraatorit, AI-häälekloonimist, AI-dubleerimist ja AI-häälevahetust. Speechify panustab ka juhtivatesse toodetesse tänu kvaliteetsele ja kuluefektiivsele tekst kõneks API-le. Esindatud näiteks The Wall Street Journal, CNBC, Forbes, TechCrunch ja muudes juhtivates meediakanalites, on Speechify maailma suurim kõnesünteesi teenusepakkuja. Vaata lisaks: speechify.com/news, speechify.com/blog ja speechify.com/press.

Kõik, mida pead teadma Google Cloud Text to Speech API-st

Cliff Weitzman

Speechify API tagab 300 ms  viiteaja, inimkõlalised hääled  ja 50+ keelt

Teksti kõneks

API

Google Cloud API

Google Text to Speech API funktsioonid

Kvaliteetne kõne

Häälte valik

Loo oma hääl

Neuraalhääled

Stuudiohääled

Hääle häälestus

Kui palju maksab Google Text to Speech API?

Mis vahe on märkidel & baitidel?

Kuidas seadistada oma Google Cloud Platform Text to Speech API projekt?

Kuidas Text to Speech API välja lülitada

Alusta Google Text to Speech API kasutamist

Google Cloud Text to Speech API toetab neid programmeerimiskeeli:

Kuidas Google Cloud API töötab?

Google Text to Speech API kasutuskohad

Parimad alternatiivid Google Cloud TTS API-le

KKK

Jaga seda artiklit

Cliff Weitzman

Speechify'st

Soovitatud postitused

Viimased blogipostitused

Miks Speechify loob ise oma häälmudeleid, mitte ei kasuta kolmanda osapoole API-sid

Voice AI API-d arendajatele ja Speechify API eelised

Mis iseloomustab tippklassi hääle-AI teaduslaborit

Kõik, mida pead teadma Google Cloud Text to Speech API-st

Cliff Weitzman

Speechify API tagab 300 ms viiteaja, inimkõlalised hääled ja 50+ keelt

Teksti kõneks

API

Google Cloud API

Google Text to Speech API funktsioonid

Kvaliteetne kõne

Häälte valik

Loo oma hääl

Neuraalhääled

Stuudiohääled

Hääle häälestus

Kui palju maksab Google Text to Speech API?

Mis vahe on märkidel & baitidel?

Kuidas seadistada oma Google Cloud Platform Text to Speech API projekt?

Kuidas Text to Speech API välja lülitada

Alusta Google Text to Speech API kasutamist

Google Cloud Text to Speech API toetab neid programmeerimiskeeli:

Kuidas Google Cloud API töötab?

Google Text to Speech API kasutuskohad

Parimad alternatiivid Google Cloud TTS API-le

KKK

Jaga seda artiklit

Cliff Weitzman

Speechify'st

Soovitatud postitused

Viimased blogipostitused

Miks Speechify loob ise oma häälmudeleid, mitte ei kasuta kolmanda osapoole API-sid

Voice AI API-d arendajatele ja Speechify API eelised

Mis iseloomustab tippklassi hääle-AI teaduslaborit

Speechify API tagab 300 ms  viiteaja, inimkõlalised hääled  ja 50+ keelt