Generatiivne tehisintellekt on teinud muljetavaldava arenguhüppe. Teksti kõneks tehnoloogia on aga juba ammu olemas. Selgitan asja võimalikult lihtsalt ja lühidalt, et nii algaja kui kogenud kasutaja saaks selge pildi Google Text to Speech API-st.
Enne põhiteema juurde minekut tasub põhimõisted üle käia. Teen selle osa kiiresti ja arusaadavalt, et saaksime edasi liikuda kindla vundamendiga.
Eristame siin kahte tehnoloogiat: teksti kõneks ja API-d. Vaatame ka, milline on Google Cloudi roll.
Toimetaja märkus: otsid parimat teksti kõneks API-d? Proovi Speechify’i hästi dokumenteeritud ja lihtsat teksti kõneks API-d.
Teksti kõneks
Olen sellest teemast pikemalt kirjutanud – saad lugeda minu „Mis on teksti kõneks“ blogipostitust ja kõnesünteesi juhendit, kui soovid süvitsi minna. Soovi korral võid need praegu vahele jätta — teen siin lühikokkuvõtte.
Teksti kõneks tugineb kõnesünteesi tehnoloogiale, mis muudab kirjaliku teksti AI abil kõneks. Kasutusvaldkondi on palju: see aitab näiteks düsleksiaga või kehva nägemisega inimesi, aga ka kõiki, kes tahavad oma töövoogu kiirendada.
API
API tähendab rakenduste programmeerimisliidest. See on nagu sild kahe rakenduse vahel. Kui lood rakenduse, kus on vaja teksti kõneks funktsiooni, võid selle ise nullist arendada või kasutada valmis teksti kõneks API-t.
Sina saad keskenduda oma äpi arendamisele ja ühendada vajaliku kõnesünteesi funktsiooni kolmanda osapoole API abil — nii genereeritakse sinu tekstist kõne.
Google Cloud API
Siin tulebki mängu Google Cloud. Google on loonud võimsa teksti kõneks API ning pakub seda arendajatele mitme hinnapaketi alusel. Iga arendaja, kes soovib teha personaalseid või veebirakendusi, saab mugavalt kasutada Google TTS funktsioone. Jah, TTS tähendab teksti kõneks.
Leia kiirstardijuhend Google Cloud Console’ist https://cloud.google.com/. Sealt leiad juhendid, teenushalduse, Wavenet hääled ja muud tööriistad.
Google Cloud on Google’i pilveplatvorm, mis pakub hulgaliselt moodulteenuseid. Võid valida kas ühe, mitu või kõik. Iga API (ehk silla) jaoks tuleb luua juurdepääsuvõtmed. Peaaegu kõik teenused on tasulised, kuid sageli on olemas ka tasuta maht.
Google ostis DeepMindi 2014. aastal just selle teksti kõneks tehnoloogia ja närvivõrkude arenduse tõttu. Kui kuuled nime DeepMind, siis tänaseks on see Google DeepMind — sisuliselt sama ettevõte.
Nüüd, kus põhitõed on selged, sukeldume sügavamalt Google Cloud Text to Speech API maailma.
Google Text to Speech API funktsioonid
Google on ülemaailmne tehnoloogia liider ja seda ka TTS API valdkonnas. Võid alati arvestada tippklassi, pidevalt arenevate funktsioonidega.
Kvaliteetne kõne
Google’i teksti kõneks hääled on maailma parimate seas – need kõlavad väga loomulikult ja inimliku intonatsiooniga. TTS tehnoloogia areneb kiiresti ning need, kes suudavad luua kõige elutruumaid, inimesele sarnaseid hääli, on selles valdkonnas esirinnas.
Häälte valik
Google pakub üht suurimat häälte valikut, nii et sinu projekt ei pea kõlama nagu kõik teised või konkurentide rakendus.
Loo oma hääl
See läheb juba hääle kloonimise maailma. Saad salvestada oma või kellegi teise häält (tema loal) ja kasutada seda kõigi tekstide ettelugemiseks.
Neuraalhääled
Neuraalhääled on kvaliteedilt tippklassis. Neid saab kasutada ka rahvusvahelistes projektides erinevates keeltes.
Stuudiohääled
Stuudiohääled on kõige kõrgema klassi lahendus ja kõlavad väga professionaalselt, justkui oleks need salvestatud traditsioonilises helistuudios.
Hääle häälestus
Vali hääl ja kohanda selle kiirust, kõrgust jms – saad ise hääle tonaalsust ja omadusi peenhäälestada.
Kui palju maksab Google Text to Speech API?
Hind sõltub hääle kvaliteedist ja teksti mahust. Mida loomulikum hääl, seda kallim — kuid „kallis“ on suhteline, sest isegi tippkvaliteet on üsna taskukohane.
| Hääle tüüp | Tasuta kuus | Pärast tasuta piiri |
| Neural2 hääled | 0–1 miljon baiti | $16 iga miljoni baidi kohta |
| Polyglot hääled | 0–1 miljon baiti | $16 iga miljoni baidi kohta |
| Stuudiohääled | 0–100 000 baiti | $160 miljoni baidi kohta |
| Standardhääled | 0–4 miljonit märki | $4 miljoni märgi kohta |
| Wavenet hääled | 0–1 miljon märki | $16 miljoni märgi kohta |
Mis vahe on märkidel & baitidel?
Nagu näha, sõltub hind tugevalt hääle kvaliteedist. Teksti kõneks muutmise koodi- ja protsessorikulu on eri pakettides erinev. Odavamate (nt Standard Voices) puhul arvestatakse märke.
Näiteks kui sinu projektis on 4 miljonit märki, maksad $16, et need tekstilõigud muuta kõneks Standard märkide hinnaga.
Stuudiohääled vajavad rohkem ressursse ja nende puhul arvestatakse baite. Mõnes keeles, nt jaapani keeles, võib üks märk koosneda mitmest baidist.
Kõige täpsema hinna jaoks tuleb teada, mis keeles töö toimub, mitu baiti on ühel märgil keskmiselt ja selle põhjal hinnang teha.
Kuidas seadistada oma Google Cloud Platform Text to Speech API projekt?
- Loo Google Cloudi konto või logi sisse siin
- Loo uus projekt ja anna sellele nimi.
- Lisa makseviis. Maksad ainult tegeliku kasutuse eest.
- Vali oma projekt ja seo see maksekontoga.
- Aktiveeri Text-to-Speech API. Ava lehe ülaservas otsinguriba ja kirjuta „speech“.
- Otsingutulemustest vali Cloud Text-to-Speech API.
- Seadista arenduskeskkonna autentimine. Juhised leiad Text-to-Speech autentimise dokumentatsioonist.
Võid Text-to-Speech teenust ka enne projektiga sidumist järele proovida:
- Vali TRY THIS API valik.
- Text-to-Speech API lubamiseks oma projektis vajuta ENABLE.
Lisainfo ja abi saamiseks loe Google Cloud dokumentatsiooni.
Kuidas Text to Speech API välja lülitada
API keelamiseks ava Google Cloud Platformi juhtpaneel ja klõpsa API-de kastis lingil "Go to APIs overview". Otsi Text-to-Speech API üles, vali selle nimi ja vajuta lehe ülaosas nuppu DISABLE API.
Alusta Google Text to Speech API kasutamist
Kui projekt on loodud, saad kohe käsurealt pihta hakata.
gcloud initSeadista kohalik autentimine.
gcloud auth application-default loginNüüd installi klienditeek. Näites kasutatakse Node.js-i.
npm install --save @google-cloud/text-to-speechGoogle Cloud Text to Speech API toetab neid programmeerimiskeeli:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Kuidas Google Cloud API töötab?
Kõik algab lihtsast API-päringust: saadad teksti ja vastu saad helifaili, kus tekst on ette loetud. Saab määrata keele, hääle jne. Tagastatakse valmis audiotulemus.
Õpi klienditeekide paigaldamist ja kasutamist teksti kõneks loomiseks siit. Näidiskoodid on Node.js jaoks, kuid valida saab ka muid keeli (Python, PHP jne).
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);Ja ongi kõik. Seadistasid Google Cloud Text to Speech API ja tegid oma esimese päringu, et muuta tekst kõneks. Faili saab alla laadida mitmes formaadis, nt OGG ja MP3.
Google Text to Speech API kasutuskohad
Google Text-to-Speech (TTS) API-d saab kasutada väga paljudes valdkondades. Mõned levinumad kasutusviisid on:
- Teksti kõneks nägemispuudega kasutajatele: Loeb teksti ette, muutes info nägemispuudega inimestele paremini kättesaadavaks.
- Automatiseeritud telefonisüsteemid: Loob loomuliku kõlaga vastused ja teavitused kõnede automaatvastussüsteemides.
- Meediasisu pealelugemine: Genereerib loomuliku heliriba videotele, podcastidele jms.
- Tõlgitud teksti ettelugemine: Loeb tõlgitud teksti ette, aidates keeleõppes ja rahvusvahelises suhtluses.
- Lugemistugi düsleksikutel: Aitab düsleksia või muude lugemisraskustega inimestel teksti kuulata.
- Häälnavigatsioon rakendustes: Annab navirakendustes juhiseid ja infot kuulmis-kanali kaudu.
- Õppematerjalide kuulamine: E-õppes saab tekstid muuta kuuldavaks, mis parandab arusaamist ja kaasatust.
- Kõnesüntees tootlikkuse rakendustes: Lisab märkme- ja ülesandeäppidesse ettelugemise funktsiooni.
- Virtuaalabiliste loomulik kõne: Muudab vestlusel põhinevad virtuaalabilised kõlalt loomulikumaks.
- Kuuldavad märguanded ja teated: TTS võimaldab IoT seadmetes häälteavitusi, parandades kasutajakogemust.
Parimad alternatiivid Google Cloud TTS API-le
Minu viimase ülevaate (jaanuar 2022) järgi on Google Text-to-Speech API-le olemas mitmeid alternatiive. Teenuste populaarsus ja võimalused võivad küll aja jooksul muutuda. Siin mõned tuntumad variandid:
- Speechify Text to Speech API: Speechify Text to Speech API pakub üle 1000 elutruu ja emotsionaalse AI-hääle 60+ keeles ja murdes. Registreeru juba täna.
- Amazon Polly: AWS-i teenus, mis loob loomulikku kõnet eri keeltes ja häältega. Töötab hästi koos teiste AWS-teenustega.
- Microsoft Azure Speech Service: Azure Speech Service sisaldab TTS-i, mis sobib virtuaalabiliste, navigatsioonisüsteemide jpm lahenduste jaoks.
- IBM Watson Text to Speech: IBM Watson võimaldab muuta kirjutatud teksti loomulikuks kõneks, kasutades erinevaid hääli.
- Nuance Communications: Nuance pakub erinevaid kõne- ja kõnetuvastusteenuseid, sh teksti kõneks lahendusi, mida kasutatakse tervishoius, autotööstuses ja klienditeeninduses.
- CereProc: CereProc pakub teksti kõneks tuge kvaliteetsete sünteeshäältega ligipääsetavuse, meelelahutuse ja suhtlusrakenduste jaoks.
- iSpeech: iSpeech pakub pilvepõhist teksti kõneks tuge mitmes keeles ja erinevate häältega. Sobib nii mobiilirakendustele kui veebile.
- ResponsiveVoice: ResponsiveVoice on lihtne ja taskukohane tekst-kõne API mitmes keeles, mida saab kasutada veebirakendustes.
- Neospeech: Neospeech pakub teksti kõneks lahendusi, keskendudes võimalikult loomulikele häältele. Levinud kasutusvaldkonnad on e-õpe ja meelelahutus.
- ReadSpeaker: ReadSpeaker pakub online- ja offline-lahendusi eri kanalites: veebilehed, e-õpe, ligipääsetavusteenused.
- Acapelabox: Acapela Group pakub pilvepõhist teksti kõneks API-t Acapelabox, mis sobib paljude tööstusharude ja kasutusjuhtude jaoks.
KKK
Google’il on mitu häältekategooriat ning enamikus neist on tasuta limiit. Näiteks standardhääled on tasuta kuni miljoni baidini. Sealt edasi on hind $16 miljoni baidi kohta. Jah, teatud mahu või märkideni saab teenust tasuta proovida.
Loo konto saidil https://cloud.google.com/text-to-speech/ ja järgi sealset juhendit. Samuti olen kõik sammud selles blogipostituses detailselt lahti seletanud.
Logi Google Cloudi, loo projekt ja pärast projekti loomist saad genereerida API-võtme.
Google Text to Speech API URL on https://cloud.google.com/text-to-speech/
Google Cloudil ei ole ühtset tasuta prooviperioodi — igal teenusel on oma piirangud ja tasuta tasemed.
Ei, Google Cloud Text to Speech API vajab toimimiseks internetiühendust.
Google Cloudi teenuseid, sh Text-to-Speech API-d, saab autentida API-võtme, OAuth 2.0 või teenusekontoga. Õige meetod sõltub kasutusviisist ja rakenduse tüübist.
Annaksin 5 tärni. Seda on lihtne kasutada, otsing töötab väga hästi, hinnad on mõistlikud — kokkuvõttes väga hea teenus.
Google Text-to-Speech API pakub klienditeeke paljudes keeltes, sh Pythonis. Samuti toetab see REST API-päringuid ja töötab kõigi HTTP-võimekusega programmeerimiskeeltega.
Google Text-to-Speech API integreerimiseks Androidis kasuta TextToSpeech klassi koos API-päringutega. Täpsemad juhised leiad ametlikust Androidi dokumentatsioonist.
Google Text-to-Speech API kasutamiseks JavaScriptis saada HTTP-päring API lõpp-punktile. Koosta õige päring ja töötle vastus oma JS-koodis. Detailid on kirjas ametlikus dokumentatsioonis.

