Generativna umetna inteligenca je naredila velik napredek. Pretvorba besedila v govor (text to speech) je starejši koncept, ki obstaja že dolgo. O tej temi je veliko za povedati, zato bom vse razložil in pogledal iz različnih zornih kotov. Ne glede na to, ali ste začetnik ali izkušen uporabnik, boste dobili jasno sliko o Google Text to Speech API.
Preden začnemo, je dobro, da najprej razjasnimo osnovne pojme in postavimo temelje, na katerih bomo gradili.
Najprej razdelimo tehnologiji: pretvorbo besedila v govor ter API-je in pojasnimo, kakšna je vloga Google Clouda.
Opomba urednika: Iščete najboljši API za pretvorbo besedila v govor? Oglejte si dobro dokumentiran in uporabniku prijazen Speechify API.
Pretvorba besedila v govor
O tej temi sem veliko pisal, preberite moj Kaj je text to speech blog ali zapis o sintezi govora za boljši vpogled. V tem članku bom vse strnil le v nekaj stavkih.
Pretvorba besedila v govor temelji na sintezi govora, ki z uporabo umetne inteligence pretvori zapisane besede v zvok. Uporaba je zelo široka – od pomoči ljudem z disleksijo ali slabovidnostjo do povečanja učinkovitosti.
API
API pomeni vmesnik za programsko povezovanje aplikacij. Deluje kot most med dvema aplikacijama. Če razvijate aplikacijo z zvočno vsebino, ki potrebuje funkcijo besedilo-v-govor, lahko to funkcijo razvijete sami ali uporabite obstoječ API.
Osredotočite se na svojo aplikacijo in uporabite zunanji API kot most, ki za vaš tekst poskrbi za sintezo govora.
Google Cloud API
Tukaj vstopi Google Cloud. Google je razvil napreden API za pretvorbo besedila v govor, ki je na voljo razvijalcem ob določenih pogojih. Vsak, ki razvija aplikacije z govorno funkcionalnostjo, lahko uporabi Google TTS. TTS pomeni »text to speech«.
Hitri začetek najdete v Google Cloud Console na https://cloud.google.com/. Na voljo so vodiči, lahko upravljate svoj račun, dostopate do glasov wavenet in še več.
Google Cloud je Googlov oblak in ponuja številne modularne storitve. Uporabljate jih lahko vsako posebej ali v kombinaciji. Za vsako API storitev potrebujete ključ – to je vaša povezava (most). Večina storitev je plačljivih, a na voljo je začetna brezplačna količina.
Google je DeepMind kupil leta 2014 prav zaradi tehnologije sinteze govora in razvoja nevronskih mrež. DeepMind je zdaj Google DeepMind.
Zdaj, ko poznamo osnove, se poglobimo v Google Cloud Text to Speech API.
Funkcije Google Text to Speech API
Google je svetovni tehnološki pionir in vodilni. Pri TTS API-ju lahko pričakujete vrhunske funkcionalnosti, ki jih stalno nadgrajujejo.
Visoka kakovost govora
Googlovi glasovi za besedilo v govor sodijo med najboljše. Zvenijo zelo naravno, skoraj kot pravi govor. TTS je še vedno v zgodnji fazi – tisti, ki bo najbolje poustvaril človeški glas, bo zmagal.
Izbira glasov
Google ponuja največ glasov, zato vaš projekt ne bo zvenel enako kot ostali ali celo kot konkurenca.
Ustvari svoj glas
To meji na kloniranje glasu. Ustvarite lahko lasten glas z dovoljenjem posnetka sebe ali druge osebe in ta glas nato uporablja za branje besedila.
Nevronski glasovi
Nevronski glasovi so najkakovostnejši in jih je mogoče prilagoditi za mednarodno občinstvo.
Studijski glasovi
Studijski glasovi so najvišjega razreda, zvenijo kot profesionalni studijski posnetki.
Prilagajanje glasu
Izberite glas in prilagodite hitrost, višino ter druge parametre ter ustvarite edinstven ton ali glas.
Koliko stane Google Text to Speech API?
Cena je odvisna od kakovosti glasu in dolžine besedila. Bolj kot želite naraven zvok, dražje je. Kljub temu so tudi najboljši glasovi cenovno zelo dostopni.
| Tip glasu | Brezplačno na mesec | Po preseženi brezplačni uporabi |
| Neural2 glasovi | 0 do 1 milijon bajtov | $16 na milijon bajtov |
| Polyglot glasovi | 0 do 1 milijon bajtov | $16 na milijon bajtov |
| Studijski glasovi | 0 do 100.000 bajtov | $160 na milijon bajtov |
| Standardni glasovi | 0 do 4 milijone znakov | $4 na milijon znakov |
| Wavenet glasovi | 0 do 1 milijon znakov | $16 na milijon znakov |
Kakšna je razlika med znaki in bajti
Kot ste opazili, so cene odvisne od kakovosti glasu. Kodiranje in obdelava zvoka za pretvorbo besedila v govor se razlikuje med nivoji. Pri nižjih nivojih, kot so standardni glasovi, se cena računa po številu znakov.
Če ima vaš projekt 4 milijone znakov, vas bo pretvorba v govor s standardnimi glasovi stala $16.
Studijski glasovi pa zahtevajo več procesne moči in se obračunavajo po bajtih. V jezikih, kot je japonščina, lahko en znak pomeni več bajtov.
Za natančno ceno morate vedeti, za kateri jezik gre, ter približno število bajtov na znak in nato ustrezno oceniti stroške.
Kako nastaviti Google Cloud Platform Text to Speech API projekt?
- Ustvarite Google Cloud račun ali se prijavite tukaj
- Ustvarite nov projekt in ga ustrezno poimenujte
- Dodajte način plačila. Plačate samo porabo.
- Nato izberite projekt in ga povežite z računom za plačevanje.
- Aktivirajte Text-to-Speech API. V iskalnik izdelkov zgoraj vpišite »speech«.
- Iz rezultatov izberite Cloud Text-to-Speech API
- Nastavite overjanje za razvojno okolje. Navodila najdete pod »Set up authentication for Text-to-Speech«.
Text-to-Speech lahko preizkusite tudi brez povezave s projektom:
- Izberite možnost »TRY THIS API«.
- Za uporabo Text-to-Speech API kliknite »ENABLE«.
Več pomoči najdete v dokumentaciji Google Clouda.
Kako onemogočiti Text to Speech API
Za deaktivacijo Text-to-Speech API pojdite v nadzorno ploščo Google Clouda in kliknite »Go to APIs overview« v okvirju API. Poiščite Text-to-Speech API, kliknite nanj in zgoraj na strani izberite »DISABLE API«.
Začnite z Google Text to Speech API
Ko enkrat nastavite projekt, lahko začnete uporabljati ukazno vrstico.
gcloud initNastavite lokalno overjanje
gcloud auth application-default loginZdaj lahko namestite knjižnico – v tem primeru za Node.js.
npm install --save @google-cloud/text-to-speechGoogle Cloud Text to Speech API podpira tudi te jezike:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Kako deluje Google Cloud API?
Vse se začne z API klicem. Besedilo pošljete v zahtevi in prejmete zvočno datoteko s sintetiziranim govorom. Izberete lahko glas, jezik itd., nato TTS API vrne zvočno datoteko.
Kako namestiti in uporabljati knjižnice za besedilo v govor, najdete tukaj. Vzorčne kode so za Node.js, podprti pa so tudi Python, PHP in drugi.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);To je to. Nastavili ste Google Cloud Text to Speech API in poslali svojo prvo zahtevo za pretvorbo besedila v govor. Datoteko prejmete v različnih formatih, kot sta OGG in MP3.
Kako uporabiti Google Text to Speech API
Google Text-to-Speech (TTS) API je uporaben v različnih panogah. Nekateri primeri uporabe so:
- Besedilo-v-govor za slabovidne: Aplikacije, ki pisno vsebino pretvorijo v govor in s tem izboljšajo dostopnost digitalnih informacij.
- Avtomatizirani telefonski sistemi: Uporaba TTS za naravne odzive v interaktivnih telefonskih sistemih.
- Glasovne podlage za medijske vsebine: Naravni glas za videe, podkaste in druge vsebine.
- Pretvorba prevedenih vsebin v govor: Pomaga pri učenju jezikov, komuniciranju in poslušanju vsebin v različnih jezikih.
- Pomoč pri branju za dislektike: Funkcija TTS za dislektike ali osebe s težavami pri branju.
- Glasovno navigacijo v aplikacijah: Usmerjanje in informacije v aplikacijah z uporabo govora.
- Besedilo-v-govor za izobraževalne vsebine: Pomaga pri e-izobraževanju z branjem vsebine in boljšo razumljivostjo.
- Sinteza govora v produktivnostnih aplikacijah: Opomniki ali povratne informacije v aplikacijah prek govora.
- Naravni glas virtualnih asistentov: Za bolj naravne pogovore in odgovore.
- Zvočna opozorila in obvestila: Zvočna obvestila in opozorila v IoT napravah in drugih aplikacijah.
Najboljše alternative Google Cloud TTS API
Po stanju januarja 2022 je na voljo več alternativ za Google Text-to-Speech API. Priljubljenost in zmogljivost teh storitev se lahko sčasoma spreminjata. Nekaj pomembnih alternativ:
- Speechify Text to Speech API: Razvijamo API za pretvorbo besedila v govor, ki razvijalcem po svetu omogoča dostop do najbolj naravnih AI glasov Speechify. Prijavite se zdaj.
- Amazon Polly: Amazon Polly nudi sintezo govora v več jezikih in glasovih ter se odlično povezuje z AWS.
- Microsoft Azure Speech Service: Azure nudi funkcijo TTS za virtualne asistente, navigacijo in druge aplikacije.
- IBM Watson Text to Speech: IBM Watson omogoča pretvorbo pisnega besedila v govor z različnimi glasovi.
- Nuance Communications: Nuance nudi rešitve za prepoznavanje govora v zdravstvu, avtomobilski industriji in podpori strankam.
- CereProc: CereProc je podjetje za sintezo govora z visokokakovostnimi sintetičnimi glasovi.
- iSpeech: iSpeech nudi oblačne storitve TTS v več jezikih za spletne in mobilne aplikacije.
- ResponsiveVoice: ResponsiveVoice je preprost in cenovno ugoden TTS API za spletne aplikacije.
- Neospeech: Neospeech nudi TTS rešitve z naravnimi glasovi za e-učenje in zabavo.
- ReadSpeaker: ReadSpeaker nudi TTS rešitve za spletne strani, e-učenje in dostopnost.
- Acapelabox: Acapela Group nudi TTS API Acapelabox z več jeziki in glasovi za različne panoge.
Pogosta vprašanja o Google Text to Speech API
Google nudi več nivojev glasov, skoraj vsak ima določen brezplačen limit. Standardni glasovi so brezplačni do 1 milijona bajtov. Zatem je cena $16 na milijon bajtov. Torej, da – pri omejenem številu znakov ali bajtov je lahko brezplačen.
Preprosto ustvarite račun na https://cloud.google.com/text-to-speech/ in sledite navodilom. Postopek sem opisal tudi v tem blogu zgoraj.
Ključ za Google Text to Speech API dobite tako, da se prijavite v Google Cloud, ustvarite projekt in nato ustvarite API ključ.
URL za Google Text to Speech API je https://cloud.google.com/text-to-speech/
Tehnično gledano brezplačno obdobje kot tako ne obstaja. Vsaka storitev v Google Cloudu ima svoje pogoje in brezplačne limite.
Ne. Za uporabo Google Cloud Text to Speech API potrebujete internetno povezavo.
Overjanje na Google Cloud, tudi za Text-to-Speech API, je možno z API ključi, OAuth 2.0 ali uporabniškimi računi za storitve. Ustrezna metoda je odvisna od načina uporabe in tipa aplikacije.
Dal bi oceno 5 zvezdic. Uporaba je enostavna, iskanje odlično, cene ugodne, izdelek pa odličen.
Google Text-to-Speech API nudi odjemalne knjižnice za različne jezike, vključno s Pythonom. Podpira tudi REST API klice, zato ga lahko uporabljate v kateremkoli jeziku, ki omogoča HTTP zahteve.
Vključitev Google Text-to-Speech API v Android zahteva uporabo razreda TextToSpeech in API klicev. Podrobna navodila so v uradni dokumentaciji za Android razvijalce.
Za integracijo Google Text-to-Speech API v JavaScript aplikacijo pošljite HTTP zahteve na API. Pripravite pravilen API klic in odziv obdelajte v svoji JavaScript kodi. Več najdete v uradni dokumentaciji.

