Social Proof

Kaikki mitä sinun tulee tietää Google Cloud Text to Speech API:sta

Olemme innoissamme voidessamme esitellä tekstistä puheeksi -API:n kehityksen, joka tuo Speechifyn luonnollisimmat ja rakastetuimmat tekoälyäänet suoraan kehittäjille ympäri maailmaa.

Etsitkö meidän Tekstistä puheeksi -lukijaa?

Esillä

forbes logocbs logotime magazine logonew york times logowall street logo
Kuuntele tämä artikkeli Speechifyllä!
Speechify

Generatiivinen tekoäly ja keinoäly ovat kehittyneet pitkälle. Tekstistä puheeksi on suhteellisen vanha käsite, se on ollut olemassa jo jonkin aikaa. On paljon...

Generatiivinen tekoäly ja keinoäly ovat kehittyneet pitkälle. Tekstistä puheeksi on suhteellisen vanha käsite, se on ollut olemassa jo jonkin aikaa. Tässä on paljon purettavaa ja kategorisoitavaa, ja aion jakaa sen osiin ja tarkastella asiaa kaikista näkökulmista. Olitpa aloittelija tai ammattilainen, tämän pitäisi tuoda selkeyttä Google Text to Speech API:iin.

Ennen kuin sukellamme mihinkään aiheeseen, on tärkeää, että luomme perussäännöt. Määritellään muutama termi ja rakennetaan perusta, jotta voimme seistä tukevasti sen päällä.

Erotellaan tässä kaksi teknologiaa; tekstistä puheeksi ja API:t, ja mikä on Google Cloudin rooli.

Toimittajan huomautus: Etsitkö johtavaa tekstistä puheeksi API:ta? Tutustu Speechifyn hyvin dokumentoituun ja helppokäyttöiseen tekstistä puheeksi API:iin.

Tekstistä puheeksi

Olen kirjoittanut laajasti tästä aiheesta ja voit lukea Mitä on tekstistä puheeksi blogini ja myös lukea puheen synteesistä saadaksesi vankan käsityksen tästä aiheesta. Nämä menevät syvemmälle ja voit ohittaa ne toistaiseksi. Tiivistän ne muutamaan lauseeseen.

Tekstistä puheeksi perustuu teknologiaan nimeltä puhesynteesi, joka muuntaa sanat tekoälyn tuottamaksi puheeksi. Käyttötapauksia on runsaasti. Se auttaa ihmisiä, joilla on lukemisesteitä, kuten dysleksia ja heikko näkö, sekä niitä, jotka haluavat parantaa tehokkuuttaan.

API

API tarkoittaa sovellusohjelmointirajapintaa. Se toimii yksinkertaisesti siltana kahden sovelluksen välillä. Jos kehittäisit sovellusta, jossa on äänisisältöä ja tarvitsisit tekstistä puheeksi -toiminnallisuutta, sinun pitäisi rakentaa se itse tai yksinkertaisesti yhdistää olemassa olevaan tekstistä puheeksi API:iin.

Voisit keskittyä sovelluksesi rakentamiseen ja luottaa kolmannen osapuolen API:iin siltana, tuodaksesi tekstistä puheeksi -toiminnallisuuden tekstisi synteesiin.

Google Cloud API

Tässä Google Cloud astuu kuvaan. Google on kehittänyt vankan tekstistä puheeksi API:n ja tarjoaa sen kehittäjille erilaisilla hinnoittelurakenteilla. Jokainen kehittäjä, joka haluaa rakentaa räätälöityjä sovelluksia tai verkkosovelluksia, jotka vaativat tekstistä puheeksi -toiminnallisuutta, voi yksinkertaisesti täyttää tämän aukon käyttämällä Googlen TTS-ominaisuuksia. Kyllä, TTS on lyhenne tekstistä puheeksi.

Löydä pika-aloitus Google Cloud Consolesta https://cloud.google.com/. Voit löytää tutoriaaleja, hallita palvelutiliäsi, käyttää wavenet-ääniä ja paljon muuta.

Google Cloud itsessään on Googlen tarjoama pilvialusta, joka tarjoaa joukon modulaarisia palveluita. Voit valita käyttää yhtä, useampaa tai kaikkia sen palveluista. Sinun tarvitsee vain luoda pääsytunnukset kunkin API:n - sillan - todennusta varten. Useimmat, ellei kaikki, palvelut ovat maksullisia, vaikka saattaa olla ilmainen kynnys.

Google osti DeepMindin vuonna 2014 sen tekstistä puheeksi -teknologian ja neuroverkkojen kehitystyön vuoksi. Joten, jos törmäät DeepMindiin, se on nyt Google DeepMind ja ne ovat yksi ja sama.

Nyt kun meillä on vankka ymmärrys, sukelletaan syvälle Google Cloud Text to Speech API:iin.

Google Text to Speech API:n ominaisuudet

Google on maailmanlaajuinen teknologian edelläkävijä ja johtaja, siitä ei ole epäilystäkään. Kun kyse on TTS API:sta, voit odottaa löytäväsi maailmanluokan ominaisuuksia, jotka kehittyvät jatkuvasti.

Korkealaatuinen puhe

Googlen tekstistä puheeksi -äänet ovat alan parhaimmistoa. Ne kuulostavat hyvin ihmismäisiltä ja niissä on luonnollinen intonaatio. TTS on alkuvaiheissaan ja ne, jotka pystyvät parhaiten synnyttämään ääntä, joka kuulostaa ihmisen puhumalta, voittavat tämän kilpailun.

Äänivalikoima

Google väittää tarjoavansa laajimman valikoiman ääniä, joten projektisi ei tarvitse kuulostaa samalta kuin muut 1000 siellä tai, mikä pahempaa, kilpailijasi sovellus.

Luo oma äänesi

Tämä lähestyy äänen kloonaus -teknologiaa. Voit luoda oman mukautetun äänesi nauhoittamalla itsesi tai jonkun muun, heidän luvallaan. Voit sitten käyttää tätä näytettä äänenä, joka lukee kaiken tekstisi ääneen.

Neuraaliset äänet

Neuraaliset äänet tarjoavat parasta laatua laajasta äänivalikoimasta. Voit myös kansainvälistää nämä äänet kasvattaaksesi kansainvälistä yleisöäsi.

Studioäänet

Studioäänet ovat huippuluokan ääniä ja kuulostavat erittäin ammattimaisilta, aivan kuin ne olisi nauhoitettu perinteisellä menetelmällä.

Äänensäätö

Valitse ääni ja säädä sitten nopeutta, sävelkorkeutta ja muita ominaisuuksia, jotta voit mukauttaa äänen sävyä.

Paljonko Google Text to Speech API maksaa?

Kaikki riippuu äänenlaadusta ja tekstisi pituudesta. Mitä luonnollisemmalta haluat äänen kuulostavan, sitä kalliimpaa se on. Kuitenkin, kallis on tässä suhteellista. Jopa korkealaatuiset äänet ovat suhteellisen edullisia.

ÄänityyppiIlmainen kuukaudessaKun ilmainen käyttö on saavutettu
Neural2-äänet0–1 miljoonaa tavua16 $ per miljoona tavua
Polyglot-äänet0–1 miljoonaa tavua16 $ per miljoona tavua
Studioäänet0–100 000 tavua160 $ per miljoona tavua
Standardiäänet0–4 miljoonaa merkkiä4 $ per miljoona merkkiä
Wavenet-äänet0–1 miljoonaa merkkiä16 $ per miljoona merkkiä

Mikä on ero merkkien ja tavujen välillä

Kuten näet, hinnoittelu vaihtelee merkittävästi äänenlaadun perusteella. Äänenkoodaus ja prosessointi, joka tarvitaan tekstin muuttamiseksi puheeksi, vaihtelee tasosta toiseen. Esimerkiksi alemmalla tasolla, kuten standardiäänillä, hinnoittelu on alhaisempi ja lasketaan merkkien mukaan.

Tämä tarkoittaa, että jos projektissasi on 4 miljoonaa merkkiä, niiden muuntaminen puheeksi standardimerkeillä maksaisi 16 $.

Studioäänet puolestaan vaativat enemmän prosessointitehoa ja niistä veloitetaan tavujen perusteella. Joissakin kielissä, kuten japanissa, yksi merkki voi koostua useista tavuista.

Jotta hinnoittelu olisi mahdollisimman tarkka, on tärkeää tietää, millä kielellä työskentelet, ja ymmärtää keskimääräinen tavumäärä per merkki ja arvioida se sen mukaisesti.

Kuinka asettaa Google Cloud Platform Text to Speech API -projekti?

  1. Luo Google Cloud -tili tai kirjaudu sisään tällä sivulla
  2. Luo uusi projekti ja nimeä se asianmukaisesti
  3. Lisää laskutustapa. Sinulta veloitetaan vain käytön mukaan.
  4. Valitse sitten projektisi ja liitä se laskutustiliin.
  5. Aktivoi Text-to-Speech API. Mene sivun yläreunassa olevaan hakupalkkiin ja kirjoita "speech".
  6. Valitse näytetyistä tuloksista Cloud Text-to-Speech API
  7. Määritä todennus kehitysympäristöllesi. Katso ohjeet kohdasta Määritä todennus Text-to-Speechille.

Voit myös kokeilla Text-to-Speechiä ilman, että liität sen projektiisi:

  1. Valitse KOKEILE TÄTÄ APIA -vaihtoehto.
  2. Aktivoidaksesi Text-to-Speech API:n projektisi käyttöön, klikkaa AKTIVOI.

Tutustu Google Cloud -dokumentaatioon saadaksesi lisäapua.

Kuinka poistaa käytöstä Text to Speech API

Poistaaksesi Text-to-Speech API:n käytöstä, mene Google Cloud Platform -hallintapaneeliin ja klikkaa "Siirry API-yhteenvetoon" -linkkiä API-laatikossa. Etsi Text-to-Speech API ja klikkaa sitä, valitse sitten "POISTA API KÄYTÖSTÄ" -painike sivun yläreunasta.

Aloita Google Text to Speech API:n käyttö

Nyt kun projektisi on asetettu, voit aloittaa komentoriviltä.

gcloud init

Luo paikallinen todennus

gcloud auth application-default login

Nyt voit asentaa asiakaskirjaston. Tässä esimerkissä tarkastelemme Node.js:ää

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API tukee näitä kieliä:

  1. Go
  2. Java
  3. Node.js
  4. C++
  5. C#
  6. PHP
  7. Python
  8. Ruby
  9. TypeScript
  10. Terraform
  11. YAML

Miten Google Cloud API Toimii?

Kaikki alkaa yksinkertaisesta API-kutsusta. Lähetät tekstisi transkriptiokutsussa ja saat takaisin äänitiedoston puhutusta tekstistäsi. Voit esittää erityisiä vaatimuksia pyynnössäsi. Valitse ääni, kieli ja muuta, ja sitten tekstistä puheeksi API lähettää sinulle takaisin äänitiedoston.

Voit oppia asentamaan ja käyttämään tekstistä puheeksi -asiakasohjelmakirjastoja täältä. Koodiesimerkkimme ovat Node.js:lle. Mutta voit valita mitä tahansa Pythonista PHP:hen. Mikä tahansa sinulle on mukavinta.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

Ja siinä se. Olet asentanut Google Cloud Text to Speech API:n ja lähettänyt ensimmäisen pyyntösi muuntaaksesi tekstin puheeksi. Voit saada tiedoston takaisin eri muodoissa; OGG:stä MP3:een.

Tässä on Muutamia Tapoja Käyttää Google Text to Speech API:ta

Google Text-to-Speech (TTS) API tarjoaa monipuolisen ratkaisun eri toimialojen erilaisiin käyttötapauksiin. Joitakin yleisiä käyttötapauksia ovat:

  1. Tekstistä Puheeksi Näkövammaisille Käyttäjille: TTS:n toteuttaminen sovelluksissa muuntaa kirjoitettu sisältö puhutuksi, mikä tekee digitaalisesta tiedosta saavutettavaa näkövammaisille käyttäjille.
  2. Automaattiset Puhelinjärjestelmät: TTS:n hyödyntäminen luomaan luonnollisen kuuloisia kehotteita ja vastauksia interaktiivisissa äänivastausjärjestelmissä asiakaspalvelussa tai tietohotlineissa.
  3. Ääniraidat Mediasisällölle: Luodaan luonnollisen kuuloisia ääniraitoja videoille, podcasteille tai muulle multimediasisällölle parantaakseen käyttäjäkokemusta.
  4. Tekstistä Puheeksi Käännetylle Sisällölle: Käännetyn tekstin muuntaminen puhutuksi helpottaa kielen oppimista, kansainvälistä viestintää tai sisällön kulutusta eri kielillä.
  5. Lukemisapu Dysleksisille Käyttäjille: TTS-toiminnon tarjoaminen auttaa henkilöitä, joilla on dysleksia tai lukemisvaikeuksia, kuluttamaan kirjoitettua sisältöä.
  6. Ääniohjaus Sovelluksissa: TTS:n integrointi navigointisovelluksiin tarjotakseen käännös käännökseltä ohjeita tai sijaintiin perustuvaa tietoa kuuluvasti.
  7. Tekstistä Puheeksi Koulutussisällölle: E-oppimiskokemusten parantaminen muuntamalla koulutusteksti puhutuksi, mikä auttaa ymmärtämisessä ja sitoutumisessa.
  8. Puheen Synteesi Tuottavuussovelluksille: TTS:n integrointi tuottavuustyökaluihin, kuten muistiinpano- tai tehtävienhallintasovelluksiin, mahdollistaa puhutun palautteen tai tiedon haun.
  9. Luonnollinen Ääni Virtuaaliavustajille: Virtuaaliavustajien voimaannuttaminen luonnollisen kuuloisella TTS:llä parantaa käyttäjävuorovaikutuksia ja tarjoaa tietoa keskustelunomaisesti.
  10. Kuuluvat Hälytykset ja Ilmoitukset: TTS:n käyttö kuuluvien hälytysten, ilmoitusten tai tilapäivitysten tarjoamiseen esineiden internetin (IoT) laitteissa parantaa käyttäjän tietoisuutta.

Parhaat Vaihtoehdot Google Cloud TTS API:lle

Viimeisimmän tietoni päivityksen mukaan tammikuussa 2022 on useita vaihtoehtoja Google Text-to-Speech API:lle. Huomaa, että näiden palveluiden suosio ja ominaisuudet voivat olla muuttuneet sen jälkeen. Tässä on joitakin merkittäviä vaihtoehtoja:

  1. Speechify Tekstistä puheeksi API: Olemme innoissamme voidessamme esitellä tekstistä puheeksi API:n, joka tuo Speechifyn luonnollisimmat ja rakastetuimmat tekoäänet suoraan kehittäjille ympäri maailmaa. Varaa paikkasi tänään.
  2. Amazon Polly: Amazon Web Servicesin (AWS) tarjoama Polly tarjoaa luonnollisen kuuloista puhesynteesiä eri kielillä ja äänillä. Se integroituu hyvin muihin AWS-palveluihin.
  3. Microsoft Azure Speech Service: Azure Speech Service sisältää tekstistä puheeksi -ominaisuudet ja tukee monenlaisia sovelluksia, kuten ääniavustajia ja navigointijärjestelmiä.
  4. IBM Watson Tekstistä puheeksi: IBM Watson tarjoaa tekstistä puheeksi -palvelun, jonka avulla kehittäjät voivat muuntaa kirjoitetun tekstin luonnollisen kuuloiseksi puheeksi eri äänillä.
  5. Nuance Communications: Nuance tarjoaa laajan valikoiman puhe- ja äänentunnistusratkaisuja, mukaan lukien tekstistä puheeksi, terveydenhuollon, autoteollisuuden ja asiakaspalvelun sovelluksiin.
  6. CereProc: CereProc on tekstistä puheeksi -teknologiayritys, joka tarjoaa korkealaatuisia synteettisiä ääniä sovelluksiin, kuten saavutettavuuteen, viihteeseen ja viestintään.
  7. iSpeech: iSpeech tarjoaa pilvipohjaisia tekstistä puheeksi -palveluita, jotka tukevat useita kieliä ja ääniä. Se soveltuu monenlaisiin sovelluksiin, kuten mobiilisovelluksiin ja verkkosivustoihin.
  8. ResponsiveVoice: ResponsiveVoice on yksinkertainen ja edullinen tekstistä puheeksi API, joka tukee useita kieliä ja voidaan käyttää erilaisissa verkkopohjaisissa sovelluksissa.
  9. Neospeech: Neospeech tarjoaa tekstistä puheeksi -ratkaisuja, jotka keskittyvät luonnollisen kuuloisiin ääniin. Heidän teknologiaansa käytetään sovelluksissa, kuten e-oppimisessa ja viihteessä.
  10. ReadSpeaker: ReadSpeaker tarjoaa online- ja offline-tekstistä puheeksi -ratkaisuja monenlaisiin sovelluksiin, kuten verkkosivustoille, e-oppimiseen ja saavutettavuuspalveluihin.
  11. Acapelabox: Acapela Group tarjoaa pilvipohjaisen tekstistä puheeksi API:n, Acapelaboxin, joka tukee useita kieliä ja ääniä eri teollisuudenalojen sovelluksiin.

Google Tekstistä puheeksi API UKK

Google tarjoaa useita äänitasoja, ja melkein jokaisella tasolla on ilmainen raja. Esimerkiksi standardiäänet ovat ilmaisia ensimmäiseen miljoonaan tavuun asti. Sen jälkeen hinta on 16 dollaria per miljoona tavua. Joten kyllä, se voi olla ilmainen rajoitetuilla merkeillä tai tavuilla.

Luo yksinkertaisesti tili osoitteessa https://cloud.google.com/text-to-speech/ ja seuraa siellä olevia ohjeita. Olen myös kuvannut prosessin yksityiskohtaisesti tässä blogissa, juuri yllä.

Voit saada Google tekstistä puheeksi API-avaimen kirjautumalla Google Cloud -tilillesi ja luomalla projektin. Kun olet luonut projektisi, voit luoda API-avaimen.

Google tekstistä puheeksi API:n URL-osoite on https://cloud.google.com/text-to-speech/

Teknisesti Google Cloudilla ei ole ilmaista kokeilujaksoa. Google Cloudissa on useita palveluita, ja jokaisella palvelulla on omat ehdot ja ilmaiset tasot.

Ei. Google Cloud tekstistä puheeksi API vaatii internet-yhteyden.

Google Cloud -palveluiden, mukaan lukien Tekstistä puheeksi API, todennus voidaan tehdä API-avaimilla, OAuth 2.0:lla tai palvelutileillä. Sopiva todennusmenetelmä riippuu käyttötapauksesta ja sovelluksen tyypistä.

Arvioisin sen viidellä tähdellä. Se on helppokäyttöinen, hakutoiminto on loistava ja sitä käytetään eniten. Hinnoittelu on kohtuullinen ja se on kokonaisuudessaan loistava tuote.

Google Text-to-Speech API tarjoaa asiakaskirjastoja useille ohjelmointikielille, mukaan lukien Python. Se tukee myös RESTful API -pyyntöjä, mikä tekee siitä yhteensopivan sellaisten kielten kanssa, jotka voivat tehdä HTTP-pyyntöjä.

Google Text-to-Speech API:n integrointi Android-sovellukseen edellyttää TextToSpeech-luokan käyttöä ja API-pyyntöjen tekemistä. Yksityiskohtaiset ohjeet löytyvät Android-kehittäjien virallisesta dokumentaatiosta.

Google Text-to-Speech API:n toteuttaminen JavaScript-sovelluksessa edellyttää HTTP-pyyntöjen tekemistä API-päätepisteeseen. Prosessi sisältää sopivan API-pyynnön rakentamisen ja vastauksen käsittelyn JavaScript-koodissasi. Katso tarkemmat tiedot virallisesta dokumentaatiosta.

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman on dysleksian puolestapuhuja sekä Speechifyn toimitusjohtaja ja perustaja. Speechify on maailman johtava tekstistä puheeksi -sovellus, jolla on yli 100 000 viiden tähden arvostelua ja joka on App Storen ykkönen Uutiset & Aikakauslehdet -kategoriassa. Vuonna 2017 Weitzman valittiin Forbesin 30 alle 30 -listalle työstään, jolla hän teki internetistä saavutettavamman oppimisvaikeuksista kärsiville. Cliff Weitzman on ollut esillä muun muassa EdSurgessa, Inc.:ssä, PC Magissa, Entrepreneurissa ja Mashablessa.