Alles wat je moet weten over de Google Cloud Text to Speech API

Generatieve AI en kunstmatige intelligentie hebben een lange weg afgelegd. Tekst-naar-spraak is een relatief ouder concept, het bestaat al een tijdje. Er is veel te ontdekken en te categoriseren, en ik zal het opsplitsen en vanuit alle hoeken bekijken. Of je nu een beginner of een expert bent, dit zou algehele duidelijkheid moeten brengen over de Google Text to Speech API.

Oké, voordat we in een onderwerp duiken, moeten we de basisregels vaststellen. Laten we een paar termen definiëren en onze basis opbouwen zodat we er stevig op kunnen rusten.

Laten we de twee technologieën hier scheiden; tekst-naar-spraak en API's, en wat de rol van Google Cloud is.

Redactionele opmerking: Op zoek naar de toonaangevende tekst-naar-spraak API? Bekijk de goed gedocumenteerde en gebruiksvriendelijke tekst-naar-spraak API van Speechify.

Tekst-naar-spraak

Ik heb uitgebreid over dit onderwerp geschreven en je kunt mijn Wat is tekst-naar-spraak blog lezen en ook meer te weten komen over spraaksynthetisering om een goed begrip van dit onderwerp te krijgen. Deze gaan dieper in en je kunt ze voorlopig overslaan. Ik zal ze in een paar zinnen samenvatten.

Tekst-naar-spraak maakt gebruik van een technologie genaamd spraaksynthese om woorden om te zetten in door AI gegenereerde spraak. De toepassingsmogelijkheden hiervoor zijn talrijk. Van het helpen van mensen met leesproblemen zoals dyslexie en slecht zicht tot degenen die simpelweg efficiëntie nastreven.

API

API staat voor Application Programming Interface. Het fungeert simpelweg als een brug tussen twee applicaties. Als je een app ontwikkelt die audiocontent heeft en tekst-naar-spraakfunctionaliteit vereist, dan zou je de tekst-naar-spraakfunctionaliteit zelf moeten bouwen, of je zou eenvoudigweg verbinding kunnen maken met een bestaande tekst-naar-spraak API.

Je zou je kunnen concentreren op het bouwen van je app en vertrouwen op een externe API als brug, om de tekst-naar-spraakfunctionaliteit te importeren om je tekst te synthetiseren.

Google Cloud API

Dit is waar Google Cloud in beeld komt. Google heeft een robuuste tekst-naar-spraak API ontwikkeld en biedt deze aan ontwikkelaars aan in verschillende tariefstructuren. Elke ontwikkelaar die aangepaste apps of webapps wil bouwen die tekst-naar-spraakfunctionaliteit vereisen, kan die kloof eenvoudig overbruggen door gebruik te maken van de TTS-functies van Google. Ja, TTS is de afkorting voor tekst-naar-spraak.

Vind de quickstart bij Google Cloud Console https://cloud.google.com/. Je kunt tutorials vinden, je serviceaccount beheren, toegang krijgen tot wavenet-stemmen en meer.

Google Cloud zelf is een cloudplatform dat door Google wordt aangeboden en het biedt een reeks modulaire diensten. Je kunt ervoor kiezen om een, meerdere of al zijn diensten te gebruiken. Het enige wat je hoeft te doen is toegangssleutels aanmaken voor de authenticatie van elke API - de brug. De meeste, zo niet alle, diensten komen met een kostenplaatje, hoewel er mogelijk een gratis drempel is.

Google kocht DeepMind in 2014 voor zijn tekst-naar-spraak technologie en werk in neurale netwerkontwikkeling. Dus, als je DeepMind tegenkomt, is het nu Google DeepMind en ze zijn allemaal één en hetzelfde.

Nu we een goed begrip hebben, laten we dieper ingaan op de Google Cloud Text to Speech API.

Google Text to Speech API-functies

Google is een wereldwijde techpionier en leider, daar bestaat geen twijfel over. Als het gaat om de TTS API, kun je wereldklasse functies verwachten die blijven evolueren.

Hoge geluidskwaliteit

De tekst-naar-spraak stemmen van Google behoren tot de beste in de industrie. Ze klinken zeer menselijk en met een natuurlijk klinkende intonatie. TTS bevindt zich in de vroegste stadia en degenen die het beste audio kunnen synthetiseren om te klinken alsof een mens spreekt, gaan deze race winnen.

Selectie van stemmen

Google claimt de breedste selectie van stemmen, zodat je project niet hetzelfde hoeft te klinken als de andere 1000 daarbuiten of, erger nog, de app van je concurrenten.

Creëer je eigen stem

Dit grenst aan stemkloning technologie. Je kunt je eigen stem creëren door jezelf of iemand anders op te nemen, met hun toestemming. Je kunt dit voorbeeld vervolgens gebruiken als de stem die al je tekst voorleest.

Neurale stemmen

Neurale stemmen bieden de beste kwaliteit binnen de ruime selectie van stemmen. Je kunt deze stemmen ook internationaliseren om je internationale publiek te vergroten.

Studio Stemmen

Studio stemmen zijn meer geavanceerde stemmen en klinken zeer professioneel, alsof ze op de traditionele manier zijn opgenomen.

Stem Afstemming

Kies een stem en pas vervolgens de snelheid, toonhoogte en meer aan, zodat je de klank van een stem kunt personaliseren.

Wat kost de Google Text to Speech API?

Het komt allemaal neer op de stemkwaliteit en de lengte van je tekst. Hoe natuurlijker je de stem wilt laten klinken, hoe duurder het zal zijn. Hoewel, duur is hier relatief. Zelfs de stemmen van hoge kwaliteit zijn relatief goedkoop.

Stemtype	Gratis per maand	Na gratis gebruik
Neural2 stemmen	0 tot 1 miljoen bytes	$16 per miljoen bytes
Polyglot stemmen	0 tot 1 miljoen bytes	$16 per miljoen bytes
Studio stemmen	0 tot 100.000 bytes	$160 per miljoen bytes
Standaard stemmen	0 tot 4 miljoen karakters	$4 per miljoen karakters
Wavenet stemmen	0 tot 1 miljoen karakters	$16 per miljoen karakters

Wat is het Verschil Tussen Karakters & Bytes

Zoals je kunt zien, varieert de prijs aanzienlijk op basis van de kwaliteit van de stem. De audio-encoding en verwerking die nodig is om tekst om te zetten in spraak verschilt per niveau. Voor de lagere, zoals de Standaard Stemmen, is de prijs lager en wordt deze geteld per karakters.

Dit betekent dat als je project 4 miljoen karakters heeft, het je $16 zou kosten om die karakters om te zetten in spraak met behulp van de Standaard Karakters.

De Studio Stemmen daarentegen vereisen meer verwerkingskracht en worden berekend op basis van bytes. In sommige talen, zoals Japans bijvoorbeeld, kan een enkel karakter uit meerdere bytes bestaan.

Voor de meest nauwkeurige prijsstelling is het belangrijk om te weten in welke taal je werkt en een basisbegrip te hebben van het gemiddelde aantal bytes per karakter en dat dienovereenkomstig in te schatten.

Hoe Stel je je Google Cloud Platform Text to Speech API Project in?

Maak een Google Cloud-account aan of log in op deze pagina
Maak een nieuw project aan en geef het een passende naam
Voeg een betalingsmethode toe. Je betaalt alleen voor wat je gebruikt.
Kies vervolgens je project en koppel het aan een betalingsaccount.
Activeer de Text-to-Speech API. Ga naar de zoekbalk voor producten en bronnen bovenaan de pagina en typ "speech" in.
Kies uit de weergegeven resultaten de Cloud Text-to-Speech API
Stel authenticatie in voor je ontwikkelomgeving. Voor instructies, zie Authenticatie instellen voor Text-to-Speech.

Je kunt Text-to-Speech ook proberen zonder het aan je project te koppelen:

Kies de optie PROBEER DEZE API.
Om de Text-to-Speech API voor gebruik met je project in te schakelen, klik op INSCHAKELEN.

Bekijk de Google Cloud Documentatie voor verdere hulp.

Hoe de Text to Speech API Uitschakelen

Om de Text-to-Speech API te deactiveren, ga naar je Google Cloud Platform-dashboard en klik op de link "Ga naar API's overzicht" binnen het API's vak. Zoek de Text-to-Speech API en klik erop, gevolgd door het selecteren van de knop "API UITSCHAKELEN" bovenaan de pagina.

Aan de Slag met Google Text to Speech API

Nu je je project hebt opgezet, kun je de opdrachtregel gebruiken om aan de slag te gaan.

gcloud init

Maak lokale authenticatie

gcloud auth application-default login

Nu kun je een clientbibliotheek installeren. In dit voorbeeld bekijken we Node.js

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API Ondersteunt Deze Talen:

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Hoe Werkt de Google Cloud API?

Het begint allemaal met een eenvoudige API-aanroep. Je stuurt je tekst in een transcriptie-aanroep en vervolgens ontvang je een audiobestand van je gesproken tekst. Met je verzoek kun je specifieke eisen stellen. Kies een stem, een taal en meer, en dan stuurt de tekst-naar-spraak API je het audiobestand terug.

Je kunt leren hoe je de tekst-naar-spraak clientbibliotheken installeert en gebruikt hier. Onze codevoorbeelden zijn voor Node.js. Maar je kunt ook iets anders kiezen, van Python tot PHP. Wat je maar prettig vindt.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

En dat is het. Je hebt de Google Cloud Text to Speech API ingesteld en je eerste verzoek verzonden om tekst om te zetten in spraak. Je kunt het bestand in verschillende formaten terugkrijgen; van OGG tot MP3.

Hier zijn Enkele Manieren om de Google Text to Speech API te Gebruiken

De Google Text-to-Speech (TTS) API biedt een veelzijdige oplossing voor verschillende toepassingen in diverse sectoren. Enkele veelvoorkomende toepassingen zijn:

Tekst-naar-Spraak voor Visueel Gehandicapten: Het implementeren van TTS in applicaties om geschreven inhoud om te zetten in gesproken woorden, waardoor digitale informatie toegankelijk wordt voor visueel gehandicapten.
Geautomatiseerde Telefoonsystemen: Het gebruik van TTS om natuurlijk klinkende prompts en antwoorden te creëren voor interactieve spraakresponssystemen in klantenservice of informatielijnen.
Voice-overs voor Mediainhoud: Het genereren van natuurlijk klinkende voice-overs voor video's, podcasts of andere multimedia-inhoud om de gebruikerservaring te verbeteren.
Tekst-naar-Spraak voor Vertaald Inhoud: Het omzetten van vertaalde tekst in gesproken woorden om taalverwerving, internationale communicatie of inhoudsconsumptie in verschillende talen te vergemakkelijken.
Leesondersteuning voor Dyslectische Gebruikers: Het bieden van TTS-functionaliteit om individuen met dyslexie of leesproblemen te helpen bij het consumeren van geschreven inhoud.
Stemnavigatie in Applicaties: Het integreren van TTS in navigatie-applicaties om stapsgewijze aanwijzingen of locatiegebaseerde informatie hoorbaar te maken.
Tekst-naar-Spraak voor Educatieve Inhoud: Het verbeteren van e-learning ervaringen door educatieve tekstinhoud om te zetten in gesproken woorden, wat begrip en betrokkenheid bevordert.
Spraaksynthese voor Productiviteitsapps: Het integreren van TTS in productiviteitstools, zoals notitie- of taakbeheerapps, om gesproken feedback of informatieopvraging mogelijk te maken.
Natuurlijke Stem voor Virtuele Assistenten: Het aandrijven van spraakassistenten met natuurlijk klinkende TTS om gebruikersinteracties te verbeteren en informatie op een conversatiewijze te verstrekken.
Auditieve Waarschuwingen en Meldingen: Het gebruik van TTS om hoorbare waarschuwingen, meldingen of statusupdates te geven op Internet of Things (IoT) apparaten voor verbeterd gebruikersbewustzijn.

Beste Alternatieven voor Google Cloud TTS API

Vanaf mijn laatste kennisupdate in januari 2022 zijn er verschillende alternatieven voor de Google Text-to-Speech API. Houd er rekening mee dat de populariteit en mogelijkheden van deze diensten sindsdien kunnen zijn veranderd. Hier zijn enkele opmerkelijke alternatieven:

Speechify Tekst-naar-spraak API: We zijn verheugd om de ontwikkeling van een tekst-naar-spraak API aan te kondigen die de meest natuurlijke en geliefde AI-stemmen van Speechify direct naar ontwikkelaars wereldwijd brengt. Reserveer vandaag nog je plek.
Amazon Polly: Aangeboden door Amazon Web Services (AWS), biedt Polly natuurlijk klinkende spraaksynthese in verschillende talen en stemmen. Het integreert goed met andere AWS-diensten.
Microsoft Azure Speech Service: Azure Speech Service omvat tekst-naar-spraak mogelijkheden en ondersteunt diverse toepassingen, waaronder spraakassistenten, navigatiesystemen en meer.
IBM Watson Tekst-naar-spraak: IBM Watson biedt een tekst-naar-spraak dienst waarmee ontwikkelaars geschreven tekst kunnen omzetten in natuurlijk klinkende spraak met behulp van verschillende stemmen.
Nuance Communications: Nuance biedt een scala aan spraak- en stemherkenningsoplossingen, waaronder tekst-naar-spraak, voor toepassingen in de gezondheidszorg, de auto-industrie en klantenservice.
CereProc: CereProc is een tekst-naar-spraak technologiebedrijf dat hoogwaardige synthetische stemmen aanbiedt voor toepassingen zoals toegankelijkheid, entertainment en communicatie.
iSpeech: iSpeech biedt cloud-gebaseerde tekst-naar-spraak diensten met ondersteuning voor meerdere talen en stemmen. Het is geschikt voor diverse toepassingen, waaronder mobiele apps en websites.
ResponsiveVoice: ResponsiveVoice is een eenvoudige en betaalbare tekst-naar-spraak API die meerdere talen ondersteunt en kan worden gebruikt in verschillende webgebaseerde toepassingen.
Neospeech: Neospeech biedt tekst-naar-spraak oplossingen met de focus op natuurlijk klinkende stemmen. Hun technologie wordt gebruikt in toepassingen zoals e-learning en entertainment.
ReadSpeaker: ReadSpeaker biedt online en offline tekst-naar-spraak oplossingen voor diverse toepassingen, waaronder websites, e-learning en toegankelijkheidsdiensten.
Acapelabox: Acapela Group biedt een cloud-gebaseerde tekst-naar-spraak API, Acapelabox, die meerdere talen en stemmen ondersteunt voor toepassingen in verschillende industrieën.

Google Tekst-naar-spraak API Veelgestelde Vragen

Google heeft meerdere niveaus van stemmen en bijna elk niveau heeft een gratis limiet. Bijvoorbeeld, de standaardstemmen zijn gratis tot de eerste miljoen bytes. Daarna kost het $16 per miljoen bytes. Dus ja, het kan gratis zijn met beperkte tekens of bytes.

Maak eenvoudig een account aan op https://cloud.google.com/text-to-speech/ en volg daar de stappen. Ook heb ik het proces in detail beschreven in deze blog, net hierboven.

Je kunt een Google tekst-naar-spraak API-sleutel krijgen door in te loggen op je Google Cloud-account en vervolgens een project aan te maken. Zodra je je project hebt aangemaakt, kun je een API-sleutel genereren.

De URL voor de Google tekst-naar-spraak API is https://cloud.google.com/text-to-speech/

Er is technisch gezien geen gratis proefperiode voor Google Cloud. Er zijn meerdere diensten binnen Google Cloud en elke dienst heeft zijn eigen voorwaarden en gratis niveaus.

Nee. De Google Cloud tekst-naar-spraak API vereist een internetverbinding.

Authenticatie voor Google Cloud-diensten, inclusief de Tekst-naar-spraak API, kan worden gedaan met API-sleutels, OAuth 2.0, of service-accounts. De juiste authenticatiemethode hangt af van het gebruiksgeval en het type applicatie.

Ik zou het 5 sterren geven. Het is gemakkelijk te gebruiken, de zoekfunctie is geweldig en wordt het meest gebruikt. De prijsstelling is redelijk en het is over het algemeen een geweldig product.

De Google Text-to-Speech API biedt clientbibliotheken voor verschillende programmeertalen, waaronder Python. Het ondersteunt ook RESTful API-verzoeken, waardoor het compatibel is met talen die HTTP-verzoeken kunnen doen.

Het integreren van de Google Text-to-Speech API in een Android-app houdt in dat je de TextToSpeech-klasse gebruikt en API-verzoeken doet. Gedetailleerde instructies zijn te vinden in de officiële documentatie voor Android-ontwikkelaars.

Om de Google Text-to-Speech API in een JavaScript-applicatie te implementeren, kun je HTTP-verzoeken naar het API-eindpunt doen. Het proces omvat het opstellen van het juiste API-verzoek en het afhandelen van de respons in je JavaScript-code. Raadpleeg de officiële documentatie voor details.