Generativ AI og kunstig intelligens er nået langt. Tekst-til-tale er et forholdsvist gammelt begreb, der har eksisteret i et stykke tid. Der er meget at gennemgå og dele op, og jeg vil forklare det hele fra alle vinkler. Uanset om du er nybegynder eller erfaren, får du overblik over Google Tekst-til-tale API.
Før vi går i dybden, skal vi lige have styr på det grundlæggende. Lad os definere nogle begreber og lægge et godt fundament, så vi står stærkt.
Lad os skille de to teknologier ad: tekst-til-tale og API'er – og se på, hvilken rolle Google spiller.
Redaktørens note: Leder du efter den bedste tekst-til-tale API? Prøv Speechifys veldokumenterede og brugervenlige tekst-til-tale API.
Tekst-til-tale
Jeg har skrevet meget om emnet, og du kan læse mit Hvad er tekst-til-tale blogindlæg og læse mere om talesyntese for et solidt overblik. De går mere i dybden og kan springes over nu. Jeg opsummerer kort her.
Tekst-til-tale bygger på talesyntese-teknologi, der konverterer tekst til AI-genereret tale. Anvendelserne er mange. Det hjælper folk med læsevanskeligheder som fx ordblindhed eller dårligt syn, og dem der bare vil arbejde mere effektivt.
API
API står for Application Programming Interface. Det fungerer som en bro mellem to applikationer. Hvis du udvikler en app med lyd og skal bruge tekst-til-tale, kan du selv bygge tekst-til-tale eller bare koble dig på en eksisterende tekst-til-tale API.
Du kan så fokusere på at bygge din app og bruge en tredjeparts API som bro til tekst-til-tale-funktionalitet, der syntetiserer din tekst.
Google Cloud API
Her kommer Google Cloud ind i billedet. Google har udviklet en solid tekst-til-tale API og tilbyder den til udviklere i flere prisniveauer. Hvis du vil bygge apps eller webapps med tekst-til-tale, kan du bruge Googles TTS. Ja, TTS står for tekst-til-tale.
Kom hurtigt i gang via Google Cloud Console på https://cloud.google.com/. Her finder du vejledninger, styrer din konto, får adgang til Wavenet-stemmer og meget mere.
Google Cloud er en cloud-platform med mange moduler. Du kan bruge én, flere eller alle ydelser. Du skal bare oprette adgangsnøgler til autentificering for hver API — broen. De fleste tjenester koster, men der kan være et gratis niveau.
Google købte DeepMind i 2014 pga. tekst-til-tale-teknologi og udvikling af neurale netværk. DeepMind er nu Google DeepMind, det er det samme.
Nu hvor vi har styr på det grundlæggende, kan vi se nærmere på Google Cloud Text-to-Speech API.
Google Text-to-Speech API funktioner
Google er teknologipionér og markedsleder. Med TTS API får du funktioner i verdensklasse, der hele tiden bliver bedre.
Tale i høj kvalitet
Googles tekst-til-tale-stemmer er blandt de bedste. De lyder meget menneskelige og naturlige. TTS er stadig ungt, og dem der bedst kan efterligne menneskelig tale, vinder.
Stort udvalg af stemmer
Google har et af de bredeste udvalg af stemmer, så dit projekt ikke lyder som alle andre eller som dine konkurrenter.
Lav din egen stemme
Dette minder om voice cloning-teknologi. Du kan skabe din egen stemme ved at optage dig selv eller en anden (med samtykke). Brug optagelsen som stemme til at læse al tekst op.
Neurale stemmer
Neurale stemmer giver den bedste kvalitet blandt de mange stemmer. Du kan gøre dem internationale for at udvide dit publikum.
Studiostemmer
Studiostemmer er i topklasse og lyder meget professionelle, som om de er optaget i et traditionelt studie.
Stemmetilpasning
Vælg en stemme og tilpas tempo, tonehøjde og mere, så du kan ramme den ønskede tone.
Hvad koster Google Text-to-Speech API?
Prisen afhænger af stemmekvalitet og længden på din tekst. Jo mere menneskeligt stemmen skal lyde, jo dyrere bliver det. Men dyrt er relativt — selv høj kvalitet er ret billig.
| Stemmtype | Gratis pr. måned | Efter gratisforbrug |
| Neural2-stemmer | 0 til 1 mio. bytes | $16 pr. mio. bytes |
| Polyglot-stemmer | 0 til 1 mio. bytes | $16 pr. mio. bytes |
| Studiostemmer | 0 til 100.000 bytes | $160 pr. mio. bytes |
| Standardstemmer | 0 til 4 mio. tegn | $4 pr. mio. tegn |
| Wavenet-stemmer | 0 til 1 mio. tegn | $16 pr. mio. tegn |
Tegn vs. bytes – hvad er forskellen?
Som du kan se, varierer prisen meget afhængigt af stemmekvaliteten. Kodning og behandling for at lave tale ud fra tekst afhænger af niveauet. Standardstemmer er billigere og afregnes i tegn.
Det betyder, at hvis dit projekt har 4 millioner tegn, koster det $16 at konvertere dem til tale med standardstemmer.
Studiostemmer kræver mere processorkraft og afregnes i bytes. På visse sprog, fx japansk, kan ét tegn bestå af flere bytes.
For præcis pris er det vigtigt at kende sproget og det gennemsnitlige antal bytes pr. tegn og vurdere ud fra det.
Opsæt dit Google Cloud Platform tekst-til-tale API-projekt
- Opret en Google Cloud-konto eller log ind her
- Opret et nyt projekt og giv det et passende navn
- Tilføj en betalingsmetode. Du betaler kun for det, du bruger.
- Vælg dit projekt, og tilknyt det til en betalingskonto.
- Aktiver Text-to-Speech API. Søg på "speech" i søgefeltet øverst.
- Vælg Cloud Text-to-Speech API fra resultaterne.
- Opsæt autentificering til dit udviklingsmiljø. Se vejledningen under Opsæt autentificering for Text-to-Speech.
Du kan også prøve Text-to-Speech uden at knytte det til dit projekt:
- Vælg PRØV DENNE API.
- For at aktivere Text-to-Speech API til dit projekt, tryk AKTIVÉR.
Se Google Cloud-dokumentationen for mere hjælp.
Sådan deaktiverer du tekst-til-tale API
For at deaktivere Text-to-Speech API skal du gå til dit Google Cloud Platform-dashboard og klikke på "Gå til APIs oversigt". Find Text-to-Speech API, klik, og vælg "DEAKTIVÉR API" øverst.
Kom i gang med Google Text-to-Speech API
Nu hvor dit projekt er sat op, kan du bruge kommandolinjen til at komme i gang.
gcloud initOpret lokal autentificering
gcloud auth application-default loginInstaller et klientbibliotek. Her vises Node.js-eksemplet:
npm install --save @google-cloud/text-to-speechGoogle Cloud Text-to-Speech API understøtter disse sprog:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Sådan virker Google Cloud API
Det hele starter med et API-kald. Du sender din tekst i et transcript-kald og får en lydfil med den oplæste tekst retur. Du kan vælge stemme, sprog m.m., og så sender tekst-til-tale API'en dig lydfilen tilbage.
Lær, hvordan du installerer og bruger tekst-til-tale-klientbiblioteker her. Vores eksempler er til Node.js, men du kan vælge alt fra Python til PHP. Brug det, du er tryg ved.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);Og det var det. Du har sat Google Cloud Text-to-Speech API op og sendt din første anmodning om at konvertere tekst til tale. Lydfilen kan hentes i flere formater, fra OGG til MP3.
Sådan kan Google Text-to-Speech API bruges
Google Text-to-Speech (TTS) API kan bruges på mange måder i forskellige brancher. Nogle populære anvendelser er:
- Tekst-til-tale for svagsynede: Brug TTS i apps til at gøre digitalt indhold til tale, så svagsynede nemt kan få adgang.
- Automatiserede telefonsystemer: Opret naturlige lydbeskeder og svar til kundeservice eller infotelefoner.
- Voiceover til medier: Generér realistisk speak til videoer, podcasts og andet for en bedre brugeroplevelse.
- Tekst-til-tale for oversatte tekster: Giv oversat tekst som tale – fx til sprogindlæring, kommunikation eller multinationale brugere.
- Læsehjælp for ordblinde: Giv TTS-muligheder til personer med ordblindhed eller andre læsevanskeligheder.
- Talevejledning i apps: Brug TTS til navigation, så brugeren får information læst op undervejs.
- Tekst-til-tale til undervisning: Forbedr e-læring ved at få undervisningsmateriale læst højt.
- Talesyntese i produktivitetsapps: Brug TTS i fx note- og opgavestyring, så brugeren får tale-feedback.
- Naturlig stemme til assistenter: Gør stemmeassistenter mere menneskelige og samtalevenlige med TTS.
- Lydalarmer og notifikationer: Giv beskeder og status på IoT-enheder som tale for bedre overblik.
Bedste alternativer til Google Cloud TTS API
Sidst jeg tjekkede i januar 2022, fandtes der flere alternativer til Google Text-to-Speech API. Popularitet og funktioner kan have ændret sig siden. Her er nogle bemærkelsesværdige alternativer:
- Speechify Text-to-Speech API: Speechify Text-to-Speech API tilbyder over 1.000 livagtige og følelsesladede AI-stemmer på 60+ sprog og dialekter. Reserver din plads nu.
- Amazon Polly: Fra Amazon Web Services (AWS) giver Polly naturtro talesyntese på mange sprog og stemmer. Integrerer godt med andre AWS-tjenester.
- Microsoft Azure Speech Service: Azure Speech Service har tekst-til-tale og bruges bl.a. til assistenter, navigation m.m.
- IBM Watson Text-to-Speech: IBM Watson tilbyder Text-to-Speech, så udviklere kan lave naturlig tale ud fra tekst i flere stemmer.
- Nuance Communications: Nuance tilbyder løsninger inden for tale- og stemmegenkendelse, inkl. tekst-til-tale, til fx sundhed, bilindustrien og kundeservice.
- CereProc: CereProc er et tekst-til-tale-firma, der tilbyder syntetiske stemmer i høj kvalitet til tilgængelighed, underholdning m.m.
- iSpeech: iSpeech har cloudbaseret tekst-til-tale med flere sprog og stemmer. Passer godt til fx mobilapps og websites.
- ResponsiveVoice: ResponsiveVoice er en enkel og billig tekst-til-tale API med støtte for mange sprog til webapps.
- Neospeech: Neospeech tilbyder tekst-til-tale med fokus på naturlige stemmer. Bruges bl.a. til e-læring og underholdning.
- ReadSpeaker: ReadSpeaker har online/offline tekst-til-tale til bl.a. websites, e-læring og tilgængelighed.
- Acapelabox: Acapela Group har en cloudbaseret tekst-til-tale API, Acapelabox, med støtte for flere sprog og stemmer.
FAQ
Google har flere stemmeniveauer, og næsten alle har et gratis forbrug. Fx er standardstemmer gratis op til 1 million bytes. Ellers koster det $16 pr. million bytes. Så ja, det kan være gratis ved begrænset tekst eller bytes.
Opret en konto på https://cloud.google.com/text-to-speech/ og følg trinene. Jeg har også beskrevet processen her på bloggen.
Du får en Google Text-to-Speech API-nøgle ved at logge ind på Google Cloud og oprette et projekt. Herefter kan du generere en API-nøgle.
URL til Google Text-to-Speech API er https://cloud.google.com/text-to-speech/
Der er egentlig ingen samlet gratis prøveperiode for Google Cloud. De enkelte tjenester har deres egne vilkår og gratisniveauer.
Nej. Google Cloud Text-to-Speech API kræver internetforbindelse.
Autentificering til Google Cloud-tjenester, inklusiv Text-to-Speech API, sker med API-nøgle, OAuth 2.0 eller servicekonto. Metoden afhænger af dit brug og apptype.
Jeg vil give 5 stjerner. Den er nem at bruge, søgefunktionen er god og bruges mest. Prisen er rimelig, og produktet er overordnet stærkt.
Google Text-to-Speech API har klientbiblioteker til flere sprog, bl.a. Python. Den understøtter også RESTful API, så alle sprog, der kan lave HTTP-anmodninger, er kompatible.
Integration i Android foregår via TextToSpeech-klassen og API-kald. Se Android-udviklerdokumentationen for detaljerede instruktioner.
For at bruge Google Text-to-Speech API i JavaScript laver du HTTP-kald til API-endpointet. Det kræver opsætning af anmodning og håndtering af svar i koden. Se den officielle dokumentation.

