Alt om Google Cloud Text to Speech API
Leder du efter vores Tekst til Tale Læser?
Fremhævet i
- Tekst til Tale
- API
- Google Cloud API
- Google Text to Speech API Funktioner
- Hvad koster Google Text to Speech API?
- Hvad er forskellen mellem tegn og bytes?
- Sådan opsætter du dit Google Cloud Platform Text to Speech API-projekt
- Sådan deaktiveres Text to Speech API
- Kom i gang med Google Text to Speech API
- Google Cloud Text to Speech API understøtter disse sprog:
- Hvordan fungerer Google Cloud API?
- Her er nogle måder at bruge Google Text to Speech API
- Bedste alternativer til Google Cloud TTS API
- Google Tekst-til-tale API Ofte Stillede Spørgsmål
Generativ AI og kunstig intelligens har udviklet sig meget. Tekst til tale er et relativt ældre koncept, det har eksisteret i et stykke tid. Der er meget...
Generativ AI og kunstig intelligens har udviklet sig meget. Tekst til tale er et relativt ældre koncept, det har eksisteret i et stykke tid. Der er meget at udforske og kategorisere her, og jeg vil bryde det ned og se på det fra alle vinkler. Uanset om du er nybegynder eller ekspert, bør dette give en samlet klarhed om Google Text to Speech API.
Okay, før vi dykker ned i emnet, er det nødvendigt, at vi fastlægger grundreglerne. Lad os definere nogle få termer og bygge vores fundament, så vi kan stå fast på det.
Lad os adskille de to teknologier her; tekst til tale og API'er, og hvad Googles Cloud's rolle er.
Redaktørens note: Leder du efter den førende tekst til tale API? Tjek Speechifys veldokumenterede og brugervenlige tekst til tale API.
Tekst til Tale
Jeg har skrevet meget om dette emne, og du kan læse min Hvad er tekst til tale blog og også læse om talesyntese for at få en solid forståelse af dette emne. Disse går mere i dybden, og du kan springe dem over for nu. Jeg vil opsummere dem i et par sætninger.
Tekst til tale er afhængig af en teknologi kaldet talesyntese for at konvertere ord til AI-genereret tale. Anvendelsesmulighederne for dette er mange. Fra at hjælpe folk med læsebarrierer som dysleksi og dårligt syn til dem, der blot ønsker at øge effektiviteten.
API
API står for Application Programming Interface. Det fungerer simpelthen som en bro mellem to applikationer. Hvis du udviklede en app, der havde lydindhold og krævede tekst til tale funktionalitet, så skulle du enten bygge tekst til tale funktionaliteten selv, eller du kunne blot forbinde til en eksisterende tekst til tale API.
Du ville fokusere på at bygge din app og stole på en tredjeparts API som en bro, for at importere tekst til tale funktionaliteten til at syntetisere din tekst.
Google Cloud API
Dette er hvor Google Cloud kommer ind i billedet. Google har udviklet en robust tekst til tale API og tilbyder den til udviklere i forskellige prisstrukturer. Enhver udvikler, der ønsker at bygge tilpassede apps eller webapps, der kræver tekst til tale funktionalitet, kunne simpelthen bygge bro over den kløft ved at bruge Googles TTS-funktioner. Ja, TTS er en forkortelse for tekst til tale.
Find hurtigstarten på Google Cloud Console https://cloud.google.com/. Du kan finde vejledninger, administrere din servicekonto, få adgang til wavenet-stemmer og mere.
Google Cloud er i sig selv en cloud-platform tilbudt af Google, og den tilbyder en række modulære tjenester. Du kan vælge at bruge en, mange eller alle dens tjenester. Alt, hvad du skal gøre, er at oprette adgangsnøgler til autentificering af hver API - broen. De fleste, hvis ikke alle, tjenester kommer med en omkostning, selvom der måske er en gratis grænse.
Google købte DeepMind i 2014 for sin tekst til tale teknologi og arbejde inden for neurale netværk. Så hvis du støder på DeepMind, er det nu Google DeepMind, og de er alle én og samme.
Nu hvor vi har en solid forståelse, lad os dykke dybt ned i Google Cloud Text to Speech API.
Google Text to Speech API Funktioner
Google er en global teknologipioner og leder, der er ingen tvivl om det. Når det kommer til TTS API, kan du forvente at finde verdensklasse funktioner, der fortsætter med at udvikle sig.
Høj Kvalitet Tale
Googles tekst til tale stemmer er nogle af de bedste i branchen. De lyder meget menneskelige og med naturlig intonation. TTS er i sine tidligste stadier, og de, der bedst kan syntetisere lyd til at lyde som om et menneske taler, vil vinde dette kapløb.
Udvalg af Stemmer
Google hævder at have det bredeste udvalg af stemmer, så dit projekt ikke behøver at lyde som de andre 1000 derude eller endnu værre, din konkurrenters app.
Skab Din Egen Stemme
Dette grænser til stemme kloning teknologi. Du kan skabe din egen tilpassede stemme ved at optage dig selv eller en anden, med deres tilladelse. Du kan derefter bruge denne prøve til at være stemmen, der læser al din tekst højt.
Neurale Stemmer
Neurale stemmer tilbyder den bedste kvalitet blandt det brede udvalg af stemmer. Du kan også internationalisere disse stemmer for at udvide dit internationale publikum.
Studiestemmer
Studiestemmer er mere avancerede og lyder meget professionelle, som om de var optaget på traditionel vis.
Stemmetilpasning
Vælg en stemme og juster derefter hastighed, tonehøjde og mere, så du kan tilpasse stemmens tone.
Hvad koster Google Text to Speech API?
Det afhænger af stemmekvaliteten og længden af din tekst. Jo mere naturlig du ønsker, at stemmen skal lyde, desto dyrere bliver det. Dog er dyrt relativt her. Selv de stemmer af høj kvalitet er relativt billige.
Stemmertype | Gratis pr. måned | Efter gratis brug er nået |
Neural2 stemmer | 0 til 1 million bytes | $16 pr. en million bytes |
Polyglot stemmer | 0 til 1 million bytes | $16 pr. en million bytes |
Studiestemmer | 0 til 100.000 bytes | $160 pr. en million bytes |
Standard stemmer | 0 til 4 millioner tegn | $4 pr. en million tegn |
Wavenet stemmer | 0 til 1 million tegn | $16 pr. en million tegn |
Hvad er forskellen mellem tegn og bytes?
Som du kan se, varierer prisen betydeligt baseret på stemmekvaliteten. Lydkodningen og behandlingen, der kræves for at omdanne tekst til tale, varierer fra niveau til niveau. For de lavere, som Standardstemmerne, er prisen lavere og tælles i tegn.
Det betyder, at hvis dit projekt har 4 millioner tegn, vil det koste dig $16 at konvertere disse tegn til tale ved hjælp af Standardtegn.
Studiestemmerne kræver derimod større behandlingskraft og opkræves baseret på bytes. I nogle sprog, som japansk for eksempel, kan et enkelt tegn bestå af flere bytes.
Så for den mest præcise prisfastsættelse er det vigtigt at vide, hvilket sprog du arbejder med, og have en grundlæggende forståelse af det gennemsnitlige antal bytes pr. tegn og estimere det derefter.
Sådan opsætter du dit Google Cloud Platform Text to Speech API-projekt
- Opret en Google Cloud-konto eller log ind på denne side
- Opret et nyt projekt og navngiv det passende
- Tilføj en betalingsmetode. Du vil kun blive opkrævet for det, du bruger.
- Vælg derefter dit projekt og tilknyt det til en betalingskonto.
- Aktiver Text-to-Speech API. Gå til søgefeltet for produkter og ressourcer øverst på siden, og skriv "speech."
- Fra de viste resultater, vælg Cloud Text-to-Speech API
- Opsæt godkendelse for dit udviklingsmiljø. For instruktioner, se Opsæt godkendelse for Text-to-Speech.
Du kan også prøve Text-to-Speech uden at knytte det til dit projekt:
- Vælg PRØV DENNE API mulighed.
- For at aktivere Text-to-Speech API til brug med dit projekt, klik AKTIVER.
Se Google Cloud-dokumentationen for yderligere hjælp.
Sådan deaktiveres Text to Speech API
For at deaktivere Text-to-Speech API, gå til dit Google Cloud Platform-dashboard og klik på "Gå til API-oversigt" linket inden for API-boksen. Find Text-to-Speech API og klik derefter på det, efterfulgt af at vælge "DEAKTIVER API" knappen øverst på siden.
Kom i gang med Google Text to Speech API
Nu hvor du har opsat dit projekt, kan du bruge kommandolinjen til at komme i gang.
gcloud init
Opret lokal godkendelse
gcloud auth application-default login
Nu kan du installere et klientbibliotek. I dette eksempel ser vi på Node.js
npm install --save @google-cloud/text-to-speech
Google Cloud Text to Speech API understøtter disse sprog:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Hvordan fungerer Google Cloud API?
Det hele starter med et simpelt API-opkald. Du sender din tekst i et transkriptionsopkald, og derefter modtager du en lydfil af din talte tekst. Med din anmodning kan du stille specifikke krav. Vælg en stemme, et sprog og mere, og så sender tekst-til-tale API'en dig lydfilen tilbage.
Du kan lære, hvordan du installerer og bruger tekst-til-tale klientbibliotekerne her. Vores kodeeksempler vil være for Node.js. Men du kan vælge alt fra Python til PHP. Hvad end du er komfortabel med.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);
Og det er det. Du har opsat Google Cloud Text to Speech API og sendt din første anmodning om at konvertere tekst til tale. Du kan få filen tilbage i forskellige formater; fra OGG til MP3.
Her er nogle måder at bruge Google Text to Speech API
Google Text-to-Speech (TTS) API tilbyder en alsidig løsning til forskellige anvendelser på tværs af forskellige industrier. Nogle almindelige anvendelser inkluderer:
- Tekst-til-tale for synshæmmede brugere: Implementering af TTS i applikationer for at konvertere skriftligt indhold til talte ord, hvilket gør digital information tilgængelig for synshæmmede brugere.
- Automatiserede telefonsystemer: Brug af TTS til at skabe naturligt lydende beskeder og svar til interaktive stemmerespons-systemer i kundeservice eller informationshotlines.
- Voiceovers til medieindhold: Generering af naturligt lydende voiceovers til videoer, podcasts eller andet multimedieindhold for at forbedre brugeroplevelsen.
- Tekst-til-tale for oversat indhold: Konvertering af oversat tekst til talte ord for at lette sprogindlæring, international kommunikation eller indholdsforbrug på forskellige sprog.
- Læsehjælp til dyslektiske brugere: Tilbyde TTS-funktionalitet for at hjælpe personer med dysleksi eller læsevanskeligheder med at forbruge skriftligt indhold.
- Stemme-navigation i applikationer: Integrering af TTS i navigationsapplikationer for at give trin-for-trin vejledning eller stedbaseret information hørbart.
- Tekst-til-tale for uddannelsesindhold: Forbedring af e-læringsoplevelser ved at konvertere uddannelsestekstindhold til talte ord, der hjælper forståelse og engagement.
- Talesyntese til produktivitetsapps: Integrering af TTS i produktivitetsværktøjer, såsom notat- eller opgavestyringsapps, for at muliggøre talte tilbagemeldinger eller informationshentning.
- Naturlig stemme til virtuelle assistenter: Drive stemmeassistenter med naturligt lydende TTS for at forbedre brugerinteraktioner og give information på en samtalemæssig måde.
- Hørbare alarmer og meddelelser: Brug af TTS til at give hørbare alarmer, meddelelser eller statusopdateringer på Internet of Things (IoT) enheder for forbedret brugerbevidsthed.
Bedste alternativer til Google Cloud TTS API
Fra min sidste opdatering i januar 2022 er der flere alternativer til Google Text-to-Speech API. Husk, at populariteten og kapabiliteterne af disse tjenester kan have ændret sig siden da. Her er nogle bemærkelsesværdige alternativer:
- Speechify Tekst-til-tale API: Vi er begejstrede for at præsentere udviklingen af en tekst-til-tale API, der leverer Speechifys mest naturlige og elskede AI-stemmer direkte til udviklere verden over. Reserver din plads i dag.
- Amazon Polly: Tilbydes af Amazon Web Services (AWS), Polly leverer naturligt lydende talesyntese på forskellige sprog og stemmer. Det integreres godt med andre AWS-tjenester.
- Microsoft Azure Speech Service: Azure Speech Service inkluderer tekst-til-tale funktioner og understøtter en række applikationer, herunder stemmeassistenter, navigationssystemer og mere.
- IBM Watson Tekst-til-tale: IBM Watson tilbyder en tekst-til-tale tjeneste, der giver udviklere mulighed for at konvertere skreven tekst til naturligt lydende tale ved hjælp af forskellige stemmer.
- Nuance Communications: Nuance leverer en række tale- og stemmegenkendelsesløsninger, herunder tekst-til-tale, til applikationer inden for sundhedsvæsen, bilindustrien og kundeservice.
- CereProc: CereProc er et tekst-til-tale teknologifirma, der tilbyder høj kvalitet syntetiske stemmer til applikationer som tilgængelighed, underholdning og kommunikation.
- iSpeech: iSpeech leverer cloud-baserede tekst-til-tale tjenester med support til flere sprog og stemmer. Det er velegnet til forskellige applikationer, herunder mobilapps og hjemmesider.
- ResponsiveVoice: ResponsiveVoice er en enkel og overkommelig tekst-til-tale API, der understøtter flere sprog og kan bruges i forskellige webbaserede applikationer.
- Neospeech: Neospeech tilbyder tekst-til-tale løsninger med fokus på naturligt lydende stemmer. Deres teknologi bruges i applikationer som e-læring og underholdning.
- ReadSpeaker: ReadSpeaker leverer online og offline tekst-til-tale løsninger til forskellige applikationer, herunder hjemmesider, e-læring og tilgængelighedstjenester.
- Acapelabox: Acapela Group tilbyder en cloud-baseret tekst-til-tale API, Acapelabox, som understøtter flere sprog og stemmer til applikationer i forskellige industrier.
Google Tekst-til-tale API Ofte Stillede Spørgsmål
Google har flere niveauer af stemmer, og næsten hvert niveau har en gratis grænse. For eksempel er standardstemmer gratis op til den første million bytes. Derefter koster det $16 per million bytes. Så ja, det kan være gratis med begrænsede tegn eller bytes.
Opret blot en konto på https://cloud.google.com/text-to-speech/ og følg trinene der. Jeg har også beskrevet processen i detaljer i denne blog, lige ovenfor.
Du kan få en Google tekst-til-tale API-nøgle ved at logge ind på din Google Cloud-konto og derefter oprette et projekt. Når du har oprettet dit projekt, kan du generere en API-nøgle.
URL'en til Google tekst-til-tale API er https://cloud.google.com/text-to-speech/
Der er teknisk set ingen gratis prøveperiode for Google Cloud. Der er flere tjenester inden for Google Cloud, og hver tjeneste har sine egne vilkår og gratis niveauer.
Nej. Google Cloud tekst-til-tale API kræver en internetforbindelse.
Autentificering til Google Cloud-tjenester, inklusive Tekst-til-tale API, kan ske ved hjælp af API-nøgler, OAuth 2.0 eller servicekonti. Den passende autentificeringsmetode afhænger af brugssagen og typen af applikation.
Jeg vil give det 5 stjerner. Det er nemt at bruge, søgefunktionen er fantastisk og bruges mest. Priserne er rimelige, og det er overordnet et godt produkt.
Google Text-to-Speech API tilbyder klientbiblioteker til forskellige programmeringssprog, herunder Python. Den understøtter også RESTful API-anmodninger, hvilket gør den kompatibel med sprog, der kan lave HTTP-anmodninger.
At integrere Google Text-to-Speech API i en Android-app indebærer brug af TextToSpeech-klassen og at lave API-anmodninger. Detaljerede instruktioner kan findes i den officielle dokumentation for Android-udviklere.
For at implementere Google Text-to-Speech API i en JavaScript-applikation kan du lave HTTP-anmodninger til API-endepunktet. Processen indebærer at konstruere den passende API-anmodning og håndtere svaret i din JavaScript-kode. Se den officielle dokumentation for detaljer.
Cliff Weitzman
Cliff Weitzman er en fortaler for dysleksi og CEO samt grundlægger af Speechify, verdens førende app til tekst-til-tale, med over 100.000 5-stjernede anmeldelser og førstepladsen i App Store i kategorien Nyheder & Magasiner. I 2017 blev Weitzman udnævnt til Forbes 30 under 30-listen for sit arbejde med at gøre internettet mere tilgængeligt for personer med indlæringsvanskeligheder. Cliff Weitzman har været omtalt i EdSurge, Inc., PC Mag, Entrepreneur, Mashable, blandt andre førende medier.