Social Proof

Allt du behöver veta om Google Cloud Text to Speech API

Vi är glada att kunna presentera utvecklingen av en text-till-tal-API som levererar Speechifys mest naturliga och älskade AI-röster direkt till utvecklare världen över.

Letar du efter vår Text till tal-läsare?

Medverkat i

forbes logocbs logotime magazine logonew york times logowall street logo
Lyssna på denna artikel med Speechify!
Speechify

Generativ AI och artificiell intelligens har kommit långt. Text till tal är ett relativt äldre koncept, det har funnits ett tag. Det finns mycket...

Generativ AI och artificiell intelligens har kommit långt. Text till tal är ett relativt äldre koncept, det har funnits ett tag. Det finns mycket att packa upp här och kategorisera, och jag kommer att bryta ner det och titta på detta från alla vinklar. Oavsett om du är nybörjare eller proffs, bör detta ge en övergripande klarhet om Google Text to Speech API.

Okej, innan vi dyker in i något ämne, är det ett måste att vi fastställer grundreglerna. Låt oss definiera några termer och bygga upp vår grund så vi kan stå stadigt på den.

Låt oss separera de två teknologierna här; text till tal och API:er, och vad Googles roll är i detta.

Redaktörens anmärkning: Letar du efter den ledande text till tal API? Kolla in Speechifys väl dokumenterade och lättanvända text till tal API.

Text till tal

Jag har skrivit utförligt om detta ämne och du kan läsa min Vad är text till tal blogg och även läsa om talssyntes för att få en god förståelse för detta ämne. Dessa går mer på djupet och du kan hoppa över dem för nu. Jag kommer att sammanfatta dem i några meningar.

Text till tal förlitar sig på en teknik som kallas talssyntes för att omvandla ord till AI-genererat tal. Användningsområdena för detta är många. Från att hjälpa personer med lässvårigheter som dyslexi och dålig syn till de som helt enkelt vill öka effektiviteten.

API

API står för Application Programming Interface. Det fungerar helt enkelt som en bro mellan två applikationer. Om du utvecklade en app som hade ljudinnehåll och krävde text till tal-funktionalitet, skulle du behöva bygga text till tal-funktionaliteten själv, eller så kunde du helt enkelt ansluta till en befintlig text till tal API.

Du skulle fokusera på att bygga din app och förlita dig på en tredjeparts-API som en bro, för att importera text till tal-funktionaliteten för att syntetisera din text.

Google Cloud API

Det är här Google Cloud kommer in i bilden. Google har utvecklat en robust text till tal API och erbjuder den till utvecklare i olika avgiftsstrukturer. Alla utvecklare som vill bygga anpassade appar eller webbappar som kräver text till tal-funktionalitet kan enkelt överbrygga det gapet genom att använda Googles TTS-funktioner. Ja, TTS är en förkortning för text till tal.

Hitta snabbstarten på Google Cloud Console https://cloud.google.com/. Du kan hitta handledningar, hantera ditt tjänstekonto, få tillgång till wavenet-röster och mer.

Google Cloud är i sig en molnplattform som erbjuds av Google och den erbjuder en mängd modulära tjänster. Du kan välja att använda en, flera eller alla dess tjänster. Allt du behöver göra är att skapa åtkomstnycklar för autentisering av varje API - bron. De flesta, om inte alla, tjänster kommer med en kostnad även om det kan finnas en gratis tröskel.

Google köpte DeepMind 2014 för dess text till tal-teknologi och arbete inom utveckling av neurala nätverk. Så, om du stöter på DeepMind, är det nu Google DeepMind och de är alla en och samma.

Nu när vi har en solid förståelse, låt oss dyka djupt in i Google Cloud Text to Speech API.

Google Text to Speech API-funktioner

Google är en global teknikpionjär och ledare, det råder ingen tvekan om det. När det gäller TTS API kan du förvänta dig att hitta världsklassfunktioner som fortsätter att utvecklas.

Högkvalitativt tal

Googles text till tal-röster är några av de bästa i branschen. De låter mycket mänskliga och med naturligt klingande intonation. TTS är i sina tidigaste stadier och de som bäst kan syntetisera ljud för att låta som en människa talar kommer att vinna detta lopp.

Urval av röster

Google hävdar det bredaste urvalet av röster så att ditt projekt inte behöver låta likadant som de andra 1000 där ute eller ännu värre, din konkurrents app.

Skapa din egen röst

Detta gränsar till röstkloning-teknik. Du kan skapa din anpassade röst genom att spela in dig själv eller någon annan, med deras tillstånd. Du kan sedan använda detta prov för att vara rösten som läser upp all din text.

Neurala röster

Neurala röster erbjuder den bästa kvaliteten bland det stora urvalet av röster. Du kan också anpassa dessa röster för att nå en internationell publik.

Studiotal

Studiotal är mer avancerade röster och låter mycket professionella, som om de spelats in på traditionellt sätt.

Röstjustering

Välj en röst och justera sedan hastighet, tonhöjd och mer för att anpassa röstens ton.

Hur mycket kostar Google Text to Speech API?

Det beror på röstkvaliteten och längden på din text. Ju mer naturligt du vill att rösten ska låta, desto dyrare blir det. Men dyrt är relativt här. Även de högkvalitativa rösterna är relativt billiga.

RösttypGratis per månadEfter att gratisanvändningen har nåtts
Neural2-röster0 till 1 miljon byte$16 per en miljon byte
Polyglot-röster0 till 1 miljon byte$16 per en miljon byte
Studiotal0 till 100 000 byte$160 per en miljon byte
Standardröster0 till 4 miljoner tecken$4 per en miljon tecken
Wavenet-röster0 till 1 miljon tecken$16 per en miljon tecken

Vad är skillnaden mellan tecken och byte?

Som du kan se varierar prissättningen avsevärt beroende på röstkvaliteten. Ljudkodningen och bearbetningen som krävs för att omvandla text till tal varierar från nivå till nivå. För de lägre, som Standardröster till exempel, är prissättningen lägre och räknas per tecken.

Det betyder att om ditt projekt har 4 miljoner tecken, skulle det kosta dig $16 att omvandla dessa tecken till tal med Standardtecken.

Studiotal å andra sidan kräver större bearbetningskraft och debiteras baserat på byte. I vissa språk, som japanska till exempel, kan ett enda tecken bestå av flera byte.

Så för den mest exakta prissättningen är det viktigt att veta vilket språk du arbetar med och ha en grundläggande förståelse för ett genomsnittligt antal byte per tecken och uppskatta det därefter.

Hur ställer du in ditt Google Cloud Platform Text to Speech API-projekt?

  1. Skapa ett Google Cloud-konto eller logga in på denna sida
  2. Skapa ett nytt projekt och namnge det lämpligt
  3. Lägg till en betalningsmetod. Du debiteras endast för det du använder.
  4. Välj sedan ditt projekt och koppla det till ett faktureringskonto.
  5. Aktivera Text-to-Speech API. Gå till sökfältet för produkter och resurser högst upp på sidan och skriv "speech".
  6. Från de visade resultaten, välj Cloud Text-to-Speech API
  7. Ställ in autentisering för din utvecklingsmiljö. För instruktioner, se Ställ in autentisering för Text-to-Speech.

Du kan också prova Text-to-Speech utan att länka det till ditt projekt:

  1. Välj alternativet PROVA DETTA API.
  2. För att aktivera Text-to-Speech API för användning med ditt projekt, klicka på AKTIVERA.

Kolla in Google Cloud-dokumentationen för ytterligare hjälp.

Hur inaktiverar du Text to Speech API

För att inaktivera Text-to-Speech API, gå till din Google Cloud Platform-instrumentpanel och klicka på länken "Gå till API-översikt" inom API-rutan. Hitta Text-to-Speech API och klicka sedan på det, följt av att välja knappen "INAKTIVERA API" högst upp på sidan.

Kom igång med Google Text to Speech API

Nu när du har ditt projekt inställt kan du använda kommandoraden för att komma igång.

gcloud init

Skapa lokal autentisering

gcloud auth application-default login

Nu kan du installera ett klientbibliotek. I detta exempel tittar vi på Node.js

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API stöder dessa språk:

  1. Go
  2. Java
  3. Node.js
  4. C++
  5. C#
  6. PHP
  7. Python
  8. Ruby
  9. TypeScript
  10. Terraform
  11. YAML

Hur fungerar Google Cloud API?

Allt börjar med ett enkelt API-anrop. Du skickar din text i ett transkriptanrop och sedan får du en ljudfil av din talade text. Med din begäran kan du göra specifika önskemål. Välj en röst, ett språk och mer, och sedan skickar text-till-tal-API:et tillbaka ljudfilen till dig.

Du kan lära dig hur man installerar och använder text-till-tal-klientbiblioteken här. Våra kodexempel kommer att vara för Node.js. Men du kan välja något annat från Python till PHP. Vad du än känner dig bekväm med.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

Och det är allt. Du har ställt in Google Cloud Text to Speech API och skickat din första begäran för att konvertera text till tal. Du kan få tillbaka filen i olika format; från OGG till MP3.

Här är några sätt att använda Google Text to Speech API

Google Text-to-Speech (TTS) API erbjuder en mångsidig lösning för olika användningsområden inom olika branscher. Några vanliga användningsområden inkluderar:

  1. Text-till-tal för synskadade användare: Implementera TTS i applikationer för att konvertera skrivet innehåll till talade ord, vilket gör digital information tillgänglig för synskadade användare.
  2. Automatiserade telefonsystem: Använda TTS för att skapa naturligt ljudande meddelanden och svar för interaktiva röstsystem i kundtjänst eller informationslinjer.
  3. Röstöverlägg för medieinnehåll: Generera naturligt ljudande röstöverlägg för videor, podcasts eller annat multimedia-innehåll för att förbättra användarupplevelsen.
  4. Text-till-tal för översatt innehåll: Konvertera översatt text till talade ord för att underlätta språkinlärning, internationell kommunikation eller konsumtion av innehåll på olika språk.
  5. Läshjälp för dyslektiska användare: Tillhandahålla TTS-funktionalitet för att hjälpa individer med dyslexi eller lässvårigheter att konsumera skrivet innehåll.
  6. Röstnavigering i applikationer: Integrera TTS i navigationsapplikationer för att ge vägbeskrivningar eller platsbaserad information hörbart.
  7. Text-till-tal för utbildningsinnehåll: Förbättra e-lärande upplevelser genom att konvertera utbildningstextinnehåll till talade ord, vilket underlättar förståelse och engagemang.
  8. Talsyntes för produktivitetsappar: Integrera TTS i produktivitetsverktyg, såsom antecknings- eller uppgiftshanteringsappar, för att möjliggöra talad feedback eller informationshämtning.
  9. Naturlig röst för virtuella assistenter: Driva röstassistenter med naturligt ljudande TTS för att förbättra användarinteraktioner och ge information på ett konversationellt sätt.
  10. Ljudvarningar och notifikationer: Använda TTS för att ge hörbara varningar, notifikationer eller statusuppdateringar på Internet of Things (IoT) enheter för förbättrad användarmedvetenhet.

Bästa alternativen till Google Cloud TTS API

Från och med min senaste kunskapsuppdatering i januari 2022 finns det flera alternativ till Google Text-to-Speech API. Tänk på att populariteten och kapaciteten hos dessa tjänster kan ha förändrats sedan dess. Här är några anmärkningsvärda alternativ:

  1. Speechify Text to Speech API: Vi är glada att presentera utvecklingen av en text-till-tal-API som levererar Speechifys mest naturliga och älskade AI-röster direkt till utvecklare världen över. Boka din plats idag.
  2. Amazon Polly: Erbjuds av Amazon Web Services (AWS), Polly ger naturligt ljudande talsyntes på olika språk och röster. Det integreras väl med andra AWS-tjänster.
  3. Microsoft Azure Speech Service: Azure Speech Service inkluderar text-till-tal-funktioner och stöder en mängd olika applikationer, inklusive röstassistenter, navigationssystem och mer.
  4. IBM Watson Text to Speech: IBM Watson erbjuder en text-till-tal-tjänst som låter utvecklare konvertera skriven text till naturligt ljudande tal med olika röster.
  5. Nuance Communications: Nuance erbjuder en rad lösningar för tal- och röstigenkänning, inklusive text-till-tal, för applikationer inom vård, bilindustri och kundservice.
  6. CereProc: CereProc är ett företag inom text-till-tal-teknologi som erbjuder högkvalitativa syntetiska röster för applikationer som tillgänglighet, underhållning och kommunikation.
  7. iSpeech: iSpeech erbjuder molnbaserade text-till-tal-tjänster med stöd för flera språk och röster. Det är lämpligt för olika applikationer, inklusive mobilappar och webbplatser.
  8. ResponsiveVoice: ResponsiveVoice är en enkel och prisvärd text-till-tal-API som stöder flera språk och kan användas i olika webbaserade applikationer.
  9. Neospeech: Neospeech erbjuder text-till-tal-lösningar med fokus på naturligt ljudande röster. Deras teknologi används i applikationer som e-lärande och underhållning.
  10. ReadSpeaker: ReadSpeaker erbjuder online och offline text-till-tal-lösningar för olika applikationer, inklusive webbplatser, e-lärande och tillgänglighetstjänster.
  11. Acapelabox: Acapela Group erbjuder en molnbaserad text-till-tal-API, Acapelabox, som stöder flera språk och röster för applikationer inom olika industrier.

Google Text to Speech API Vanliga Frågor

Google har flera nivåer av röster och nästan varje nivå har en gratisgräns. Till exempel är standardröster gratis upp till den första miljonen byte. Efter det kostar det $16 per miljon byte. Så ja, det kan vara gratis med begränsade tecken eller byte.

Skapa helt enkelt ett konto på https://cloud.google.com/text-to-speech/ och följ stegen där. Jag har också beskrivit processen i detalj i denna blogg, precis ovanför.

Du kan få en Google text-till-tal API-nyckel genom att logga in på ditt Google Cloud-konto och sedan skapa ett projekt. När du har skapat ditt projekt kan du generera en API-nyckel.

URL:en för Google text-till-tal API är https://cloud.google.com/text-to-speech/

Det finns tekniskt sett ingen gratis provperiod för Google Cloud. Det finns flera tjänster inom Google Cloud och varje tjänst har sina egna villkor och gratisnivåer.

Nej. Google Cloud text-till-tal API kräver en internetanslutning.

Autentisering till Google Cloud-tjänster, inklusive Text-to-Speech API, kan göras med API-nycklar, OAuth 2.0 eller tjänstekonton. Den lämpliga autentiseringsmetoden beror på användningsfallet och typen av applikation.

Jag skulle ge det 5 stjärnor. Det är lätt att använda, sökfunktionen är fantastisk och används mest. Prissättningen är rimlig och det är överlag en utmärkt produkt.

Google Text-to-Speech API erbjuder klientbibliotek för olika programmeringsspråk, inklusive Python. Den stöder också RESTful API-förfrågningar, vilket gör den kompatibel med språk som kan göra HTTP-förfrågningar.

För att integrera Google Text-to-Speech API i en Android-app använder du klassen TextToSpeech och gör API-förfrågningar. Detaljerade instruktioner finns i den officiella dokumentationen för Android-utvecklare.

För att implementera Google Text-to-Speech API i en JavaScript-applikation kan du göra HTTP-förfrågningar till API-slutpunkten. Processen innebär att konstruera rätt API-förfrågan och hantera svaret i din JavaScript-kod. Se den officiella dokumentationen för detaljer.

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman är en förespråkare för dyslexi och VD samt grundare av Speechify, världens främsta app för text-till-tal, med över 100 000 femstjärniga recensioner och förstaplats i App Store i kategorin Nyheter & Tidskrifter. År 2017 blev Weitzman utsedd till Forbes 30 under 30-lista för sitt arbete med att göra internet mer tillgängligt för personer med inlärningssvårigheter. Cliff Weitzman har blivit uppmärksammad i EdSurge, Inc., PC Mag, Entrepreneur, Mashable, bland andra ledande medier.