1. Hem
  2. API
  3. Allt du behöver veta om Google Cloud Text to Speech API
Updated on API

Allt du behöver veta om Google Cloud Text to Speech API

Cliff Weitzman

Cliff Weitzman

vd och grundare av Speechify

Speechify API erbjuder 300 ms latens, röster i mänsklig kvalitet och 50+ språk

apple logo2025 Apple Design Award
50M+ användare

Generativ AI och artificiell intelligens har tagit stora kliv framåt. Text till tal är ett äldre koncept och har funnits länge. Det finns mycket att reda ut och kategorisera, så jag bryter ner och förklarar ur alla vinklar. Oavsett om du är nybörjare eller expert får du bättre koll på Googles Text till tal-API.

Okej, innan vi går in på ämnet måste vi lägga grunden – definiera några termer och bygga en bas att stå på.

Låt oss skilja på de två teknikerna här: text till tal och API:er, och vad Google Clouds roll är.

Redaktörens tips: Letar du efter ett ledande text till tal-API? Kolla in Speechifys väl dokumenterade och lättanvända text till tal API.

Text till tal

Jag har skrivit mycket om detta och du kan läsa min Vad är text till tal-blogg och även om talsyntes för att få en gedigen förståelse. Dessa är mer djupgående, men du kan hoppa över dem nu. Jag sammanfattar här.

Text till tal använder talsyntesteknik för att omvandla ord till AI-genererad röst. Användningsområdena är många – från att hjälpa personer med lässvårigheter som dyslexi och dålig syn till dem som vill snabba upp arbetsflödet.

API

API står för Application Programming Interface. Det fungerar helt enkelt som en brygga mellan två applikationer. Om du bygger en app med ljud och behöver text till tal-funktion, kan du antingen skapa text till tal själv eller koppla till ett befintligt text till tal API.

Fokusera på din app – låt ett tredjeparts-API agera bro och stå för text till tal-funktionen.

Google Cloud API

Här kommer Google Cloud in. Google har utvecklat ett robust text till tal-API och erbjuder det till utvecklare via olika avgiftsnivåer. Vilken utvecklare som helst kan enkelt lägga till text till tal i sina appar med Googles TTS. Ja, TTS står för text till tal.

Hitta snabbstarten på Google Cloud Console https://cloud.google.com/. Där hittar du guider, hanterar ditt konto och får tillgång till wavenet-röster m.m.

Google Cloud är Googles molnplattform och erbjuder många tjänster. Du kan använda enstaka eller alla tjänster. Du behöver bara skapa access-nycklar för autentisering till varje API. Det allra mesta kostar, men ibland finns en gratisnivå.

Google köpte DeepMind 2014 för dess text till tal-teknik och neuralnätsarbete. Så DeepMind är numera Google DeepMind – samma bolag.

Nu när vi har koll – låt oss dyka ner i Google Cloud Text to Speech API.

Funktioner i Google Text to Speech API

Google är en global teknikledare – det råder ingen tvekan. När det gäller TTS-API kan du förvänta dig funktioner i världsklass som ständigt utvecklas.

Högupplöst tal

Googles text till tal-röster är bland de bästa, låter väldigt naturliga och mänskliga. TTS är bara i början och den som får ljudet att låta mest mänskligt vinner racet.

Stort röstutbud

Google erbjuder det bredaste röstutbudet, så ditt projekt inte låter som konkurrenternas eller alla andras appar.

Skapa egen röst

Detta gränsar till röstkloning. Skapa en egen röst genom att spela in dig själv/annan (med tillstånd). Du kan sedan använda rösten som uppläsare för all text.

Neurala röster

Neurala röster håller högst kvalitet och kan även anpassas internationellt för att nå fler.

Studioröster

Studioröster är de mest professionella – de låter som om de spelats in på traditionellt vis.

Justera rösten

Välj röst och justera sedan hastighet, tonhöjd och mer för att anpassa tonläget.

Vad kostar Google Text to Speech API?

Det avgörs av röstkvalitet och textens längd. Ju mer naturligt ljud, desto högre pris. Men priset är relativt; även de mest högkvalitativa rösterna är billiga.

RösttypGratis per månadEfter gratisgräns
Neural2-röster0–1 miljon byte$16 per en miljon byte
Polyglot-röster0–1 miljon byte$16 per en miljon byte
Studioröster0–100 000 byte$160 per en miljon byte
Standardröster0–4 miljoner tecken$4 per en miljon tecken
Wavenet-röster0–1 miljon tecken$16 per en miljon tecken

Skillnad mellan tecken & byte

Som du ser varierar priset kraftigt beroende på röstkvalitet. Kodning och behandling från text till tal varierar per nivå. För lägre nivåer, t ex Standard-röster, räknas tecken.

Om ditt projekt har 4 miljoner tecken kostar det 16 dollar att konvertera dem med Standard Character.

Studioröster kräver mer processorkraft och debiteras per byte. På vissa språk, som japanska, kan ett tecken bestå av flera byte.

För rätt pris behöver du veta vilket språk du jobbar med och ungefärliga antalet byte per tecken och räkna ut det.

Hur startar du ditt Google Cloud Platform Text to Speech-API-projekt?

  1. Skapa Google Cloud-konto eller logga in här
  2. Skapa nytt projekt och ge det ett passande namn
  3. Lägg till betalningsmetod. Du debiteras bara för det du använder.
  4. Välj projektet och koppla det till ett betalningskonto.
  5. Aktivera Text-to-Speech API. Sök efter "speech" högst upp på sidan.
  6. Välj Cloud Text-to-Speech API i listan
  7. Ställ in autentisering för din miljö. Se instruktionerna för Text-to-Speech.

Du kan även testa Text-to-Speech utan att koppla det till projektet:

  1. Välj TRY THIS API.
  2. Aktivera API:t genom att klicka på ENABLE.

Kolla in Google Cloud-dokumentationen för mer hjälp.

Så stänger du av Text-to-Speech API

För att slå av Text-to-Speech-API:t, gå till din Google Cloud Platform och klicka på "Till API-översikt" i API-rutan. Leta upp Text-to-Speech API, klicka och välj sedan "DISABLE API" högst upp på sidan.

Kom igång med Google Text to Speech API

Nu när ditt projekt är igång kan du använda kommandoraden för att börja.

gcloud init

Skapa lokal autentisering

gcloud auth application-default login

Nu kan du installera ett klientbibliotek. Här ser vi Node.js som exempel

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API stödjer dessa språk:

  1. Go
  2. Java
  3. Node.js
  4. C++
  5. C#
  6. PHP
  7. Python
  8. Ruby
  9. TypeScript
  10. Terraform
  11. YAML

Hur fungerar Google Cloud API?

Allt börjar med ett enkelt API-anrop. Du skickar din text och får tillbaka en ljudfil med tal. Med förfrågan kan du välja röst, språk m.m. och sedan skickar text till tal API tillbaka ljudfilen.

Lär dig installera och använda klientbibliotek för text till tal här. Exemplet visar Node.js men det går med t ex Python eller PHP. Välj det du föredrar.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

Och det är allt. Du har satt upp Google Cloud Text to Speech API och skickat din första textförfrågan. Filen kan fås i flera format, t ex OGG eller MP3.

Så här kan du använda Google Text to Speech API

Google Text to Speech (TTS) API är mångsidigt och används inom många branscher. Några vanliga användningsområden är:

  1. Text till tal för synskadade: Använd TTS i appar för att omvandla text till tal och göra digitalt innehåll tillgängligt för synskadade användare.
  2. Automatiserade telefonsystem: Skapa naturliga talmeddelanden och svar i kundtjänstsystem.
  3. Berättarröst till media: Generera naturliga berättarröster för videor, poddar m.m.
  4. Text till tal för översatt innehåll: Läs upp översatt text för språkinlärning, kommunikation och innehåll på olika språk.
  5. Lässtöd för dyslektiker: TTS hjälper personer med dyslexi och lässvårigheter att ta del av skriven text.
  6. Talnavigering i appar: Integrera TTS i navigeringsappar för att ge ljudbaserade vägbeskrivningar.
  7. Text till tal för utbildning: Förbättra e-lärande genom att omvandla utbildningstext till tal och underlätta förståelsen.
  8. Talsyntes i produktivitetsappar: Integrera TTS i t.ex. antecknings- eller uppgiftsappar för röstfeedback eller informationssökning.
  9. Naturliga röster för assistenter: Ge röstassistenter mänskligt TTS för bättre interaktioner och konversationer.
  10. Ljudaviseringar: Använd TTS för att ge uttalade varningar, aviseringar eller statusuppdateringar på IoT-enheter.

Bästa alternativen till Google Cloud TTS API

Vid min senaste kunskapsuppdatering januari 2022 fanns flera alternativ till Google Text to Speech API. Tjänsternas popularitet kan ha förändrats sedan dess. Här är några utvalda alternativ:

  1. Speechify Text to Speech API: Speechify Text to Speech API erbjuder över 1 000 levande och emotionella AI-röster på 60+ språk och dialekter. Boka din plats idag.
  2. Amazon Polly: Polly tillhör AWS och erbjuder naturlig talsyntes på flera språk. Integreras lätt med övriga AWS-tjänster.
  3. Microsoft Azure Speech Service: Azure Speech Service har Text to Speech och stöder appar som röstassistenter och navigering.
  4. IBM Watson Text to Speech: IBM Watson erbjuder tjänsten Text to Speech, där utvecklare kan göra skriven text till tal med många olika röster.
  5. Nuance Communications: Nuance erbjuder lösningar för röstigenkänning och text till tal till bl.a. hälsovård, bilindustrin och kundservice.
  6. CereProc: CereProc är ett text till tal-teknikbolag med syntetiska röster för t.ex. tillgänglighet och underhållning.
  7. iSpeech: iSpeech levererar molnbaserad text till tal med flera röster och språk. Passar appar och webbplatser.
  8. ResponsiveVoice: ResponsiveVoice är ett enkelt och prisvärt text till tal API med stöd för många språk och webbaserade appar.
  9. Neospeech: Neospeech erbjuder text till tal-lösningar med naturliga röster. Används t.ex. till e-learning.
  10. ReadSpeaker: ReadSpeaker tillhandahåller online- och offline TTS-lösningar för webb, e-learning och tillgänglighet.
  11. Acapelabox: Acapela Group har ett molnbaserat text till tal API, Acapelabox, för olika branscher med stöd för många språk.

FAQ

Google har flera röstnivåer och nästan varje nivå har en gratisgräns. T.ex. är standardröster gratis upp till en miljon byte. Däröver kostar det $16 per miljon byte. Så ja, det kan vara gratis upp till en viss nivå.

Skapa ett konto på https://cloud.google.com/text-to-speech/ och följ stegen där. Jag har även beskrivit processen utförligt ovan i bloggen.

Logga in på ditt Google Cloud-konto och skapa ett projekt. När projektet är skapat kan du generera en API-nyckel.

URL:en för Google Text to Speech API är https://cloud.google.com/text-to-speech/

Tekniskt sett finns ingen gemensam gratisperiod för Google Cloud. Varje tjänst har egna villkor och gratisnivåer.

Nej. Google Cloud Text to Speech API kräver internetuppkoppling.

Autentisering till Google Cloud-tjänster, inkl. Text to Speech API, kan ske via API-nycklar, OAuth 2.0 eller tjänstekonton. Valet beror på användning och app-typ.

Jag ger 5 stjärnor. Enkelt att använda, sökfunktionen är toppen, priserna är okej och det är en mycket bra produkt.

Google Text to Speech API har klientbibliotek för flera språk, bl.a. Python. Det stöder även REST-API-anrop, så allt som klarar HTTP kan användas.

För att integrera Google Text to Speech API i Android används klassen TextToSpeech och API-anrop. Exakta instruktioner finns i den officiella dokumentationen för Android-utvecklare.

För att använda API:t med JavaScript gör du HTTP-anrop till API:et. Det innebär att bygga korrekt förfrågan och hantera svaret i din kod. Se den officiella dokumentationen för detaljer.

Få tillgång till Speechifys prisade röster via API – snabbt, skalbart och utvecklarvänligt

Få API-åtkomst
api access banner

Dela artikeln

Cliff Weitzman

Cliff Weitzman

vd och grundare av Speechify

Cliff Weitzman är dyslexiförespråkare samt vd och grundare av Speechify, världens ledande text‑till‑tal‑app, med över 100 000 femstjärniga omdömen och har toppat App Store-kategorin Nyheter & Magasin. 2017 listade Forbes Weitzman på "30 under 30" för hans arbete med att göra internet mer tillgängligt för personer med lässvårigheter. Han har uppmärksammats i bland annat EdSurge, Inc., PC Mag, Entrepreneur och Mashable.

speechify logo

Om Speechify

#1 text-till-tal-läsare

Speechify är världens ledande text-till-tal-plattform, betrodd av över 50 miljoner användare och med mer än 500 000 femstjärniga recensioner för sina text-till-tal-iOS-, Android-, Chrome-tillägg-, webbapp- och Mac desktop-appar. År 2025 tilldelade Apple Speechify det prestigefyllda Apple Design AwardWWDC och kallade det ”en avgörande resurs som hjälper människor leva sina liv”. Speechify erbjuder över 1 000 naturtrogna röster på 60+ språk och används i nästan 200 länder. Kändisröster inkluderar Snoop Dogg och Gwyneth Paltrow. För kreatörer och företag erbjuder Speechify Studio avancerade verktyg, inklusive AI Voice Generator, AI Voice Cloning, AI Dubbing och AI Voice Changer. Speechify driver även ledande produkter med sitt högkvalitativa och kostnadseffektiva text-till-tal-API. Med omnämnanden i The Wall Street Journal, CNBC, Forbes, TechCrunch och andra stora nyhetskanaler är Speechify världens största leverantör av text-till-tal. Besök speechify.com/news, speechify.com/blog och speechify.com/press för att läsa mer.