1. Inici
  2. API
  3. Tot el que has de saber sobre l'API de Google Cloud Text to Speech
Actualitzat el API

Tot el que has de saber sobre l'API de Google Cloud Text to Speech

Cliff Weitzman

Cliff Weitzman

CEO i fundador de Speechify

L'API de Speechify ofereix una latència de 300 ms, veus amb qualitat humana i més de 50 idiomes

apple logoPremi de Disseny Apple 2025
Més de 50 M d'usuaris

La IA generativa i la intel·ligència artificial han evolucionat molt. El text a veu és un concepte força antic, ja fa temps que existeix. Hi ha molt per explorar i categoritzar, i ho desglossaré per mirar-m'ho des de tots els angles. Tant si ets principiant com expert, això t'ajudarà a entendre millor l'API de Google Text to Speech.

Abans d'entrar en matèria, cal establir una base. Definim alguns termes i construïm uns bons fonaments.

Separem les dues tecnologies: text a veu i APIs, i quin paper hi juga Google Cloud.

Nota de l'editor: Busques la millor API de text a veu? Prova l'API de Speechify, ben documentada i fàcil d'utilitzar text to speech API.

Text a veu

He escrit extensament sobre aquest tema: pots llegir Què és el text a veu al meu blog i també consultar la síntesi de veu per entendre millor aquest àmbit. Són més detalls, però pots saltar-te'ls ara. Te'n faré un resum en poques frases.

El text a veu es basa en la tècnica de síntesi de veu per convertir paraules en veu generada per IA. Té molts usos: des d'ajudar persones amb dificultats de lectura, com dislèxia o baixa visió, fins a millorar l'eficiència.

API

API són les sigles d'Application Programming Interface. És un pont entre dues aplicacions. Si fas una app amb contingut d'àudio i necessites funció de text a veu, pots crear-la tu mateix o bé fer servir una API de text a veu ja feta.text to speech API.

Tu et centres a crear la teva app i fas servir una API de tercers com a pont per incloure-hi el text a veu.

API de Google Cloud

Aquí és on entra en joc Google Cloud. Google ha creat una API de text a veu potent i l'ofereix als desenvolupadors amb diverses tarifes. Qualsevol que vulgui fer apps personalitzades que necessiten text a veu ho pot fer amb les funcions de Google TTS. TTS són les sigles de text to speech.

Troba la guia ràpida a Google Cloud Console https://cloud.google.com/. Hi trobaràs tutorials, podràs gestionar el teu compte de servei, accedir a veus wavenet i molt més.

Google Cloud és una plataforma al núvol oferta per Google, amb molts serveis modulars. Pots fer-ne servir un, diversos o tots. Només cal crear claus d'accés per a l'autenticació de cada API. Gairebé tots els serveis tenen cost, tot i que sovint hi ha un cert ús gratuït.

Google va comprar DeepMind el 2014 per la seva tecnologia de text a veu i el seu treball en xarxes neuronals. Si trobes DeepMind, ara és Google DeepMind: tot és el mateix.

Ara que tenim una bona base, aprofundim en l'API de Google Cloud Text to Speech.

Funcions de l'API Google Text to Speech

Que Google és un líder tecnològic global és evident. A la TTS API hi trobaràs funcions de primer nivell que evolucionen constantment.

Veus d'alta fidelitat

Les veus de text a veu de Google són de les millors. Sonen molt naturals i amb entonació humana. El TTS tot just comença i qui millor recreï veus humanes, guanyarà la cursa.

Selecció de veus

Google té la selecció més gran de veus, així el teu projecte no ha de sonar com altres 1.000 o, pitjor, com l'app de la competència.

Crea la teva pròpia veu

Això s'acosta a la clonació de veu. Pots crear la teva veu personalitzada gravant-te tu o algú altre (amb permís). Aquesta mostra llegirà tot el teu text.

Veus neuronals

Les veus neuronals donen la millor qualitat de totes. També les pots internacionalitzar per arribar a més públic arreu del món.

Veus d'estudi

Les veus d'estudi són les més professionals i semblen enregistrades com una veu real d'estudi.

Ajust de veu

Tria una veu i ajusta la velocitat, el to i més paràmetres per personalitzar el resultat.

Quant costa la Google Text to Speech API?

Depèn de la qualitat de la veu i de la llargada del text. Com més natural vols la veu, més puja el preu. Tot i així, la gamma alta continua sent assequible en comparació amb altres serveis.

Tipus de veuGratuït al mesUn cop superat l'ús gratuït
Veus Neural20 a 1 milió de bytes16 $ per cada milió de bytes
Veus políglotes0 a 1 milió de bytes16 $ per cada milió de bytes
Veus d'estudi0 a 100.000 bytes160 $ per cada milió de bytes
Veus estàndard0 a 4 milions de caràcters4 $ per cada milió de caràcters
Veus Wavenet0 a 1 milió de caràcters16 $ per cada milió de caràcters

Quina és la diferència entre caràcters i bytes?

Com pots veure, els preus canvien segons la qualitat de veu. La codificació i el processament de l'àudio varien segons el tipus que triïs. Les veus estàndard, per exemple, es cobren per caràcters.

Si el teu projecte té 4 milions de caràcters, et costarà 16 $ convertir-los a veu amb veus estàndard.

Les veus d'estudi requereixen més potència de processament i es cobren per bytes. En idiomes com el japonès, un sol caràcter pot ocupar diversos bytes.

Per ajustar el preu exacte, cal saber l'idioma i quants bytes ocupa aproximadament cada caràcter.

Com configurar un projecte de Google Cloud Platform Text to Speech API?

  1. Crea un compte de Google Cloud o inicia sessió aquí
  2. Crea un nou projecte i posa-li un nom adequat
  3. Afegeix un mètode de pagament. Només et cobraran pel que facis servir.
  4. Tria el teu projecte i associa'l a un compte de pagament.
  5. Activa l'API de Text-to-Speech. Ves al cercador de productes de dalt i escriu "speech".
  6. Des dels resultats, escull l'API Cloud Text-to-Speech
  7. Configura l'autenticació per al teu entorn de desenvolupament. Trobaràs les instruccions a Configura l'autenticació per a Text-to-Speech.

També pots provar el Text-to-Speech sense vincular-lo al teu projecte:

  1. Tria l'opció PROVA AQUESTA API.
  2. Per activar l'API Text-to-Speech per al teu projecte, clica ACTIVA.

Consulta la Documentació de Google Cloud per a més ajuda.

Com desactivar l'API de Text to Speech

Per desactivar l'API, ves al teu tauler de Google Cloud Platform i fes clic a "Ves a vista general de les APIs" dins la caixa d'APIs. Busca la Text-to-Speech API i fes-hi clic, després prem "DESACTIVA API" a dalt de tot.

Comença amb Google Text to Speech API

Amb el projecte configurat ja pots començar des de la línia de comandes.

gcloud init

Crea l'autenticació local

gcloud auth application-default login

Ara pots instal·lar una llibreria client. En aquest exemple, fem servir Node.js

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API admet aquests llenguatges:

  1. Go
  2. Java
  3. Node.js
  4. C++
  5. C#
  6. PHP
  7. Python
  8. Ruby
  9. TypeScript
  10. Terraform
  11. YAML

Com funciona l'API de Google Cloud?

Comença amb una simple crida a l'API. Envies el teu text en una petició i reps un fitxer d'àudio amb el text llegit. Pots especificar veu, idioma i més; l'API text to speech te'l retorna en àudio.

Aprèn a instal·lar i fer servir les llibreries client de text a veu aquí. Els exemples són per Node.js, però també ho pots fer amb Python, PHP i altres.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

I ja està! Has configurat l'API Google Cloud Text to Speech i has enviat la teva primera petició. Pots recuperar el fitxer en diversos formats: d'OGG a MP3.

Algunes maneres d'utilitzar l'API Google Text to Speech

La Google Text to Speech (TTS) API és una solució versàtil amb molts usos en diferents sectors. Alguns exemples habituals són:

  1. Text a veu per a usuaris amb discapacitat visual: Implementar TTS a aplicacions per convertir text en veu i fer la informació digital accessible a persones amb discapacitat visual.
  2. Sistemes telefònics automatitzats: Crear respostes i indicacions amb TTS per a l'atenció al client i línies d'informació.
  3. Veus en off per a contingut multimèdia: Generar veus naturals per a vídeos, podcasts o altres continguts multimèdia.
  4. Text a veu per a textos traduïts: Convertir text traduït en veu per facilitar l'aprenentatge d'idiomes i el consum de contingut internacional.
  5. Ajuda a la lectura per a dislèxics: Oferir TTS per ajudar persones amb dislèxia o dificultats de lectura.
  6. Navegació per veu a apps: Integrar TTS en apps de navegació per donar indicacions sonores.
  7. Text a veu en educació: Potenciar l'aprenentatge convertint textos educatius en veu.
  8. Síntesi de veu per a apps de productivitat: Afegir TTS a eines com notes o gestió de tasques per oferir feedback parlat.
  9. Veu natural per a assistents virtuals: Fer els assistents de veu més naturals i conversacionals amb TTS.
  10. Alertes i notificacions sonores: Generar notificacions i avisos audibles a dispositius IoT amb TTS.

Millors alternatives a Google Cloud TTS API

A gener de 2022, hi ha diverses alternatives a l'API Google Text to Speech. Tingues en compte que els serveis i la seva popularitat poden haver canviat. Aquí tens algunes opcions destacades:

  1. Speechify Text to Speech API: Speechify Text to Speech API ofereix més de 1.000 veus d'IA emocionals i realistes en més de 60 idiomes i dialectes regionals. Reserva la teva plaça.
  2. Amazon Polly: D'AWS, Amazon Polly genera veu natural en molts idiomes i veus. S'integra molt bé amb AWS.
  3. Microsoft Azure Speech Service: Azure ofereix Text to Speech per a diferents aplicacions: assistents, navegadors i més.
  4. IBM Watson Text to Speech: IBM Watson permet convertir text escrit en veu natural amb diverses veus.
  5. Nuance Communications: Solucions de veu i reconeixement: text a veu, enfocades en salut, automoció i atenció al client.
  6. CereProc: Empresa de tecnologia text to speech amb veus sintètiques d'alta qualitat per a accessibilitat, entreteniment i comunicació.
  7. iSpeech: Servei TTS al núvol amb molts idiomes i veus; apte per a apps mòbils i webs.
  8. ResponsiveVoice: API TTS senzilla i econòmica per a múltiples idiomes, ideal per a webs.
  9. Neospeech: Solucions text a veu centrades en veus naturals per a e-learning i entreteniment.
  10. ReadSpeaker: Solucions TTS en línia i fora de línia per a webs, e-learning i accessibilitat.
  11. Acapelabox: Acapela Group ofereix un API text to speech al núvol amb idiomes i veus per a indústries diverses.

FAQ

Google ofereix diverses veus i gairebé cada tipus té un límit gratuït. Per exemple, les veus estàndard són gratis fins al primer milió de bytes. A partir d'aquí, són 16 $ per milió. Així que sí, és gratuïta fins a un cert límit.

Simplement crea un compte a https://cloud.google.com/text-to-speech/ i segueix els passos que hi indiquen. També he explicat el procés en detall en aquest blog, més amunt.

Pots obtenir la clau d'API iniciant sessió a Google Cloud i creant un projecte. Un cop creat, podràs generar-hi una clau d'API.

La URL de l'API Google Text to Speech és https://cloud.google.com/text-to-speech/

En realitat, no hi ha un període de prova gratuïta per a Google Cloud. Cada servei té condicions i límits gratuïts propis.

No. L'API Google Cloud Text to Speech requereix connexió a Internet.

Per accedir als serveis de Google Cloud, inclòs Text to Speech, pots utilitzar claus d'API, OAuth 2.0 o comptes de servei. La millor opció depèn de la teva aplicació.

Li donaria 5 estrelles. És molt fàcil d'usar, el cercador és molt bo i la faig servir sovint. El preu és just i, en general, és un gran producte.

Google Text to Speech API té llibreries per a molts llenguatges, inclòs Python. També admet peticions RESTful, així que pots utilitzar qualsevol llenguatge capaç de fer peticions HTTP.

Per integrar-ho a Android cal utilitzar la classe TextToSpeech i fer peticions a l'API. Trobaràs les instruccions a la documentació oficial d'Android.

Per implementar l'API en JavaScript només cal fer peticions HTTP a l'endpoint. Has de crear la petició necessària i gestionar la resposta dins del JS. Consulta la documentació oficial per a més detalls.

Accedeix ràpidament a les teves veus preferides de Speechify via API, escalable i fàcil per a desenvolupadors

Accedeix a l'API
api access banner

Comparteix aquest article

Cliff Weitzman

Cliff Weitzman

CEO i fundador de Speechify

Cliff Weitzman és un defensor de la dislèxia i el CEO i fundador de Speechify, l'app de text a veu número 1 al món, amb més de 100.000 ressenyes de 5 estrelles i líder del rànquing de l'App Store en Notícies i Revistes. El 2017, Weitzman va entrar a la llista Forbes 30 under 30 per la seva tasca fent internet més accessible per a persones amb dificultats d'aprenentatge. Cliff Weitzman ha aparegut a EdSurge, Inc., PC Mag, Entrepreneur, Mashable i altres mitjans destacats.

speechify logo

Sobre Speechify

El millor lector de text a veu

Speechify és la plataforma líder mundial de text a veu, de confiança per a més de 50 milions d'usuaris i avalada per més de 500.000 ressenyes de cinc estrelles a les seves aplicacions de text a veu per a iOS, Android, Extensió de Chrome, aplicació web i aplicació per a Mac. El 2025, Apple va premiar Speechify amb el prestigiós Premi de Disseny Apple a la WWDC, qualificant-lo com “una eina essencial que ajuda la gent a viure la seva vida.” Speechify ofereix més de 1.000 veus naturals en més de 60 idiomes i s'utilitza a gairebé 200 països. Entre les veus de celebritats hi trobem Snoop Dogg i Gwyneth Paltrow. Per a creadors i empreses, Speechify Studio proporciona eines avançades com Generador de veu IA, Clonació de veus IA, Doblatge IA i el seu Canviador de veu IA. Speechify també impulsa productes líders amb la seva API de text a veu, d'alta qualitat i amb una relació qualitat-preu òptima API de text a veu. Present en The Wall Street Journal, CNBC, Forbes, TechCrunch i altres mitjans destacats, Speechify és el proveïdor de text a veu més gran del món. Visiteu speechify.com/news, speechify.com/blog i speechify.com/press per saber-ne més.