La IA generativa i la intel·ligència artificial han evolucionat molt. El text a veu és un concepte força antic, ja fa temps que existeix. Hi ha molt per explorar i categoritzar, i ho desglossaré per mirar-m'ho des de tots els angles. Tant si ets principiant com expert, això t'ajudarà a entendre millor l'API de Google Text to Speech.
Abans d'entrar en matèria, cal establir una base. Definim alguns termes i construïm uns bons fonaments.
Separem les dues tecnologies: text a veu i APIs, i quin paper hi juga Google Cloud.
Nota de l'editor: Busques la millor API de text a veu? Prova l'API de Speechify, ben documentada i fàcil d'utilitzar text to speech API.
Text a veu
He escrit extensament sobre aquest tema: pots llegir Què és el text a veu al meu blog i també consultar la síntesi de veu per entendre millor aquest àmbit. Són més detalls, però pots saltar-te'ls ara. Te'n faré un resum en poques frases.
El text a veu es basa en la tècnica de síntesi de veu per convertir paraules en veu generada per IA. Té molts usos: des d'ajudar persones amb dificultats de lectura, com dislèxia o baixa visió, fins a millorar l'eficiència.
API
API són les sigles d'Application Programming Interface. És un pont entre dues aplicacions. Si fas una app amb contingut d'àudio i necessites funció de text a veu, pots crear-la tu mateix o bé fer servir una API de text a veu ja feta.text to speech API.
Tu et centres a crear la teva app i fas servir una API de tercers com a pont per incloure-hi el text a veu.
API de Google Cloud
Aquí és on entra en joc Google Cloud. Google ha creat una API de text a veu potent i l'ofereix als desenvolupadors amb diverses tarifes. Qualsevol que vulgui fer apps personalitzades que necessiten text a veu ho pot fer amb les funcions de Google TTS. TTS són les sigles de text to speech.
Troba la guia ràpida a Google Cloud Console https://cloud.google.com/. Hi trobaràs tutorials, podràs gestionar el teu compte de servei, accedir a veus wavenet i molt més.
Google Cloud és una plataforma al núvol oferta per Google, amb molts serveis modulars. Pots fer-ne servir un, diversos o tots. Només cal crear claus d'accés per a l'autenticació de cada API. Gairebé tots els serveis tenen cost, tot i que sovint hi ha un cert ús gratuït.
Google va comprar DeepMind el 2014 per la seva tecnologia de text a veu i el seu treball en xarxes neuronals. Si trobes DeepMind, ara és Google DeepMind: tot és el mateix.
Ara que tenim una bona base, aprofundim en l'API de Google Cloud Text to Speech.
Funcions de l'API Google Text to Speech
Que Google és un líder tecnològic global és evident. A la TTS API hi trobaràs funcions de primer nivell que evolucionen constantment.
Veus d'alta fidelitat
Les veus de text a veu de Google són de les millors. Sonen molt naturals i amb entonació humana. El TTS tot just comença i qui millor recreï veus humanes, guanyarà la cursa.
Selecció de veus
Google té la selecció més gran de veus, així el teu projecte no ha de sonar com altres 1.000 o, pitjor, com l'app de la competència.
Crea la teva pròpia veu
Això s'acosta a la clonació de veu. Pots crear la teva veu personalitzada gravant-te tu o algú altre (amb permís). Aquesta mostra llegirà tot el teu text.
Veus neuronals
Les veus neuronals donen la millor qualitat de totes. També les pots internacionalitzar per arribar a més públic arreu del món.
Veus d'estudi
Les veus d'estudi són les més professionals i semblen enregistrades com una veu real d'estudi.
Ajust de veu
Tria una veu i ajusta la velocitat, el to i més paràmetres per personalitzar el resultat.
Quant costa la Google Text to Speech API?
Depèn de la qualitat de la veu i de la llargada del text. Com més natural vols la veu, més puja el preu. Tot i així, la gamma alta continua sent assequible en comparació amb altres serveis.
| Tipus de veu | Gratuït al mes | Un cop superat l'ús gratuït |
| Veus Neural2 | 0 a 1 milió de bytes | 16 $ per cada milió de bytes |
| Veus políglotes | 0 a 1 milió de bytes | 16 $ per cada milió de bytes |
| Veus d'estudi | 0 a 100.000 bytes | 160 $ per cada milió de bytes |
| Veus estàndard | 0 a 4 milions de caràcters | 4 $ per cada milió de caràcters |
| Veus Wavenet | 0 a 1 milió de caràcters | 16 $ per cada milió de caràcters |
Quina és la diferència entre caràcters i bytes?
Com pots veure, els preus canvien segons la qualitat de veu. La codificació i el processament de l'àudio varien segons el tipus que triïs. Les veus estàndard, per exemple, es cobren per caràcters.
Si el teu projecte té 4 milions de caràcters, et costarà 16 $ convertir-los a veu amb veus estàndard.
Les veus d'estudi requereixen més potència de processament i es cobren per bytes. En idiomes com el japonès, un sol caràcter pot ocupar diversos bytes.
Per ajustar el preu exacte, cal saber l'idioma i quants bytes ocupa aproximadament cada caràcter.
Com configurar un projecte de Google Cloud Platform Text to Speech API?
- Crea un compte de Google Cloud o inicia sessió aquí
- Crea un nou projecte i posa-li un nom adequat
- Afegeix un mètode de pagament. Només et cobraran pel que facis servir.
- Tria el teu projecte i associa'l a un compte de pagament.
- Activa l'API de Text-to-Speech. Ves al cercador de productes de dalt i escriu "speech".
- Des dels resultats, escull l'API Cloud Text-to-Speech
- Configura l'autenticació per al teu entorn de desenvolupament. Trobaràs les instruccions a Configura l'autenticació per a Text-to-Speech.
També pots provar el Text-to-Speech sense vincular-lo al teu projecte:
- Tria l'opció PROVA AQUESTA API.
- Per activar l'API Text-to-Speech per al teu projecte, clica ACTIVA.
Consulta la Documentació de Google Cloud per a més ajuda.
Com desactivar l'API de Text to Speech
Per desactivar l'API, ves al teu tauler de Google Cloud Platform i fes clic a "Ves a vista general de les APIs" dins la caixa d'APIs. Busca la Text-to-Speech API i fes-hi clic, després prem "DESACTIVA API" a dalt de tot.
Comença amb Google Text to Speech API
Amb el projecte configurat ja pots començar des de la línia de comandes.
gcloud initCrea l'autenticació local
gcloud auth application-default loginAra pots instal·lar una llibreria client. En aquest exemple, fem servir Node.js
npm install --save @google-cloud/text-to-speechGoogle Cloud Text to Speech API admet aquests llenguatges:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Com funciona l'API de Google Cloud?
Comença amb una simple crida a l'API. Envies el teu text en una petició i reps un fitxer d'àudio amb el text llegit. Pots especificar veu, idioma i més; l'API text to speech te'l retorna en àudio.
Aprèn a instal·lar i fer servir les llibreries client de text a veu aquí. Els exemples són per Node.js, però també ho pots fer amb Python, PHP i altres.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);I ja està! Has configurat l'API Google Cloud Text to Speech i has enviat la teva primera petició. Pots recuperar el fitxer en diversos formats: d'OGG a MP3.
Algunes maneres d'utilitzar l'API Google Text to Speech
La Google Text to Speech (TTS) API és una solució versàtil amb molts usos en diferents sectors. Alguns exemples habituals són:
- Text a veu per a usuaris amb discapacitat visual: Implementar TTS a aplicacions per convertir text en veu i fer la informació digital accessible a persones amb discapacitat visual.
- Sistemes telefònics automatitzats: Crear respostes i indicacions amb TTS per a l'atenció al client i línies d'informació.
- Veus en off per a contingut multimèdia: Generar veus naturals per a vídeos, podcasts o altres continguts multimèdia.
- Text a veu per a textos traduïts: Convertir text traduït en veu per facilitar l'aprenentatge d'idiomes i el consum de contingut internacional.
- Ajuda a la lectura per a dislèxics: Oferir TTS per ajudar persones amb dislèxia o dificultats de lectura.
- Navegació per veu a apps: Integrar TTS en apps de navegació per donar indicacions sonores.
- Text a veu en educació: Potenciar l'aprenentatge convertint textos educatius en veu.
- Síntesi de veu per a apps de productivitat: Afegir TTS a eines com notes o gestió de tasques per oferir feedback parlat.
- Veu natural per a assistents virtuals: Fer els assistents de veu més naturals i conversacionals amb TTS.
- Alertes i notificacions sonores: Generar notificacions i avisos audibles a dispositius IoT amb TTS.
Millors alternatives a Google Cloud TTS API
A gener de 2022, hi ha diverses alternatives a l'API Google Text to Speech. Tingues en compte que els serveis i la seva popularitat poden haver canviat. Aquí tens algunes opcions destacades:
- Speechify Text to Speech API: Speechify Text to Speech API ofereix més de 1.000 veus d'IA emocionals i realistes en més de 60 idiomes i dialectes regionals. Reserva la teva plaça.
- Amazon Polly: D'AWS, Amazon Polly genera veu natural en molts idiomes i veus. S'integra molt bé amb AWS.
- Microsoft Azure Speech Service: Azure ofereix Text to Speech per a diferents aplicacions: assistents, navegadors i més.
- IBM Watson Text to Speech: IBM Watson permet convertir text escrit en veu natural amb diverses veus.
- Nuance Communications: Solucions de veu i reconeixement: text a veu, enfocades en salut, automoció i atenció al client.
- CereProc: Empresa de tecnologia text to speech amb veus sintètiques d'alta qualitat per a accessibilitat, entreteniment i comunicació.
- iSpeech: Servei TTS al núvol amb molts idiomes i veus; apte per a apps mòbils i webs.
- ResponsiveVoice: API TTS senzilla i econòmica per a múltiples idiomes, ideal per a webs.
- Neospeech: Solucions text a veu centrades en veus naturals per a e-learning i entreteniment.
- ReadSpeaker: Solucions TTS en línia i fora de línia per a webs, e-learning i accessibilitat.
- Acapelabox: Acapela Group ofereix un API text to speech al núvol amb idiomes i veus per a indústries diverses.
FAQ
Google ofereix diverses veus i gairebé cada tipus té un límit gratuït. Per exemple, les veus estàndard són gratis fins al primer milió de bytes. A partir d'aquí, són 16 $ per milió. Així que sí, és gratuïta fins a un cert límit.
Simplement crea un compte a https://cloud.google.com/text-to-speech/ i segueix els passos que hi indiquen. També he explicat el procés en detall en aquest blog, més amunt.
Pots obtenir la clau d'API iniciant sessió a Google Cloud i creant un projecte. Un cop creat, podràs generar-hi una clau d'API.
La URL de l'API Google Text to Speech és https://cloud.google.com/text-to-speech/
En realitat, no hi ha un període de prova gratuïta per a Google Cloud. Cada servei té condicions i límits gratuïts propis.
No. L'API Google Cloud Text to Speech requereix connexió a Internet.
Per accedir als serveis de Google Cloud, inclòs Text to Speech, pots utilitzar claus d'API, OAuth 2.0 o comptes de servei. La millor opció depèn de la teva aplicació.
Li donaria 5 estrelles. És molt fàcil d'usar, el cercador és molt bo i la faig servir sovint. El preu és just i, en general, és un gran producte.
Google Text to Speech API té llibreries per a molts llenguatges, inclòs Python. També admet peticions RESTful, així que pots utilitzar qualsevol llenguatge capaç de fer peticions HTTP.
Per integrar-ho a Android cal utilitzar la classe TextToSpeech i fer peticions a l'API. Trobaràs les instruccions a la documentació oficial d'Android.
Per implementar l'API en JavaScript només cal fer peticions HTTP a l'endpoint. Has de crear la petició necessària i gestionar la resposta dins del JS. Consulta la documentació oficial per a més detalls.

