1. Inici
  2. TTS
  3. Guia pràctica del text a veu de Google Cloud
Publicat el TTS

Guia pràctica del text a veu de Google Cloud

Cliff Weitzman

Cliff Weitzman

CEO i fundador de Speechify

apple logoPremi de Disseny Apple 2025
Més de 50 M d'usuaris

Google té milions d’usuaris i és una de les plataformes més populars actualment. Amb el teu compte també pots accedir al text a veu de Google Cloud, que et permet provar el seu generador de veu.

Què és el servei de text a veu de Google?

Speech Services és la plataforma de text a veu de Google. Està pensada per a Android i la pots fer servir al teu mòbil. Aquest lector de pantalla admet molts idiomes, és fàcil d'usar i ofereix alta qualitat.

Fer servir l'API de text a veu de Google és força fàcil, i pots explorar un munt de funcions. Pots ajustar la veu amb IA al teu gust i millorar l'accessibilitat del dispositiu.

Per què és útil?

El programari de text a veu millora l'accessibilitat de molts dispositius. L'objectiu és que tothom els pugui fer servir, encara que tingui dificultats amb la lectura. Aquestes apps poden ajudar amb diverses discapacitats com la TTS.

Inclou dislèxia i altres dificultats de lectura, baixa visió i més. També et fa el dia a dia més fàcil: ja no cal llegir-ho tot, ho escoltes i estalvies temps.

Característiques clau

Pel que fa a les funcions clau, el TTS de Google permet crear la teva pròpia veu. Pots utilitzar gravacions d'àudio per entrenar l'app, ideal per a qui vol una veu personalitzada.

L'app inclou més de 90 veus WaveNet d'alta qualitat, totes personalitzables als ajustos. També es pot afinar l'app amb etiquetes SSML per afegir pauses, formats de data i hora, números i més.

Veus i idiomes AI admesos

Un dels principals avantatges del text a veu de Google és que admet múltiples accents, veus i idiomes. Pots triar entre veus Bàsiques, Neurals i WaveNet.

Com que l'app té en compte la dinàmica i el ritme de cada idioma, pots jugar amb diferents accents i ajustos.

Aplicacions pràctiques

Hi ha moltes maneres d'utilitzar eines de text a veu. Encara que no tinguis dislèxia, és ideal per estalviar temps: pots escoltar textos mentre camines, i són perfectes per a l'e-learning, sobretot per a aprenents d'idiomes.

Les apps de text a veu són ideals per a narracions i veu en off. Si crees contingut, és una manera fàcil d'afegir àudios (mp3 o wav) als teus vídeos: només cal escriure el guió i l'app farà la resta.

Com s'utilitza el text a veu de Google?

Fer servir el TTS de Google és senzill. Si uses un mòbil Android, tens el lector de pantalla a l’opció d’accessibilitat. Si el fas servir al PC i utilitzes el text a veu al núvol, el procés és diferent.

El text a veu forma part de Google Cloud. Si el vols utilitzar t’has de crear un compte. Un cop el tinguis, pots transcriure el text o usar l’API i tindràs l’àudio de seguida.

Preus

Molts usuaris es pregunten pel preu de l'app TTS. Per començar, aquesta app ofereix versió gratuïta (un nombre de caràcters abans de pagar).

Hi ha diferents tarifes segons si fas servir veus Estàndard, WaveNet o Neural2. Qualsevol caràcter compta per a la subscripció, inclosa puntuació, etiquetes SSML i tot el que surti al quadre de text.

Ús de xarxes neuronals de Google per a síntesi multilingüe

L’API Text-to-Speech de Google Cloud aprofita la tecnologia neuronal més avançada per transformar text en veu natural. Aquesta eina admet molts idiomes i dialectes, creant aplicacions que poden parlar de manera fluida amb usuaris d’arreu del món. Ofereix una selecció variada de veus perquè els desenvolupadors adaptin l’experiència auditiva al seu projecte.

A més de la varietat de veus, l’API fa servir SSML, amb controls detallats per ajustar aspectes com el to, l’èmfasi o el ritme, fent que la veu sigui expressiva i dinàmica.

Domina la Google Cloud Console per gestionar l'API

Començar amb l’API Text-to-Speech passa per la Google Cloud Console: una interfície intuïtiva per gestionar APIs de manera eficient. Disposes d'un bon tauler per controlar serveis, credencials i costos.

Aquí pots iniciar projectes, activar el servei de text a veu i crear claus API. És el teu centre d’operacions, on veus analítiques i registres per optimitzar el rendiment i el cost de les apps.

Personalitza la veu amb els paràmetres versàtils d'AudioConfig

L’'AudioConfig' de l’API Text-to-Speech de Google Cloud et dóna control sobre com sona la veu. Pots ajustar la velocitat i el to per fer-la més ràpida o més aguda/greu.

L’'audioContent' és el resultat final i es pot exportar en formats com OGG, ideal per tenir bona qualitat sense ocupar massa espai.

La compatibilitat de l’API amb l’open source facilita integrar-la a tot tipus d’aplicacions. Paràmetres com 'languageCode' i 'ssmlGender' permeten crear veus adaptades a diferents idiomes i tons, connectant amb usuaris d’arreu.

Autentica i gestiona fàcilment l'API al núvol de Google

Integrar l’API de text a veu és més fàcil amb els SDKs de Google, que ajuden els desenvolupadors a aplicar la IA de Google. L’autenticació es gestiona amb un compte de servei que genera un fitxer JSON per a consultes segures a l’API.

Per als qui volen senzillesa, Google Cloud també permet enviar comandes a l’API des del terminal, amb la seva interfície de línia d’ordres.

Sigui per comanda directa o a través d’una app, l’API Text-to-Speech de Google Cloud destaca per la seva facilitat d’ús, seguretat i una experiència eficient per al desenvolupador.

Python i codificació d'àudio: veu adaptada a qualsevol app

Els programadors Python trobaran útils les llibreries de Google, que faciliten incorporar text a veu. La configuració es fa amb pocs passos i les crides a l'API són molt senzilles.

El paràmetre AudioEncoding de l'API admet formats com MP3 i Linear16. Tant si vols àudio d'alta qualitat per internet ràpid com fitxers petits per connexions lentes, l'API garanteix accessibilitat òptima a tots els dispositius i xarxes.

Speechify

Si busques una opció més senzilla, Speechify és de les millors apps de text a veu que pots trobar. Funciona a qualsevol dispositiu (Android, iOS, Windows, Mac) i la interfície intuïtiva fa innecessaris els tutorials. Fins i tot principiants el poden fer servir.

L'app funciona amb tot tipus de fitxers: PDFs, txt, Word, Google Docs i textos online via l'extensió de Chrome. L'app també pot convertir textos físics a veu.

Crear el compte et permet sincronitzar tots els dispositius amb Speechify i compartir fitxers per Google Cloud, Dropbox o iCloud. L’app també llegeix fitxers Audible, perfecte per a biblioteques digitals.

Amb veu natural, moltes opcions de personalització, variants de veu i funcions per descobrir, és fàcil veure per què Speechify és una de les eines TTS més populars avui dia.

Preguntes freqüents

Què és el text a veu de Google i ho necessito?

El text a veu de Google crea veus i és ideal per millorar l'accessibilitat dels dispositius. També permet als creadors afegir narració als seus vídeos i facilita l'aprenentatge en línia.

Altres proveïdors de TTS coneguts són Microsoft Azure, Amazon Polly, Speechify i molts més.

Quins avantatges té el text a veu de Google Cloud?

La senzillesa de l'app i els seus avantatges permeten als usuaris estalviar molt de temps. Ja no cal llegir tot: només escolta el contingut amb auriculars.

Es pot usar el text a veu de Google per reconèixer veu?

No. Les apps de text a veu generen veu en temps real a partir de transcripcions, gràcies a la IA, el machine learning i algoritmes complexos.

Si busques eines de reconeixement de veu, el que et convé és el reconeixement de veu 'speech-to-text'.

Gaudeix de les veus amb IA més avançades, arxius il·limitats i suport 24/7

Prova-ho gratis
tts banner for blog

Comparteix aquest article

Cliff Weitzman

Cliff Weitzman

CEO i fundador de Speechify

Cliff Weitzman és un defensor de la dislèxia i el CEO i fundador de Speechify, l'app de text a veu número 1 al món, amb més de 100.000 ressenyes de 5 estrelles i líder del rànquing de l'App Store en Notícies i Revistes. El 2017, Weitzman va entrar a la llista Forbes 30 under 30 per la seva tasca fent internet més accessible per a persones amb dificultats d'aprenentatge. Cliff Weitzman ha aparegut a EdSurge, Inc., PC Mag, Entrepreneur, Mashable i altres mitjans destacats.

speechify logo

Sobre Speechify

El millor lector de text a veu

Speechify és la plataforma líder mundial de text a veu, de confiança per a més de 50 milions d'usuaris i avalada per més de 500.000 ressenyes de cinc estrelles a les seves aplicacions de text a veu per a iOS, Android, Extensió de Chrome, aplicació web i aplicació per a Mac. El 2025, Apple va premiar Speechify amb el prestigiós Premi de Disseny Apple a la WWDC, qualificant-lo com “una eina essencial que ajuda la gent a viure la seva vida.” Speechify ofereix més de 1.000 veus naturals en més de 60 idiomes i s'utilitza a gairebé 200 països. Entre les veus de celebritats hi trobem Snoop Dogg i Gwyneth Paltrow. Per a creadors i empreses, Speechify Studio proporciona eines avançades com Generador de veu IA, Clonació de veus IA, Doblatge IA i el seu Canviador de veu IA. Speechify també impulsa productes líders amb la seva API de text a veu, d'alta qualitat i amb una relació qualitat-preu òptima API de text a veu. Present en The Wall Street Journal, CNBC, Forbes, TechCrunch i altres mitjans destacats, Speechify és el proveïdor de text a veu més gran del món. Visiteu speechify.com/news, speechify.com/blog i speechify.com/press per saber-ne més.