API de Google Text-to-Speech: veus, preus i alternatives (2026)

L'API Cloud Text-to-Speech de Google converteix text en àudio mitjançant una petició HTTP, amb preus de veu que van de 4 $ per milió de caràcters (Standard i WaveNet) fins a 16 $ (Neural2) i 30 $ (Chirp 3 HD). Ofereix més de 380 veus en més de 75 idiomes i compatibilitat amb streaming. Si busques més qualitat de veu a un preu més baix, SpeechifyAI ocupa el núm. 1 al rànquing TTS d'Artificial Analysis per només 6-10 $ per milió.

Què fa l'API de Google Text-to-Speech

Google Cloud Text-to-Speech és una API de síntesi de veu: hi envies text (o SSML), una veu i la configuració d'àudio, i et retorna un flux o un arxiu d'àudio. S'integra amb Google Cloud i fa servir el mateix IAM, la mateixa facturació i les mateixes llibreries de client que la resta de la plataforma. Els desenvolupadors la fan servir per a IVR, accessibilitat, narració de continguts o qualsevol producte basat en Google Cloud.

Nivells de veu i preus de Google TTS el 2026

Google fixa el preu segons el tipus de veu, per milió de caràcters. Els nivells superiors sonen més naturals i costen més:

Nivell de veu	Preu per 1 M de caràcters	Franja gratuïta (mensual)	Notes
Standard	4 $	4 M de caràcters	Bàsic, amb so robòtic
WaveNet	4 $	4 M de caràcters	Neuronal, amb bona qualitat general
Neural2	16 $	1 M de caràcters	Neuronal de més qualitat
Chirp 3: HD	30 $	1 M de caràcters	Veus més recents d'alta definició
Studio	160 $	1 M de caràcters	Narració prèmium de llarga durada

La facturació és de pagament per ús un cop superat el tram gratuït. L'assignació gratuïta és generosa per fer proves, però es reinicia cada mes; ajusta el projecte segons el volum real i no segons el període de prova.

Com cridar l'API de Google TTS

Crea un projecte a Google Cloud i activa l'API de Text-to-Speech.
Autentica't amb una clau de compte de servei o amb Application Default Credentials.
Fes una crida a
texttospeech.googleapis.com/v1/text:synthesize
via REST o gRPC, o fes servir les llibreries oficials de client per a Python, Node, Java o Go.
Envia
input
(text o SSML), una
voice
(codi d'idioma i nom) i un
audioConfig
(codificació, velocitat i to). Rebràs l'àudio en base64.

La configuració és la típica de GCP: còmoda si ja treballes amb Google Cloud, més feixuga si no.

Quan cal considerar una alternativa

Google TTS és una opció sòlida i amb un gran suport, especialment a GCP. Però hi ha dos motius pels quals alguns equips busquen alternatives:

Qualitat de veu en relació amb el cost.
Els nivells amb millor so (Chirp 3 HD a 30 $, Studio a 160 $) són cars, i els oients independents encara situen altres models per davant. Segons el
rànquing TTS d'Artificial Analysis
(juliol de 2026), Simba 3.2 de SpeechifyAI ocupa el núm. 1 i supera Google DeepMind.
Agents de veu en temps real.
Si vols un
agent de veu
interactiu, també necessites reconeixement de veu i un LLM. Connectar-ho tot a Google TTS implica més facturació i més latència entre tres serveis diferents.

SpeechifyAI com a alternativa a Google TTS

Més qualitat segons avaluacions independents.
Simba 3.2
ocupa el núm. 1 al rànquing TTS d'Artificial Analysis (juliol de 2026) i comparteix el segon lloc a Voice Arena, per davant de Google DeepMind, ElevenLabs i OpenAI.
Preu més baix per a aquesta qualitat.
6 $ per milió de caràcters, per sota dels nivells Neural2 (16 $) i Chirp 3 HD (30 $) de Google, amb una puntuació millor.
~300 ms de latència, més de 30 idiomes i 1.500 veus
, amb streaming real per a aplicacions en temps real.
Agents de veu integrats.
Si et cal reconeixement de veu, LLM i TTS en un sol lloc, SpeechifyAI t'ho ofereix tot en una API per 0,068-0,075 $ el minut, sense facturació addicional per servei.

SpeechifyAI és la plataforma per a desenvolupadors de Speechify, diferent de l'app per a consumidors.

Comença ara

Compara-ho amb Google fàcilment: obtén una clau d'API gratuïta de SpeechifyAI a speechify.ai (50.000 caràcters mensuals) i instal·la l'SDK amb pip install speechify-api o npm install @speechify/api.

Speechify és la plataforma líder mundial de text a veu, de confiança per a més de 50 milions d'usuaris i avalada per més de 500.000 ressenyes de cinc estrelles a les seves aplicacions de text a veu per a iOS, Android, Extensió de Chrome, aplicació web i aplicació per a Mac. El 2025, Apple va premiar Speechify amb el prestigiós Premi de Disseny Apple a la WWDC, qualificant-lo com “una eina essencial que ajuda la gent a viure la seva vida.” Speechify ofereix més de 1.000 veus naturals en més de 60 idiomes i s'utilitza a gairebé 200 països. Entre les veus de celebritats hi trobem Snoop Dogg i Gwyneth Paltrow. Per a creadors i empreses, Speechify Studio proporciona eines avançades com Generador de veu IA, Clonació de veus IA, Doblatge IA i el seu Canviador de veu IA. Speechify també impulsa productes líders amb la seva API de text a veu, d'alta qualitat i amb una relació qualitat-preu òptima API de text a veu. Present en The Wall Street Journal, CNBC, Forbes, TechCrunch i altres mitjans destacats, Speechify és el proveïdor de text a veu més gran del món. Visiteu speechify.com/news, speechify.com/blog i speechify.com/press per saber-ne més.

Tot el que cal saber sobre l'API de Google Cloud Text-to-Speech

Cliff Weitzman

L'API de Speechify ofereix una latència de 300 ms, veus amb qualitat humana i més de 50 idiomes

Què fa l'API de Google Text-to-Speech

Nivells de veu i preus de Google TTS el 2026

Com cridar l'API de Google TTS

Quan cal considerar una alternativa

SpeechifyAI com a alternativa a Google TTS

Comença ara

Comparteix aquest article

Cliff Weitzman

Sobre Speechify

Articles recomanats

Articles recents

WE'RE NUMBER ONE

La millor API de text a veu per qualitat i preu

Per què Speechify crea els seus propis models de veu en lloc d’utilitzar APIs de tercers