1. Inici
  2. TTS
  3. Google text-to-speech (gTTS): transforma text en veu
Publicat el TTS

Google text-to-speech (gTTS): transforma text en veu

Cliff Weitzman

Cliff Weitzman

CEO i fundador de Speechify

apple logoPremi de Disseny Apple 2025
Més de 50 M d'usuaris

T'has preguntat mai com el teu dispositiu llegeix el text amb tanta facilitat? 

La màgia que hi ha al darrere és una tecnologia anomenada Google Text-to-Speech (gTTS), una eina destacada que ha canviat la manera d'interactuar amb el contingut digital.

Endinsem-nos en el món de gTTS i com fa que la informació sigui més accessible i atractiva per a tothom.

Què és Google text-to-speech?

Google Text-to-Speech, també conegut com gTTS, és una eina especial de Google. Converteix paraules escrites en veu i fa més fàcil escoltar el que hi ha a la pantalla.

Això és molt útil per a persones amb dificultats visuals o per a qui aprèn un nou idioma. El gTTS és clar, senzill i compatible amb altres programes, per això molts el fan servir.

Forma part de la llibreria Python, una col·lecció d'eines per a programadors. El gTTS és ideal per llegir llibres en veu alta o donar ordres de veu i és molt pràctic en l'entorn digital.

Com funciona

gTTS és com un robot intel·ligent que sap transformar text en veu. Quan li dónes text, no es limita a pronunciar-lo i prou.

Primer analitza el text i el divideix en parts petites. Això ajuda que gTTS el llegeixi de manera natural i correcta.

Utilitza regles especials, semblants a les de l'API Google Translate Text-to-Speech, perquè la veu soni humana.

gTTS revisa cada part del text per decidir com ha de sonar. El resultat final és una veu clara i fàcil d'entendre.

Varietats de veu i idiomes

Una de les millors coses de gTTS és que parla molts idiomes i veus diferents, no només anglès. També el pots fer servir en francès, espanyol i molts més idiomes.

Això és molt útil per a creadors d'aplicacions o webs amb usuaris d'arreu. Es poden triar accents i veus diferents, fent-ho més divertit i personal.

Aquesta funció és especialment útil a les escoles, on tenir idiomes diversos ajuda els estudiants a aprendre millor. 

Amb gTTS pots canviar idiomes i accents fàcilment, i posar nom als arxius d'àudio per organitzar-los.

Tot això fa que gTTS sigui una eina ideal per apropar persones, sigui quin sigui el seu idioma.

Aplicacions pràctiques de Google text-to-speech

Google Text-to-Speech s'utilitza de moltes maneres. A les escoles, llegeix textos en veu alta i fa l'aprenentatge més amè i interactiu. És molt bo per als alumnes que aprenen escoltant.

Els professors poden crear àudios de les lliçons escrites, molt útils per a idiomes, així els alumnes escolten la pronunciació correcta de les paraules noves. 

Aquesta eina admet molts idiomes (gràcies a tts_langs), ideal per aprendre llengües noves.

Per a persones amb discapacitat, gTTS és més que útil; és una gran ajuda. Llegeix llibres, correus o notificacions a qui té dificultats visuals o de lectura. Això els facilita accedir a la informació i mantenir-se connectats.

Les empreses fan servir gTTS per oferir una millor atenció: pot parlar amb clients i donar informació de manera ràpida i clara. 

És especialment útil en sistemes automàtics on el client necessita orientació entre opcions i menús.

Els desenvolupadors, que creen apps i webs, també fan servir gTTS. Així permeten als usuaris escoltar el contingut en comptes de llegir-lo, ideal per a articles llargs o per a gent que prefereix escoltar mentre fa altres coses.

Accessibilitat i experiència d'usuari

gTTS és popular perquè és fàcil de fer servir i ajuda molta gent. Fa webs, apps i continguts digitals més accessibles, sobretot a qui li costa llegir. 

Llegeix en veu alta de manera clara i natural, facilitant l'accés a la informació.

Als desenvolupadors els resulta senzill afegir gTTS als seus projectes. Fan servir ordres com import os i os.system en Python, un llenguatge de programació, per utilitzar gTTS en diferents dispositius i sistemes. Aquesta flexibilitat fa que tothom pugui fer servir gTTS.

La funció stdout de gTTS és molt útil als desenvolupadors per comprovar com sona el text-to-speech abans d'acabar el projecte.

El tokenizer de gTTS desglossa el text perquè la veu soni natural, com si parlés una persona.

gTTS és lliure d'utilitzar i modificar, gràcies a la llicència MIT. Es pot personalitzar, triar idiomes amb tts_langs i canviar el nom de l'arxiu d'àudio. Aquesta flexibilitat agrada molt.

En resum, gTTS és una gran eina per fer que la informació sigui accessible a tothom. És fàcil d'usar i apte per a qualsevol contingut digital.

Sigui per ajudar alumnes, facilitar el dia a dia de persones amb discapacitat, millorar l'atenció al client o fer apps i webs més accessibles, gTTS posa el contingut digital a l'abast de tothom.

Configuració i ús de Google text-to-speech

Començar amb gTTS és fàcil. Si t'interessa programar en Python, la llibreria gTTS és un bon recurs. Es pot instal·lar fàcilment des de la línia d'ordres a Linux o Windows.

Per exemple, fent servir import gTTS al teu script en Python podràs accedir a les funcions de gTTS. Després ja podràs crear un arxiu d'àudio, normalment mp3, amb el text que vulguis.

El procés fa servir ordres senzilles com tts.save("hello.mp3"), que desa el resultat com un arxiu d'àudio anomenat 'hello.mp3'.

Per als desenvolupadors, plataformes com GitHub ofereixen recursos i tutorials sobre gTTS. El gTTS-cli, una utilitat de línia d'ordres, és molt útil per convertir ràpidament text en veu.

A més, la documentació a plataformes com readthedocs ofereix guies completes sobre l'ús de gTTS, com fer servir idiomes, pre-processadors i tractar abreviatures.

El futur d'aquesta tecnologia

El futur de gTTS és esperançador, amb millores i novetats constants. 

Desenvolupadors com pndurette hi treballen constantment per millorar-lo, assegurant que segueixi sent una de les millors opcions per a text a veu.

Veurem funcions més avançades, millor processament del llenguatge i veus encara més naturals a mesura que avanci la tecnologia.

gTTS ha transformat la manera com interactuem amb el text, fent-lo audible i més accessible. 

Tant si ets programador, estudiant o només tens curiositat per la tecnologia text-to-speech, gTTS t'ofereix una solució eficient i fiable.

La seva facilitat d'ús i prestacions el converteixen en una eina clau en un món cada cop més digital.

Descobreix la versatilitat de Speechify Text to Speech

Si explores el món de la lectura en veu alta, una altra bona opció és Speechify Text to Speech

Aquesta eina versàtil destaca en moltes plataformes, com iOS, Android i PC, oferint una experiència fluida a tots els dispositius.

Com que admet molts idiomes, Speechify facilita transformar text en veu en el teu idioma preferit, ja sigui per feina, estudis o oci.

La seva interfície intuïtiva i la qualitat de veu el fan destacar. Estalvia temps i també millora l'experiència d'usar text-to-speech. 

Prova Speechify Text to Speech i comprova com pot canviar la teva manera de llegir!

Preguntes freqüents

Puc personalitzar el nom de l'arxiu d'àudio amb gTTS?

Sí, pots personalitzar el nom de l'arxiu d'àudio a gTTS. Amb la funció tts.save() del teu script Python, pots posar el nom que vulguis.

Per exemple, tts.save("custom_name.mp3") desa el teu text a veu com 'custom_name.mp3'. Això et permet organitzar i trobar els teus arxius fàcilment.

Com saber si gTTS admet un idioma o dialecte?

Per saber si gTTS admet un idioma o dialecte, utilitza la funció tts_langs() de la llibreria gTTS. 

Aquesta funció retorna un diccionari: les claus són codis d'idioma i els valors, els noms dels idiomes.

Mira el diccionari per saber si el teu idioma hi és. Si hi surt, retorna True: suportat. Si no, False: no suportat actualment.

GTTs pot llegir text amb afirmacions certes i falses per igual?

Sí, gTTS pot llegir text amb afirmacions certes i falses. La seva tecnologia converteix text en veu independentment de si és veritat o no.

Tracta tot el text de manera neutral i transmet fidelment el que li passes, tant si és cert, fals o inventat.

Gaudeix de les veus amb IA més avançades, arxius il·limitats i suport 24/7

Prova-ho gratis
tts banner for blog

Comparteix aquest article

Cliff Weitzman

Cliff Weitzman

CEO i fundador de Speechify

Cliff Weitzman és un defensor de la dislèxia i el CEO i fundador de Speechify, l'app de text a veu número 1 al món, amb més de 100.000 ressenyes de 5 estrelles i líder del rànquing de l'App Store en Notícies i Revistes. El 2017, Weitzman va entrar a la llista Forbes 30 under 30 per la seva tasca fent internet més accessible per a persones amb dificultats d'aprenentatge. Cliff Weitzman ha aparegut a EdSurge, Inc., PC Mag, Entrepreneur, Mashable i altres mitjans destacats.

speechify logo

Sobre Speechify

El millor lector de text a veu

Speechify és la plataforma líder mundial de text a veu, de confiança per a més de 50 milions d'usuaris i avalada per més de 500.000 ressenyes de cinc estrelles a les seves aplicacions de text a veu per a iOS, Android, Extensió de Chrome, aplicació web i aplicació per a Mac. El 2025, Apple va premiar Speechify amb el prestigiós Premi de Disseny Apple a la WWDC, qualificant-lo com “una eina essencial que ajuda la gent a viure la seva vida.” Speechify ofereix més de 1.000 veus naturals en més de 60 idiomes i s'utilitza a gairebé 200 països. Entre les veus de celebritats hi trobem Snoop Dogg i Gwyneth Paltrow. Per a creadors i empreses, Speechify Studio proporciona eines avançades com Generador de veu IA, Clonació de veus IA, Doblatge IA i el seu Canviador de veu IA. Speechify també impulsa productes líders amb la seva API de text a veu, d'alta qualitat i amb una relació qualitat-preu òptima API de text a veu. Present en The Wall Street Journal, CNBC, Forbes, TechCrunch i altres mitjans destacats, Speechify és el proveïdor de text a veu més gran del món. Visiteu speechify.com/news, speechify.com/blog i speechify.com/press per saber-ne més.