Què és Google WaveNet

Molta gent fa servir serveis de text a veu cada dia, igual que els assistents virtuals. Però potser no saben que tots dos comparteixen moltes característiques de funcionament. A mesura que la tecnologia millora, també ho fa la qualitat de les aplicacions que utilitzem diàriament.

Passa el mateix amb les aplicacions TTS i els assistents virtuals. Hi ha unes quantes empreses amb resultats excepcionals en aquest camp i una d’elles és Google, amb la seva tecnologia WaveNet.

Què és Google WaveNet?

WaveNet és una xarxa neural artificial dissenyada per generar àudio cru. L’equip que hi ha al darrere és DeepMind, una empresa de Londres centrada en la intel·ligència artificial. La introducció d’aquesta tecnologia va suposar un gran canvi per a la plataforma Google Cloud i ho va portar tot a un altre nivell.

Un dels principals avantatges que aporta DeepMind de Google, respecte als sistemes TTS anteriors, és que sona molt millor. Quan es va presentar el 2016, els sistemes TTS no creaven veus naturals.

La síntesi de veu de WaveNet els va superar en tots els aspectes. La idea darrere d’aquesta tecnologia és senzilla. El programari pot utilitzar fitxers d’àudio com WAV com a entrada i aprofita la connexió amb l’API de Google i una clau API.

Avui tenim moltes maneres de fer servir aquesta tecnologia gràcies a la capacitat d’aprofitar aquests algoritmes complexos. Moltes empreses d’arreu del món competeixen per oferir el millor producte. Això és positiu perquè, per als usuaris finals, vol dir més opcions i que sigui més fàcil trobar el programa ideal.

Com funciona WaveNet

WaveNet és una versió de xarxa neural FNN o feedforward, coneguda també com a xarxa neural convolucional profunda. La CNN pot agafar un senyal cru com a entrada i sintetitza la sortida mostra a mostra.

La base de tot és l’aprenentatge automàtic, el processament del llenguatge natural, l’aprenentatge profund i la intel·ligència artificial. Les apps TTS anteriors intentaven crear una base de dades de fonemes, i l’app escollia el que més s’hi assemblava.

Crear aquest tipus de trencaclosques no és fàcil. El programari ha d’entendre com funciona la llengua, el seu ritme i la seva dinàmica; si no, els sons semblarien artificials.

Com la majoria de programes TTS, WaveNet també utilitza formes d’ona reals (paramètriques o concatenatives, per exemple). Això permet que el programari analitzi com canvien amb el temps les regles del llenguatge i els sons.

Això permet que el programa generi patrons de veu humana a partir de mostres reals de veu. El sorprenent és que el programari crea la sortida segons la informació que rep.

Què vol dir a la pràctica? Si parles italià, per exemple, el programa pot ajudar-te a produir veu en italià. Va ser un gran canvi en el seu moment i va obrir camí per a altres APIs TTS.

Exemples de WaveNet en acció

Quan Google va llançar el programari, requeria massa potència de processament per poder-lo utilitzar en la vida real. Però tot això ha canviat amb els anys. Aquesta API va donar veu a Google Assistant, disponible en diverses plataformes.

WaveNet també és ideal si busques programes TTS. La veu sona més realista i fa que l’experiència sigui més agradable. Pots utilitzar-la per escoltar notícies, transcripcions de podcasts o qualsevol altre contingut que vulguis.

Això només és el principi. Tot el procés pot ajudar persones amb dificultats de parla a recuperar la seva veu. La síntesi de veu —imitació de veu— té molt de potencial. Per exemple, algú amb discapacitat de parla podria usar una mostra de la seva pròpia veu integrada amb eines TTS. Això els donaria veu.

Encara no sabem quin futur ens deparen els programes TTS, però tot apunta que serà espectacular. El millor és que moltes empreses treballen en productes de síntesi de veu diferents.

Quan tothom té el mateix objectiu, és més probable que es vegin resultats impressionants.

Speechify - Síntesi de veu

Un dels programes imprescindibles és Speechify. És una aplicació de text a veu i la pots fer servir en gairebé qualsevol dispositiu. És disponible per a iOS, Android, Mac i també com a extensió per a Google Chrome.

Speechify pot llegir tot tipus de contingut. Pots escoltar PDFs, documents, correus o qualsevol arxiu del dispositiu. Un dels principals avantatges és la seva versatilitat i personalització.

Pots canviar la velocitat de lectura, triar diferents veus, ajustar el to, etc. També té funció OCR: pots fer una foto del teu llibre i l’aplicació el llegirà per tu.

L’app està especialment pensada per a persones amb dislèxia, TDAH, per a qui aprèn un nou idioma o vol ser més productiu mentre llegeix. Tot en una sola app que canviarà la teva manera de llegir.

Speechify és molt fàcil d’utilitzar i no cal cap tutorial complet per començar.

Preguntes freqüents

Per a què serveix WaveNet?

És una xarxa neural profunda capaç de crear àudio cru. Ofereix una síntesi de text a veu realista, entrenada amb gravacions reals. Ha superat el TTS de Google Cloud.

Avui dia, el programari dóna veu a l’Assistant de Google.

Quin és el model WaveNet?

El model es basa en l’arquitectura PixelCNN. Per tractar les dependències llargues necessàries per crear àudio cru, utilitza convolucions causals dilatades.

L’ús de CNNs dilatades permet entrenar més ràpid i fàcil, arribant a mil capes enrere. També pot funcionar vint vegades més ràpid que en temps real.

Quina diferència hi ha entre WaveNet i les CNN?

El programari es basa en xarxes neuronals convolucionals profundes o CNN. WaveNet n’és una aplicació concreta. Altres empreses com Microsoft o Amazon (amb SSML) fan servir tecnologies similars i n’obtenen resultats de qualitat.

Si vols el millor TTS, tria Speechify. Altres plataformes tenen els seus avantatges, però Speechify és molt simple i intuïtiu per convertir text en veu.

Speechify és la plataforma líder mundial de text a veu, de confiança per a més de 50 milions d'usuaris i avalada per més de 500.000 ressenyes de cinc estrelles a les seves aplicacions de text a veu per a iOS, Android, Extensió de Chrome, aplicació web i aplicació per a Mac. El 2025, Apple va premiar Speechify amb el prestigiós Premi de Disseny Apple a la WWDC, qualificant-lo com “una eina essencial que ajuda la gent a viure la seva vida.” Speechify ofereix més de 1.000 veus naturals en més de 60 idiomes i s'utilitza a gairebé 200 països. Entre les veus de celebritats hi trobem Snoop Dogg i Gwyneth Paltrow. Per a creadors i empreses, Speechify Studio proporciona eines avançades com Generador de veu IA, Clonació de veus IA, Doblatge IA i el seu Canviador de veu IA. Speechify també impulsa productes líders amb la seva API de text a veu, d'alta qualitat i amb una relació qualitat-preu òptima API de text a veu. Present en The Wall Street Journal, CNBC, Forbes, TechCrunch i altres mitjans destacats, Speechify és el proveïdor de text a veu més gran del món. Visiteu speechify.com/news, speechify.com/blog i speechify.com/press per saber-ne més.

Què és Google WaveNet

Tyler Weitzman

Speechify, el teu assistent de veu amb IA.
Text a veu. Dictat per veu. Respostes ràpides.

Què és Google WaveNet?

Com funciona WaveNet

Exemples de WaveNet en acció

Speechify - Síntesi de veu