Molta gent fa servir serveis de text a veu cada dia, igual que els assistents virtuals. Però potser no saben que tots dos comparteixen moltes característiques de funcionament. A mesura que la tecnologia millora, també ho fa la qualitat de les aplicacions que utilitzem diàriament.
Passa el mateix amb les aplicacions TTS i els assistents virtuals. Hi ha unes quantes empreses amb resultats excepcionals en aquest camp i una d’elles és Google, amb la seva tecnologia WaveNet.
Què és Google WaveNet?
WaveNet és una xarxa neural artificial dissenyada per generar àudio cru. L’equip que hi ha al darrere és DeepMind, una empresa de Londres centrada en la intel·ligència artificial. La introducció d’aquesta tecnologia va suposar un gran canvi per a la plataforma Google Cloud i ho va portar tot a un altre nivell.
Un dels principals avantatges que aporta DeepMind de Google, respecte als sistemes TTS anteriors, és que sona molt millor. Quan es va presentar el 2016, els sistemes TTS no creaven veus naturals.
La síntesi de veu de WaveNet els va superar en tots els aspectes. La idea darrere d’aquesta tecnologia és senzilla. El programari pot utilitzar fitxers d’àudio com WAV com a entrada i aprofita la connexió amb l’API de Google i una clau API.
Avui tenim moltes maneres de fer servir aquesta tecnologia gràcies a la capacitat d’aprofitar aquests algoritmes complexos. Moltes empreses d’arreu del món competeixen per oferir el millor producte. Això és positiu perquè, per als usuaris finals, vol dir més opcions i que sigui més fàcil trobar el programa ideal.
Com funciona WaveNet
WaveNet és una versió de xarxa neural FNN o feedforward, coneguda també com a xarxa neural convolucional profunda. La CNN pot agafar un senyal cru com a entrada i sintetitza la sortida mostra a mostra.
La base de tot és l’aprenentatge automàtic, el processament del llenguatge natural, l’aprenentatge profund i la intel·ligència artificial. Les apps TTS anteriors intentaven crear una base de dades de fonemes, i l’app escollia el que més s’hi assemblava.
Crear aquest tipus de trencaclosques no és fàcil. El programari ha d’entendre com funciona la llengua, el seu ritme i la seva dinàmica; si no, els sons semblarien artificials.
Com la majoria de programes TTS, WaveNet també utilitza formes d’ona reals (paramètriques o concatenatives, per exemple). Això permet que el programari analitzi com canvien amb el temps les regles del llenguatge i els sons.
Això permet que el programa generi patrons de veu humana a partir de mostres reals de veu. El sorprenent és que el programari crea la sortida segons la informació que rep.
Què vol dir a la pràctica? Si parles italià, per exemple, el programa pot ajudar-te a produir veu en italià. Va ser un gran canvi en el seu moment i va obrir camí per a altres APIs TTS.
Exemples de WaveNet en acció
Quan Google va llançar el programari, requeria massa potència de processament per poder-lo utilitzar en la vida real. Però tot això ha canviat amb els anys. Aquesta API va donar veu a Google Assistant, disponible en diverses plataformes.
WaveNet també és ideal si busques programes TTS. La veu sona més realista i fa que l’experiència sigui més agradable. Pots utilitzar-la per escoltar notícies, transcripcions de podcasts o qualsevol altre contingut que vulguis.
Això només és el principi. Tot el procés pot ajudar persones amb dificultats de parla a recuperar la seva veu. La síntesi de veu —imitació de veu— té molt de potencial. Per exemple, algú amb discapacitat de parla podria usar una mostra de la seva pròpia veu integrada amb eines TTS. Això els donaria veu.
Encara no sabem quin futur ens deparen els programes TTS, però tot apunta que serà espectacular. El millor és que moltes empreses treballen en productes de síntesi de veu diferents.
Quan tothom té el mateix objectiu, és més probable que es vegin resultats impressionants.
Speechify - Síntesi de veu
Un dels programes imprescindibles és Speechify. És una aplicació de text a veu i la pots fer servir en gairebé qualsevol dispositiu. És disponible per a iOS, Android, Mac i també com a extensió per a Google Chrome.
Speechify pot llegir tot tipus de contingut. Pots escoltar PDFs, documents, correus o qualsevol arxiu del dispositiu. Un dels principals avantatges és la seva versatilitat i personalització.
Pots canviar la velocitat de lectura, triar diferents veus, ajustar el to, etc. També té funció OCR: pots fer una foto del teu llibre i l’aplicació el llegirà per tu.
L’app està especialment pensada per a persones amb dislèxia, TDAH, per a qui aprèn un nou idioma o vol ser més productiu mentre llegeix. Tot en una sola app que canviarà la teva manera de llegir.
Speechify és molt fàcil d’utilitzar i no cal cap tutorial complet per començar.
Preguntes freqüents
Per a què serveix WaveNet?
És una xarxa neural profunda capaç de crear àudio cru. Ofereix una síntesi de text a veu realista, entrenada amb gravacions reals. Ha superat el TTS de Google Cloud.
Avui dia, el programari dóna veu a l’Assistant de Google.
Quin és el model WaveNet?
El model es basa en l’arquitectura PixelCNN. Per tractar les dependències llargues necessàries per crear àudio cru, utilitza convolucions causals dilatades.
L’ús de CNNs dilatades permet entrenar més ràpid i fàcil, arribant a mil capes enrere. També pot funcionar vint vegades més ràpid que en temps real.
Quina diferència hi ha entre WaveNet i les CNN?
El programari es basa en xarxes neuronals convolucionals profundes o CNN. WaveNet n’és una aplicació concreta. Altres empreses com Microsoft o Amazon (amb SSML) fan servir tecnologies similars i n’obtenen resultats de qualitat.
Si vols el millor TTS, tria Speechify. Altres plataformes tenen els seus avantatges, però Speechify és molt simple i intuïtiu per convertir text en veu.

