Mulți oameni folosesc servicii text-to-speech zi de zi, alături de asistenți virtuali. Dar ceea ce s-ar putea să nu știe este că aceste două tipuri de servicii au multe elemente comune în modul în care funcționează. Pe măsură ce tehnologia avansează, la fel crește și calitatea aplicațiilor pe care le folosim în viața de zi cu zi.
Același lucru este valabil și pentru aplicațiile TTS și asistenții virtuali. Există câteva companii care obțin rezultate excepționale în acest domeniu, iar una dintre ele este Google cu tehnologia sa WaveNet.
Ce este Google WaveNet?
WaveNet este o rețea neuronală artificială creată pentru a genera audio brut. Echipa din spatele acesteia este DeepMind, o firmă din Londra specializată în inteligență artificială. Introducerea acestei tehnologii a adus o schimbare semnificativă pentru platforma Google Cloud și a ridicat totul la un alt nivel.
Unul dintre principalele avantaje pe care DeepMind de la Google le-a adus față de sistemele text-to-speech anterioare este faptul că sună mult mai natural. Când a fost lansată în 2016, TTS nu reușea să creeze o voce care să pară cu adevărat naturală.
Text-to-speech-ul WaveNet le-a depășit din toate punctele de vedere. Ideea din spatele acestei tehnologii e destul de simplă. Software-ul poate folosi fișiere audio brute precum WAV ca input și beneficiază de conectivitatea cu API-ul Google și o cheie API.
Astăzi avem numeroase modalități de a utiliza această tehnologie, datorită capacității noastre de a valorifica acești algoritmi complecși. Multe companii din întreaga lume concurează pentru a oferi cel mai bun produs posibil. Și asta e un lucru bun. Pentru utilizatorii finali, înseamnă mai multe opțiuni și mai multă ușurință în a găsi un program potrivit nevoilor lor.
Cum funcționează WaveNet
WaveNet este o variantă de FNN (feedforward neural network), cunoscută și ca rețea neuronală convoluțională profundă. CNN preia semnalul brut de la input și poate sintetiza astfel output-ul, eșantion cu eșantion.
Desigur, la baza tuturor acestor lucruri stau machine learning-ul, procesarea limbajului natural, deep learning-ul și inteligența artificială. În versiunile anterioare ale aplicațiilor text-to-speech, ideea era să se creeze o bază de date de foneme, iar aplicația alegea pe cel potrivit sau, în lipsă, pe cel mai apropiat de sunetul dorit.
Dar crearea acestui tip de puzzle nu este o treabă ușoară. Software-ul trebuie să înțeleagă cum funcționează limbajul, inclusiv ritmul și dinamica, altfel sunetele redate de difuzor ar părea forțate și nenaturale.
La fel ca majoritatea programelor text-to-speech, WaveNet folosește, de asemenea, forme de undă audio reale – de exemplu, parametrice sau concatenative, ca să numim doar câteva. Astfel, software-ul poate analiza regulile limbii (sau mai degrabă ale sunetelor) și modul în care acestea se schimbă în timp.
În acest mod, programul poate genera modele care să sune ca vorbirea umană, pe baza mostrelor de voce. Impresionant este faptul că software-ul produce output-ul doar pe baza informațiilor introduse.
Ce înseamnă asta în practică: dacă, de exemplu, vorbești italiană, programul te poate ajuta să generezi vorbire în italiană. Aceasta a reprezentat o schimbare uriașă la vremea aceea și a deschis drumul pentru alte API-uri text-to-speech.
Exemple de WaveNet în acțiune
Când Google a lansat software-ul, era nevoie de prea multă putere de procesare pentru a fi folosit în viața reală. Însă totul s-a schimbat în anii următori. Acest API a stat la baza vocii Google Assistant, pe care compania a oferit-o pe mai multe platforme.
WaveNet este, de asemenea, o unealtă excelentă dacă ești în căutarea unui software TTS. Vocea sună mai realist, ceea ce face experiența per ansamblu mult mai plăcută. Îl poți folosi pentru a asculta ultimele știri, transcrieri de podcasturi sau orice altceva îți trece prin minte.
Și acesta este doar începutul. Întreaga idee din spatele procesului poate ajuta și persoanele cu deficiență de vorbire să își recapete vocea. Sinteza vocală este termenul folosit pentru imitarea vocii, iar potențialul său este uimitor. De exemplu, oamenii cu deficiențe de vorbire pot, teoretic, folosi un eșantion al propriei voci și îl pot integra cu instrumente text-to-speech. Astfel, își pot recăpăta vocea.
Încă nu știm tot ce ne rezervă viitorul pentru programele TTS, dar putem presupune că ne așteaptă lucruri grozave. Unul dintre cele mai bune aspecte ale acestui domeniu de inovație este că multe companii diferite lucrează la produse TTS.
Când toată lumea trage în aceeași direcție, este mult mai probabil să vedem rezultate incredibile.
Speechify - Sinteză vocală
Printre programele pe care merită să le încerci cât mai curând se numără Speechify. Este o aplicație text-to-speech și o poți folosi pe aproape orice dispozitiv. Este disponibilă pentru iOS, Android, Mac și chiar ca extensie pentru Google Chrome.
Speechify poate reda orice tip de conținut. Poate să-ți citească PDF-uri, documente, emailuri sau orice altceva ai pe dispozitivul tău. Unul dintre principalele avantaje ale aplicației este versatilitatea și nivelul ridicat de personalizare.
Poți modifica viteza de citire, alege voci diferite, ajusta tonalitatea și multe altele. De asemenea, merită menționat că Speechify oferă o funcție OCR, ceea ce înseamnă că poți face o poză cărții tale, iar aplicația ți-o va citi cu voce tare.
Aplicația este special concepută pentru persoanele cu dislexie, ADD, pentru cei care învață o nouă limbă sau pentru oricine vrea să fie productiv în timp ce „citește” o carte. Este o aplicație all-in-one care îți va schimba percepția asupra lecturii.
Speechify este ușor de folosit și nu vei avea nevoie de un tutorial amplu ca să-l înțelegi.
Întrebări frecvente
Pentru ce se folosește WaveNet?
Este o rețea neuronală profundă care poate crea audio brut. Este un sistem de sinteză text-to-speech care oferă voci WaveNet cu sunet realist și poate fi antrenată folosind înregistrări reale de vorbire. Datorită acestui lucru, a reușit să depășească sistemele Google Cloud text-to-speech.
Astăzi, software-ul este folosit pentru vocile Google Assistant.
Ce este modelul WaveNet?
Modelul este bazat pe arhitectura PixelCNN. Pentru a gestiona dependențele de lungă durată necesare pentru crearea output-ului brut, arhitectura folosește convoluții cauzale dilatate.
Adăugarea CNN-urilor dilatate permite o antrenare mai ușoară și mai rapidă și îi oferă posibilitatea de a merge înapoi în timp cu până la o mie de straturi. De asemenea, poate funcționa de 20 de ori mai rapid decât în timp real.
Care este diferența dintre WaveNet și rețelele neuronale convoluționale?
Software-ul are la bază rețeaua neuronală convoluțională profundă sau CNN. Asta înseamnă că WaveNet este doar o aplicație a CNN. O tehnologie similară este folosită și de alte companii precum Microsoft sau Amazon (împreună cu SSML), oferind calitate ridicată și rezultate excelente.
Când cauți cea mai bună aplicație text-to-speech, apelează la Speechify. Chiar dacă alte platforme oferă unele beneficii, Speechify este ușor de utilizat, fără bătăi de cap și intuitiv pentru orice utilizator care își dorește să transforme textul în cuvinte rostite.

