Tehnologia text-to-speech a înregistrat progrese uriașe, mai ales în ultimii ani. Alimentate de îmbunătățirile inteligenței artificiale, TTS-urile de astăzi pot furniza interpretări de înaltă calitate care imită vorbirea umană.
VALL-E de la Microsoft este cea mai nouă soluție tehnologică ce poate face ca redarea textului să sune uimitor de natural. Este un model de limbaj neural codec bazat pe machine learning zero-shot.
Dacă această ultimă propoziție pare SF sau plină de jargon tehnic, nu-ți face griji. Vom explica pe înțelesul tuturor conceptele complexe din spatele VALL-E în articolul de mai jos.
Microsoft VALL-E explicat
Modelele de inteligență artificială avansează rapid. Până acum, toată lumea a auzit de ChatGPT de la OpenAI, care pare a fi cel mai apropiat de o IA ce se comportă ca o persoană reală. Probabil ai văzut și artă generată de IA de la motorul DALL-E.
Pe lângă startup-uri ca OpenAI, companii globale precum Microsoft au fost jucători importanți în domeniul inteligenței artificiale.
Cercetătorii Microsoft au lucrat recent la îmbunătățirea sintezei text-to-speech. VALL-E este rezultatul acestui efort.
Noua IA va schimba cu siguranță domeniul TTS, deoarece poate genera vorbire cu sunet uman pe baza unei mostre audio foarte scurte. Un prompt acustic de doar trei secunde este suficient pentru ca VALL-E să preia particularitățile vorbitorului.
După ce primește promptul vocal, IA poate imita vocea omului și chiar simula tonul său emoțional. La fel de impresionant, VALL-E păstrează și mediul acustic specific celui care vorbește.
Pe scurt, modelul VALL-E excelează la similaritatea cu vorbitorul. Poți asculta demonstrații pe GitHub, unde Microsoft a pus la dispoziție exemple audio și explicații detaliate despre IA.
Desigur, astfel de tehnologii au o mulțime de utilizări potențiale, precum crearea de podcasturi și cărți audio. Posibilitățile vor crește și mai mult pe măsură ce VALL-E va fi combinat cu modele generative precum GPT-3.
Dar tehnologii precum VALL-E pot fi folosite și în scopuri mai puțin onorabile.
Deoarece VALL-E poate suna înfricoșător de asemănător cu o persoană reală, este ușor de imaginat cum persoane rău intenționate pot folosi tehnologia pentru fraude, precum deepfake-uri dăunătoare, fără consimțământ. Astfel de posibilități au determinat Microsoft să emită o declarație de etică.
În declarație, compania susține modele specifice de editare a vorbirii care să asigure consimțământul vorbitorului original.
Dar controversele legate de utilizarea VALL-E rămân deocamdată o chestiune de viitor. Pentru moment, avem o întrebare mai interesantă:
Cum reușește IA să imite modele complexe pornind doar de la un eșantion de trei secunde?
Nu este de mirare că răspunsul este destul de complicat.
VALL-E a avut acces la un volum uriaș de date de antrenament, format din mii de ore de vorbire în limba engleză. Acest lucru a pregătit IA să simuleze vorbirea în limba engleză într-un mod fluid. Totuși, VALL-E nu este un sistem TTS obișnuit – el este susținut de tehnologie de ultimă oră în domeniul învățării automate.
Am menționat deja denumirea tehnologiei: model neural codec zero-shot. Haideți să vedem ce înseamnă acești termeni în practică.
Înțelegerea modelelor de limbaj neural codec zero-shot
Începând cu termenul mai simplu, „zero-shot” se referă la o tehnologie folosită pentru motoarele TTS. Aceasta permite generarea de vorbire de către IA pe baza unor date necunoscute anterior. Altfel spus, computerul poate citi cu voce tare texte pe care nu le-a „văzut” niciodată.
Mai impresionant, tehnologia zero-shot permite mașinii să producă interpretări fără antrenament suplimentar. Practic, este similar cu modul în care oamenii pot citi un text necunoscut într-o limbă deja stăpânită.
Trecând la partea mai complicată, „modelul de limbaj neural codec” necesită o explicație suplimentară.
Motoarele TTS se bazează pe codecuri audio pentru a crea forme de undă pornind de la textul scris. Codec-ul ajută IA să traducă literele, cuvintele și propozițiile scrise în sunetele corespunzătoare. Un codec neural îndeplinește aceeași funcție, dar este bazat pe o rețea neurală puternică.
Desigur, apare o întrebare suplimentară: Ce este o rețea neurală?
Vom explica aici pe scurt, fără a intra în detalii tehnice. O rețea neurală încearcă să imite funcționarea creierului uman. Rețeaua este alcătuită din neuroni artificiali numiți noduri, conectați și organizați în straturi.
Structura complexă face posibil așa-numitul deep learning, ceea ce face ca mașina să poată dezvolta și adapta modele necunoscute anterior.
Codec-ul neural alimentează modelul de limbaj, cealaltă parte a acestei ecuații text-to-speech .
Modelul de limbaj extrage informații dintr-un set de date pentru a înțelege orice text introdus în contextul unei limbi reale. Cu alte cuvinte, aceasta este metoda prin care mașina „dă sens” textului.
În cazul VALL-E, LibriLight, o bibliotecă audio compilată de Meta (Facebook), a constituit fundația modelului de limbaj al IA-ului.
Ascultă tehnologia TTS de ultimă generație în acțiune cu Speechify
Deși VALL-E nu este încă disponibil publicului, poți auzi cum se aude un motor avansat de text-to-speech cu Speechify. Speechify este un serviciu TTS care poate citi cu voce tare textul din aproape orice sursă.
Indiferent dacă este vorba de text scris, conținut web sau o pagină scanată, Speechify îl va citi instantaneu. Mai mult, motorul dispune de voci de narațiune care sună natural. Spre deosebire de motoarele TTS tipic robotice, Speechify sună mai degrabă ca o persoană, nu ca o mașină.
De asemenea, poți ajusta modul în care Speechify citește. Alege limba preferată, naratorul și viteza de citire și ascultă orice text exact așa cum vrei.
Dacă toate acestea ți se par interesante, poți încerca Speechify gratuit chiar astăzi.
Întrebări frecvente
Poate fi folosit Vall-E de către oameni?
Există numeroase îngrijorări legate de modul în care VALL-E ar putea fi abuzat. Furtul de identitate este o posibilitate deosebit de îngrijorătoare. Din acest motiv, Microsoft a decis să nu facă VALL-E disponibil publicului larg.
Ce este Microsoft AI?
Microsoft AI nu este un produs anume. Programul companiei servește ca o platformă pentru dezvoltarea IA. Microsoft AI include soluții de data science, inteligență artificială conversațională, robotică, machine learning și alte inovații din industrie.
Ce este o interfață controlată vocal?
O interfață controlată vocal este exact ceea ce sună – o interfață cu care interacționezi prin comenzi vocale. Această tehnologie este deja comună pentru dispozitivele inteligente – gândește-te la Alexa de la Amazon, Siri de la Apple, Cortana de la Microsoft sau Asistentul Google.
Ce este un robot?
Termenul „robot” denotă orice mașină care operează automat. Aceste mașini sunt concepute pentru a înlocui munca umană. În ciuda reprezentărilor din media, cei mai mulți roboți nu au formă umanoidă. De fapt, unii nici măcar nu au o formă fizică. De exemplu, asistenții virtuali moderni sunt considerați tot roboți.

