Datorită progreselor din învățarea automată, clonarea vocii a evoluat spectaculos în ultimii ani, ducând la unele dintre cele mai impresionante soluții de text to speech de până acum. Printre cele mai importante noutăți se află zero-shot, care a avut un impact remarcabil în sectorul tehnologic. Acest articol va prezenta clonarea vocii zero-shot și modul în care a schimbat industria.
Explicații despre machine learning de tip zero-shot
Obiectivul clonării vocii este de a replica vocea unui vorbitor prin sintetizarea tonului și culorii acesteia folosind doar o cantitate mică de înregistrări. Cu alte cuvinte, clonarea vocii este o tehnologie avansată care folosește inteligența artificială pentru a crea o voce ce seamănă cu o anumită persoană. Această tehnologie include trei procese principale de clonare a vocii:
One-shot Learning
Învățarea one-shot înseamnă că modelul este antrenat pe o singură imagine a unui element nou, dar ar trebui totuși să recunoască și alte imagini ale aceluiași lucru.
Few-shot Learning
Învățarea few-shot presupune ca modelul să vadă câteva imagini ale unui lucru nou și să poată recunoaște și alte lucruri similare, chiar dacă acestea arată puțin diferit.
Zero-shot Learning
Învățarea zero-shot înseamnă să înveți un model să recunoască obiecte sau concepte noi pe care nu a fost instruit anterior, folosind un set de date, cum ar fi VCTK, pentru a le descrie. Practic, modelul este antrenat să recunoască lucruri noi fără imagini, exemple sau alte date de instruire. În schimb, i se oferă o listă de caracteristici sau trăsături care descriu noul element.
Ce este clonarea vocii?
Clonarea vocii presupune replicarea vocii unui vorbitor folosind tehnici de machine learning. Scopul clonării vocii este de a reproduce timbrul și tonalitatea vorbitorului folosind doar o cantitate mică de vorbire înregistrată. În procesul de clonare a vocii, un encoder de vorbitor transformă vocea unei persoane într-un cod ce poate fi ulterior transformat într-un vector folosind embeddings de vorbitor. Acest vector este folosit apoi pentru a antrena un sintetizator, cunoscut și ca vocoder, să creeze o înregistrare care sună ca vocea originală. Sintetizatorul primește ca input vectorul embedding al vorbitorului și un mel spectrogram, o reprezentare vizuală a semnalului audio. Acesta este procesul de bază al clonării vocii. La final, se obține un output de tip waveform, adică sunetul efectiv al vocii sintetizate. Procesul este realizat de obicei folosind tehnici de învățare automată, precum deep learning. De asemenea, modelul se poate antrena folosind diverse seturi de date și metrici pentru a evalua calitatea vocii generate. Clonarea vocii poate fi utilizată în diverse scopuri, cum ar fi:
- Conversia vocală – capacitatea de a schimba o înregistrare a vocii unei persoane astfel încât să sune ca și cum ar fi fost spusă de altcineva.
- Verificarea vorbitorului – când cineva susține că este o anumită persoană, iar vocea lui este folosită pentru a verifica dacă acest lucru este adevărat.
- Multispeaker text to speech – generarea vocii pornind de la text și cuvinte-cheie
Unii dintre cei mai cunoscuți algoritmi de clonare a vocii includ WaveNet, Tacotron2, Zero-shot Multispeaker TTS și VALL-E de la Microsoft. De asemenea, există mulți alți algoritmi open-source ce pot fi găsiți pe GitHub, oferind rezultate de calitate excelentă. Dacă ești interesat să afli mai multe despre tehnicile de clonare a vocii, conferințele ICASSP, Interspeech și IEEE International Conference sunt locurile potrivite pentru tine.
Învățarea zero-shot în clonarea vocii
Un encoder de vorbitor este folosit pentru a extrage vectori vocali din datele de instruire pentru a atinge clonarea vocii zero-shot. Acești vectori pot fi ulterior folosiți pentru procesarea vocală a vorbitorilor care nu au fost incluși anterior în seturile de date de instruire, cunoscuți și sub denumirea de „vorbitori nevăzuți”. Acest lucru se poate realiza prin antrenarea unei rețele neuronale folosind diverse tehnici, precum:
- Modelele convoluționale sunt rețele neuronale folosite pentru rezolvarea problemelor de clasificare a imaginilor.
- Modelele autoregresive pot prezice valorile viitoare bazându-se pe valorile din trecut.
Una dintre provocările clonării vocii zero-shot este asigurarea faptului că vocea sintetizată are o calitate ridicată și sună natural pentru ascultător. Pentru a aborda această problemă, sunt utilizați diversi indicatori pentru a evalua calitatea sintezei vocale:
- Similaritatea vorbitorului – măsoară cât de asemănătoare este vocea sintetizată cu tiparele de vorbire ale vorbitorului țintă.
- Naturaletea vorbirii – cât de natural sună vocea sintetizată pentru ascultător.
Datele reale, din lumea reală, care sunt folosite pentru a învăța și evalua modelele de inteligență artificială, se numesc ground truth reference audio (referință audio de bază). Aceste date sunt folosite pentru instruire și normalizare. În plus, tehnicile de transfer de stil sunt utilizate pentru a spori capacitatea de generalizare a modelului. Transferul de stil implică folosirea a două input-uri – unul pentru conținutul principal și celălalt pentru referința stilului – pentru a îmbunătăți performanțele modelului cu date noi. Cu alte cuvinte, modelul se descurcă mai bine în situații noi.
Vezi cea mai nouă tehnologie de clonare a vocii în acțiune cu Speechify Studio
Clonarea vocii AI de la Speechify Studio îți permite să creezi o variantă AI unică a propriei tale voci – perfectă pentru personalizarea narării, construirea unei identități de brand sau pentru a adăuga o notă familiară oricărui proiect. Înregistrează pur și simplu o mostră, iar modelele avansate AI de la Speechify vor genera o replică digitală realistă ce sună aproape identic cu tine. Vrei și mai multă flexibilitate? Voice changer-ul integrat voice changer îți permite să transformi înregistrările existente în oricare dintre cele peste 1.000 de voci AI din Speechify Studio, oferindu-ți control creativ asupra tonului, stilului și modului de exprimare. Fie că lucrezi la perfecționarea propriei voci sau adaptezi audio pentru contexte diferite, Speechify Studio îți pune la dispoziție personalizare vocală de nivel profesionist.
Întrebări frecvente
Care este scopul clonării vocii?
Clonarea vocii își propune să producă o voce artificială de înaltă calitate, care să sune natural și care poate fi folosită în diverse aplicații pentru a îmbunătăți comunicarea și interacțiunea dintre oameni și mașini.
Care este diferența dintre conversia vocală și clonarea vocii?
Conversia vocală presupune modificarea vocii unei persoane astfel încât să sune ca vocea altei persoane, în timp ce clonarea vocii creează o voce nouă care seamănă cu cea a unui anumit vorbitor uman.
Ce software poate clona vocea unei persoane?
Există numeroase opțiuni, inclusiv Speechify, Resemble.ai, Play.ht și multe altele.
Cum poți depista o voce falsificată?
Una dintre cele mai comune tehnici pentru a identifica un deepfake audio este analiza spectrală, care presupune analizarea semnalului audio pentru a detecta tipare specifice ale vocii.

