Masinõppe edusammud on viinud häälekloonimises märkimisväärse arenguni, tuues tänapäevani kõige muljetavaldavamad tekst kõnest lahendused. Üks tähtsamaid uuendusi on nullvõtte (zero-shot) meetod, mis on tehnoloogiamaailmas laineid löönud. Selles artiklis tutvustame nullvõttega hääle kloonimist ja selle mõju valdkonnale.
Nullvõttega masinõpe selgitatud
Hääle kloonimise eesmärk on luua kõlari hääle jäljend, sünteesides tema tooni ja värvi kasutades vaid väikest hulka salvestatud kõnet. Teisisõnu, häälekloonimine on tehisintellektil põhinev tehnoloogia, mis võimaldab luua kellegi häälega väga sarnase hääle. Peamised häälekloonimise protsessid on kolm:
Ühevõttega õpe
Ühevõtteõppe mudel vajab õppimiseks vaid ühte uut pilti, kuid peab suutma ära tunda ka teisi selle asja kujutisi.
Vähese näitega õpe
Vähese näitega õpe tähendab, et mudelile näidatakse mõnda pilti uuest asjast ja see suudab ära tunda ka sarnased, veidi erinevad kujutised.
Nullvõttega õpe
Nullvõttega õpe tähendab, et mudel õpib ära tundma uusi objekte või mõisteid, mida talle pole varem õpetatud, kasutades näiteks VCTK andmestikku nende kirjeldamiseks. Mudelit õpetatakse ära tundma uusi asju ilma piltide, näidete või muu treeningandmestikuta – antakse vaid omaduste või tunnuste loetelu, mis kirjeldavad uut eset.
Mis on häälekloonimine?
Häälekloonimine tähendab kõlari hääle jäljendamist masinõppe abil. Selle eesmärk on panna masin looma võimalikult autentset kõlari häält, kasutades vaid väikest osa tema salvestatud kõnest. Häälekloonimisel teisendab kõneenkooder inimese kõne koodiks, millest tehakse vektorina kõneesindus. Seejärel õpetatakse sünteesijat ehk vokooderit selle vektoriga tootma kõnet, mis kõlab nagu originaalkõneleja. Sünteesija võtab sisendiks kõneesindusvektori ja mel-spektrogrammi – visuaalse kujutise kõnest. See on häälekloonimise baasprotsess ning tulemuseks saadakse lainekuju ehk sünteesitud kõne heli. Tavaliselt kasutatakse selleks süvaõppemudeleid. Treenimiseks saab kasutada eri andmestikke ning mõõdikuid sünteeshääle kvaliteedi hindamiseks. Häälekloonimist kasutatakse näiteks:
- Hääle konverteerimine – ühe inimese salvestise muutmine teise inimese hääleks.
- Kõneleja tuvastus – kontrollitakse, kas inimese hääl vastab tema väidetud isikule.
- Mitmekõneleja tekst kõnest – kõne loomine trükitud tekstist ja märksõnadest
Levinumad häälekloonimise algoritmid on WaveNet, Tacotron2, Zero-shot Multispeaker TTS ja Microsofti VALL-E. Samuti on GitHubis palju avatud lähtekoodiga alternatiive. Kui tahad rohkem teada häälekloonimise tehnikatest, on ICASSP, Interspeech ja IEEE rahvusvaheline konverents hea koht alustamiseks.
Nullvõttega õpe häälekloonimises
Nullvõttega häälekloonimiseks kasutatakse kõneenkooderit, mis eraldab treeningandmetest kõnevektorid. Nendega saab töödelda ka kõlarite signaale, keda pole varem treenitud (ehk uusi kõlareid). Neuraalvõrku õpetatakse mitme meetodiga, näiteks:
- Korduvmudelid (konvolutsioonilised mudelid) lahendavad pildiklassifitseerimise ülesandeid.
- Autoregressiivsed mudelid ennustavad tulevasi väärtusi varasemate põhjal.
Nullvõttega kloonimise suurim väljakutse on saavutada kõrgekvaliteediline, loomulikult kõlav sünteeshääl. Selle hindamiseks kasutatakse erinevaid mõõdikuid:
- Kõlarisarnasus – kui sarnane on sünteeshääl originaalile.
- Kõne loomulikkus – kui loomulikult kõlab sünteesitud kõne kuulaja jaoks.
Päris maailma tegelikke andmeid, mille järgi AI mudeleid treenitakse ja hinnatakse, kutsutakse algandmete viiteheliks (ground truth reference audio). Seda kasutatakse treenimiseks ja normaliseerimiseks. Lisaks kasutatakse stiiliedastuse võtteid, millega parandatakse mudeli üldistusvõimet: antakse kaks sisendit – üks sisu jaoks ja teine stiili viiteks, et mudel tuleks toime ka uue andmestikuga ehk uutes olukordades.
Vaata uusimat kõnekloonimise tehnoloogiat Speechify Studios
Speechify Studio AI-häälekloonimine võimaldab Sul luua AI-versiooni oma häälest – ideaalne isikupäraseks loenguks, brändi hääleks või oma projekti eristamiseks. Salvesta lihtsalt näidis ning Speechify tehisintellekt loob elutruu digitaalkoopia, mis kõlab nagu Sina ise. Soovid veel rohkem võimalusi? Sisseehitatud häälevahetaja muudab olemasolevad salvestused sobivaks ükskõik millise Speechify Studio 1000+ AI-häälega, andes vabaduse valida tooni, stiili ja esitlusviisi üle. Kas soovid oma häält muuta või salvestisi kasutada eri olukordades, Speechify Studio pakub professionaalset hääle kohandamise kogemust.
KKK
Milleks häälekloonimist üldse vaja on?
Häälekloonimise eesmärk on luua kvaliteetne, loomulikult kõlav kõne, mida saab kasutada eri rakendustes, et parandada suhtlust inimeste ja masinate vahel.
Mis vahe on häälekonverteerimisel ja kloonimisel?
Häälekonverteerimine muudab ühe inimese kõne teise hääleks, kuid kloonimine loob täiesti uue, kindlat inimest meenutava hääle.
Milline tarkvara suudab kellegi häält kloonida?
Valikuid on palju, nt Speechify, Resemble.ai, Play.ht ja teised.
Kuidas tuvastada võltsitud häält?
Üks levinumaid meetodeid süvavõltsingu tuvastamiseks on spektraalanalüüs, kus audiot uuritakse mustrite järgi.

