Teksto pavertimo garsu (TTS) ir kalbos sintezės varikliai naudoja skirtingus DI modelius, kad sukurtų žmogaus balsą primenantį garsą. Vienas iš šių modelių – autoregresinis balso modelis, generatyvus modelis, taikomas balso generavimui. Šiame straipsnyje paaiškinama, kaip veikia autoregresinis modelis ir kur jis taikomas kalbos sintezėje.
Autoregresinio modelio paaiškinimas
Autoregresinis modelis – tai statistinis modelis, dažnai naudojamas signalų apdorojime, kalbos atpažinime ir kalbos sintezėje. Tai svarbi šiuolaikinių TTS technologijų dalis. Kad būtų lengviau suprasti, kaip modelis veikia, štai pavyzdys: įsivaizduokite prietaisą, kuris prognozuoja orus. Kiekvieną dieną jis atsižvelgia į vakarykščius orus („autoregresinė“ dalis) – temperatūrą, drėgmę, vėjo greitį – ir pagal juos prognozuoja ateities orą. Taip pat įtraukiamas metų laikas, vieta ir kiti veiksniai („modelio“ dalis). Pagal visus šiuos duomenis prognozuojami rytdienos orai. Aišku, prognozė nebus tobula, tačiau kuo daugiau duomenų – tuo ji tikslesnė. Tai yra autoregresinio modelio pavyzdys. Esminė idėja: modelis prognozuoja kitą laiko eilutės vertę pagal ankstesnes. Kitaip tariant, jis naudoja ankstesnių taškų ar koeficientų kombinaciją, kad nuspėtų kitą reikšmę. Dėl tokio prognozavimo autoregresiniai modeliai idealiai tinka kalbos technologijoms – norint natūralaus skambesio būtina nuspėti kiekvieną kitą garso mėginį pagal ankstesnius. Modelį sudaro du pagrindiniai komponentai: koduotuvas (encoder) ir dekoduotuvas (decoder). Koduotuvas apdoroja įvestį (pvz., spektrogramą ar fonemų seką) ir paverčia ją paslėptu vaizdavimu. Dekoduotuvas sukuria išvesties signalą – bangos formą arba spektrogramą. Vienas žinomiausių modelių – WaveNet, kuris taiko išplėstinę kauzalinės konvoliucijos schemą. Tai Gauso modelis, galintis generuoti žmogaus balsui artimą, aukštos kokybės garsą. Kitas svarbus autoregresinių modelių bruožas – gebėjimas sąlygiškai generuoti balsą pagal įvairius įvesties duomenis. Pavyzdžiui, naudojant daugiakalbį rinkinį galima treniruoti balsą su skirtingomis kalbėtojų tapatybėmis. Tam dekoduotuvas mokymo metu papildomai gauna kalbėtojo informaciją. Modeliai gali būti mokomi naudojant įvairius optimizavimo algoritmus: variacinius autoenkoderius, rekurentinius neuroninius tinklus (RNN). Kuo aukštesnės kokybės mokymo duomenys, tuo natūralesnis ir tikslesnis sintezuojamas balsas.
Autoregresinio modelio taikymas kalbos sintezėje
Kalbos sintezė – tai žmogaus balso kūrimas mašinos pagalba. Vienas populiariausių metodų – naudoti autoregresinį modelį. Šiuo atveju sistema analizuoja ir prognozuoja pagrindinius kalbos bruožus – toną, trukmę, garsumą – naudodama koduotuvą ir dekodotuvą. Koduotuvas paverčia garso duomenis (bangų formas ar spektrogramas) į aukštesnio lygio savybes. Šios savybės perduodamos dekodotuviui, kuris generuoja norimos kalbos seką. Dėl autoregresinės prigimties dekoduotuvas kiekvieną naują savybę prognozuoja pagal ankstesnes, todėl balsas skamba natūraliai. Vienas žinomiausių šio tipo modelių – WaveNet. WaveNet taiko konvoliucinius neuroninius tinklus (KNN) ir su vokoderiu paverčia akustines ypatybes į garsą. Modelis yra apmokytas su aukštos kokybės balsų duomenų rinkiniu, kad išmoktų ryšius tarp įvairių akustinių savybių. Iš anksto apmokyti modeliai, ypač su LSTM tinklais, paspartina treniravimą ir pagerina kokybę. Siekiant dar geresnio rezultato, kuriamos WaveNet atmainos, pvz., FastSpeech sumažina vėlavimą ir paspartina sintezę, naudodama dėmesio mechanizmą, tiesiogiai prognozuojant kiekvienos fonemos trukmę ir toną. Kita tyrimų kryptis – balso keitimas: siekiama, kad vieno žmogaus balsas skambėtų kaip kito. Tam modelis apmokomas su abiejų kalbėtojų duomenimis ir po treniruotės geba konvertuoti šaltinio balsą į tikslo balsą, išlaikant kalbinį turinį ir prozodiją. Svarbus komponentas – neuroninis vokoderis, kuris generuoja kokybišką garso bangą; be jo sintezuotas balsas skambėtų nenatūraliai. Studijos apie šiuos modelius cituotos daugiau nei 2.3 mlrd. kartų, kas parodo jų svarbą. Tyrimai pristatyti ICASSP konferencijoje, daugybė jų paskelbta arxiv.org ir GitHub. Modelių vertinimui naudojami rodikliai: vidutinis nuomonės įvertis (MOS), žodžių klaidų rodiklis (WER), spektrinis iškraipymas (SD).
Tapk DI teksto į kalbą ekspertu su Speechify
Speechify – tai TTS paslauga, panaudojanti dirbtinį intelektą natūraliai skambančiai naracijai kurti įvairiems tekstams. Paslauga tekstą paverčia garsu naudodama giluminio mokymosi modelį, ištreniruotą su dideliu garso duomenų rinkiniu. Norėdami naudoti Speechify, tiesiog įkelkite ar įklijuokite failą sistemoje ir pasirinkite balsą bei kalbą. Speechify sukurs kokybišką garso failą, kurį galėsite atsisiųsti ar pasidalyti. Speechify taiko autoregresinį modelį, tad balsas skamba natūraliai. Su Speechify galite realiu laiku generuoti aukštos kokybės garsą ir naudoti jį įvairiai: podkastams, vaizdo įrašams ir garso knygoms. Kam delsti? Išbandykite Speechify jau šiandien ir atraskite naują, profesionalaus garso kūrimo būdą savo projektams.
DUK
Kas yra autoregresinis laiko eilučių modelis?
Autoregresinis laiko eilučių modelis – tai statistinis modelis, prognozuojantis ateities vertes pagal ankstesnes.
Kuo skiriasi AR ir ARMA?
ARMA – išplėstinis modelis su autoregresinėmis ir slenkančio vidurkio dalimis, o AR paprastesnis – tik autoregresinis, be slenkančio vidurkio.
Kuo skiriasi laiko eilučių analizė ir giluminis mokymasis?
Laiko eilučių analizė – tai statistinis metodas laiko duomenims analizuoti. Giluminis mokymasis – mašininio mokymosi sritis, kurioje iš duomenų treniruojami neuroniniai tinklai.
Kuo skiriasi autoregresiniai ir neautoregresiniai modeliai?
Autoregresiniai modeliai kuria rezultatus iš eilės, remdamiesi tuo, kas jau sugeneruota. Neautoregresiniai – kuria rezultatus lygiagrečiai, nepriklausomai nuo ankstesnių žingsnių.

