Teksto į kalbą technologija pastaraisiais metais labai ištobulėjo. Dėl dirbtinio intelekto pažangos šiuolaikiniai TTS gali aukštos kokybės skaitinius perteikti beveik kaip žmogaus kalbą.
Microsoft VALL-E – naujausias sprendimas, galintis paversti teksto į kalbą balsu, stulbinamai panašiu į žmogaus. Tai neuroninis kodekų kalbos modelis, pagrįstas zero-shot mokymusi.
Jei paskutinis sakinys skamba kaip mokslinės fantastikos žargonas, nesijaudinkite. Toliau straipsnyje paprastai paaiškinsime sudėtingas VALL-E koncepcijas.
Microsoft VALL-E paaiškinta
Dirbtinio intelekto modeliai sparčiai tobulėja. Visi jau girdėjo apie OpenAI ChatGPT, kuris iki šiol labiausiai primena tikrą žmogų. Tikriausiai esate matę ir AI sukurtų paveikslų iš DALL-E variklio.
Be tokių startuolių kaip OpenAI, ir tokios pasaulinės kompanijos kaip Microsoft yra svarbūs AI srities žaidėjai.
Microsoft tyrėjai pastaruoju metu daug dirba su naujovėmis teksto į kalbą sintezės srityje. VALL-E – šių pastangų rezultatas.
Šis DI greičiausiai supurtys TTS rinką, nes gali generuoti žmogaus kalbėjimą pagal vos kelių sekundžių garso pavyzdį. Pakanka trijų sekundžių įrašo, kad VALL-E perimtų kalbėtojo ypatumus.
Gavęs pavyzdį, DI gali imituoti žmogaus balsą ir net perteikti emocinį toną. Dar daugiau – VALL-E išlaiko ir originalią akustinę aplinką.
Paprasčiau tariant, VALL-E ypač tiksliai atkuria kalbėtojo balsą. Tuo galite įsitikinti GitHub, kur Microsoft dalinasi garso pavyzdžiais ir išsamia informacija apie šį DI.
Žinoma, tokia technologija turi daug panaudojimo galimybių, pvz. kurti tinklalaides ar garso knygas. O toliau potencialas dar labiau augs, kai VALL-E bus derinama su kitais modeliais, pvz., GPT-3.
Tačiau tokia technologija kaip VALL-E gali būti panaudota ir nedoriems tikslams.
Kadangi VALL-E geba skambėti kaip tikras žmogus, nesunku įsivaizduoti, kaip kenkėjai ją pasitelktų sukčiavimui ar žalingiems deepfake’ams. Tokios rizikos paskatino Microsoft paskelbti etikos pareiškimą.
Pareiškime bendrovė pasisako už specifinius kalbos redagavimo modelius, kurie užtikrintų originalaus kalbėtojo sutikimą.
Tačiau diskusijos dėl VALL-E galimų pritaikymų – ateities klausimas. Kol kas kyla įdomesnis klausimas:
Kaip DI gali atkartoti sudėtingus kalbos dėsningumus pagal vos trijų sekundžių garso pavyzdį?
Nenuostabu, kad atsakymas gana sudėtingas.
VALL-E buvo mokoma naudojant tūkstančius valandų angliškos kalbos įrašų. Tai užtikrino puikią anglų kalbos sintezę. Tačiau VALL-E nėra paprasta TTS sistema – ją varo pažangūs mašininio mokymosi metodai.
Jau minėjome VALL-E technologijos pavadinimą: zero-shot neuroninis kodekų kalbos modelis. Pažiūrėkime, ką tai reiškia praktiškai.
Zero-shot neuroninių kodekų kalbos modelių esmė
Lengviausia pradėti nuo „zero-shot“ – tai ypatinga teksto į kalbą technologija. Ji leidžia DI kalbėti remiantis anksčiau nematytais duomenimis. Kitaip sakant, kompiuteris gali skaityti tekstą, kurio anksčiau „nematė“.
Dar įspūdingiau, kad zero-shot funkcija leidžia mašinai skaityti be papildomo mokymo. Iš esmės tai panašu į žmogų, skaitantį nepažįstamą tekstą žinoma kalba.
Pereikime prie sudėtingesnės dalies – „neuroninio kodekų kalbos modelio“.
TTS varikliai naudoja garso kodekus, kad sukurtų bangas pagal tekstą. Kodekas padeda DI paversti raides, žodžius ir sakinius į garsus. Neuroninis kodekas daro tą patį, tik remiasi galingu neuroniniu tinklu.
Žinoma, tuomet kyla klausimas: kas yra neuroninis tinklas?
Trumpai paaiškinsime, pernelyg nesigilindami. Neuroninis tinklas siekia imituoti žmogaus smegenų veikimą. Tinklą sudaro dirbtiniai neuronai, vadinami mazgais, kurie yra susiję ir išdėstyti sluoksniais.
Tokia sudėtinga struktūra leidžia giliai mokytis ir geriau prisitaikyti prie naujų raštų.
Neuroninis kodekas maitina kalbos modelį – antrąją šios teksto į kalbą lygčių pusę.
Kalbos modelis remiasi duomenų baze, kad suprastų bet kokį tekstą kalbos kontekste. Kitaip sakant, taip mašina „supranta“ tekstą.
VALL-E atveju pagrindas buvo LibriLight – Facebook Meta sukurta garso biblioteka.
Išgirskite pažangią TTS technologiją su Speechify
Nors VALL-E dar neprieinamas visiems, galite išgirsti, kaip skamba modernus teksto į kalbą variklis naudodami Speechify. Ši paslauga garsiai skaito tekstus iš beveik bet kokio šaltinio.
Nesvarbu, ar pateiksite tekstą, interneto turinį ar nuskaitytą puslapį – Speechify jį perskaitys akimirksniu. Svarbiausia, kad jos pasakojimų balsai natūralūs – kitaip nei robotiniai TTS varikliai, Speechify skamba labiau kaip žmogus nei mašina.
Galite prisitaikyti, kaip Speechify skaito. Pasirinkite kalbą, pasakotoją, skaitymo greitį ir klausykite tekstų taip, kaip jums patogu.
Jei visa tai jus domina, galite išbandyti Speechify nemokamai jau šiandien.
DUK
Ar žmonės gali naudotis VALL-E?
Yra daug susirūpinimo dėl galimų VALL-E piktnaudžiavimo atvejų. Ypač neramina tapatybės vagystė. Dėl šių priežasčių Microsoft nusprendė VALL-E viešai nepateikti.
Kas yra Microsoft AI?
Microsoft AI nėra konkretus produktas. Tai įmonės DI vystymo ekosistema. Ją sudaro duomenų mokslo sprendimai, pokalbių AI, robotika, mašininis mokymasis ir kitos naujovės.
Kas yra balsu valdoma sąsaja?
Balsu valdoma sąsaja – tai vartotojo sąsaja, su kuria bendraujama balsu. Tokios technologijos paplitusios išmaniuose įrenginiuose – pvz., Amazon Alexa, Apple Siri, Microsoft Cortana ar Google Assistant.
Kas yra robotas?
Terminas „robotas“ reiškia bet kokį automatiškai veikiantį prietaisą. Dažniausiai jie kuriami žmogaus darbui pakeisti. Nors medijoje dažnai vaizduojami kaip humanoidai, tikrovėje daugelis robotų nėra panašūs į žmones, o kai kurie net gali būti tik virtualūs. Pvz., virtualūs asistentai taip pat laikomi robotais.

