Kaj je Microsoft VALL-E?

Tehnologija pretvorbe besedila v govor napreduje izjemno hitro, posebej v zadnjih letih. Zaradi napredka umetne inteligence lahko današnji TTS že zelo dobro posnema človeški govor.

Microsoftov VALL-E je najnovejša rešitev, ki lahko glasovni posnetek skoraj popolno približa človeškemu govoru. Gre za nevronski kodek jezikovnega modela, temelječega na »zero-shot« strojnem učenju.

Če je zadnji stavek zvenel kot znanstvena fantastika, brez skrbi. Spodaj bomo razložili zahtevnejše pojme o VALL-E.

Kaj je Microsoft VALL-E

AI modeli bliskovito napredujejo. Danes vsi poznamo OpenAI ChatGPT, ki se najbolj približa občutku pogovora s človekom. Najbrž ste že videli tudi umetnost iz DALL-E.

Poleg zagonskih podjetij, kot je OpenAI, pomembno vlogo na področju umetne inteligence igra tudi Microsoft.

Microsoftovi raziskovalci so nedavno razvili nove pristope k sintezi govora. Eden takih je VALL-E.

Nova AI tehnologija bo najverjetneje preoblikovala TTS, saj lahko že iz kratkega zvočnega vzorca ustvari govor, ki zveni naravno. Trisekundni glasovni vzorec zadošča, da VALL-E prepozna govorca.

Ko prejme vzorec, lahko AI posnema glas osebe in celo njen čustveni izraz. VALL-E ohrani tudi zvok okolja govorca.

Po domače povedano, VALL-E vrhunsko posnema posebnosti govorca. Posnetke si lahko poslušate na GitHubu, kjer je Microsoft objavil primere z razlago.

Tehnologija ima veliko uporab, na primer za ustvarjanje podcastov in avdio knjig. Z VALL-E in modeli, kot je GPT-3, bodo možnosti še večje.

A takšno tehnologijo je mogoče izkoristiti tudi za škodljive namene.

Ker lahko VALL-E naravnost srhljivo dobro posnema osebo, si ni težko predstavljati zlorab za prevare in deepfake posnetke brez soglasja. Zaradi tega je Microsoft objavil etično izjavo.

V izjavi zagovarjajo ureditev, po kateri bi bilo za spreminjanje govora potrebno izrecno dovoljenje govorca.

A vse razprave o možnih zlorabah VALL-E so za prihodnost. Trenutno je tu bolj zanimivo vprašanje:

Kako lahko ta AI s samo tremi sekundami zvoka tako dobro posnema glasovne vzorce?

Kot ste verjetno uganili, je odgovor precej zapleten.

VALL-E je bil treniran na tisočih ur angleških posnetkov. Zaradi ogromne baze podatkov lahko vrhunsko simulira govor. VALL-E pa ni običajen TTS, temveč temelji na najsodobnejši AI tehnologiji.

Ime tehnologije smo že omenili: »zero-shot« nevronski kodek jezikovni model. Kaj ti izrazi pomenijo v praksi?

Kaj pomeni »zero-shot« nevronski kodek jezikovni model

»Zero-shot« se nanaša na tehnologijo, ki AI omogoča generiranje govora na podlagi povsem novih podatkov. Računalnik lahko torej bere besedilo, ki ga še ni »videl«.

Še bolj impresivno je, da lahko AI proizvaja govor brez dodatnega učenja. Podobno kot ljudje preberejo neznano vsebino v že poznanem jeziku.

Za zahtevnejši del – »nevronski kodek jezikovni model« – pa potrebujemo še nekaj dodatnih pojasnil.

TTS pogoni uporabljajo avdio kodeke za generiranje zvočnega vala iz besedila. Kodek pomaga AI pretvoriti besede in stavke v zvok. Nevronski kodek to počne prek nevronske mreže.

Tukaj se pojavi dodatno vprašanje: kaj sploh je nevronska mreža?

V grobem povedano: nevronska mreža posnema delovanje človeških možganov. Sestavljena je iz umetnih nevronov (vozlišč), povezanih v sloje.

Ta zapletena struktura omogoča globoko učenje, zato je stroj veliko bolje sposoben zaznavati in prilagajati neznane vzorce.

Nevronski kodek poganja jezikovni model, ki je drugi ključni del enačbe za pretvorbo besedila v govor.

Jezikovni model uporablja bazo podatkov, da razume vsak vnos v okviru jezika. Tako stroj »razume« besedilo.

Pri VALL-E so uporabili zvočno knjižnico LibriLight, ki jo je sestavil Facebookov Meta, kot bazo jezikovnega modela.

Poslušajte napredno TTS tehnologijo v praksi s Speechify

Čeprav VALL-E še ni na voljo vsem, lahko s storitvijo Speechify slišite, kako zveni napreden TTS pogon. Speechify je TTS orodje, ki tekoče bere vse vrste besedil.

Ne glede na to, ali mu daste besedilo, spletno stran ali skenirano sliko, bo Speechify vsebino takoj prebral. Poleg tega nudi naravne glasove, ki ne zvenijo robotsko, temveč bolj kot resnična oseba.

Poleg tega lahko v Speechify branje prilagodite: izberete jezik, pripovedovalca, hitrost in poslušate katerokoli besedilo, kadar koli želite.

Če se vam to sliši zanimivo, ga lahko preizkusite brezplačno že danes.

Pogosta vprašanja

Ali lahko ljudje uporabljajo VALL-E?

Veliko je skrbi glede zlorab VALL-E. Ukradba identitete je posebej problematična. Zato Microsoft VALL-E še ni omogočil za splošno javnost.

Kaj je Microsoft AI?

Microsoft AI ni določen izdelek, temveč okvir za razvoj AI aplikacij. Sem sodijo rešitve za podatkovno znanost, pogovorni AI, robotiko, strojno učenje in druge AI inovacije.

Kaj je glasovni vmesnik?

Glasovni vmesnik pomeni, da z napravo komunicirate prek glasovnih ukazov. Ta tehnologija je že široko uporabljena v pametnih napravah – npr. Alexa, Siri, Cortana ali Google Assistant.

Kaj je robot?

Izraz »robot« pomeni vsako napravo, ki deluje samodejno. Zasnovani so kot nadomestek za človeško delo. Večina robotov ni videti kot ljudje. Včasih sploh nimajo fizične oblike – tudi virtualni pomočniki štejejo kot roboti.

Speechify je vodilna svetovna platforma za pretvorbo besedila v govor, ki ji zaupa več kot 50 milijonov uporabnikov in jo podpira več kot 500.000 petzvezdičnih ocen na njenih iOS, Android, Chrome razširitvi, spletni aplikaciji in v namiznih aplikacijah za Mac. Leta 2025 je Apple nagradil Speechify s prestižno nagrado Apple Design Award na WWDC in ga označil kot »ključni vir, ki ljudem pomaga živeti polno življenje.« Speechify ponuja več kot 1.000 naravnih glasov v več kot 60 jezikih in se uporablja v skoraj 200 državah. Med zvezdniškimi glasovi sta tudi Snoop Dogg in Gwyneth Paltrow. Za ustvarjalce in podjetja Speechify Studio ponuja napredna orodja, vključno z AI generatorjem glasov, AI kloniranjem glasu, AI dubliranjem in AI spreminjevalnikom glasu. Speechify vrhunskim izdelkom omogoča vrhunsko kakovosten in cenovno učinkovit API za pretvorbo besedila v govor. Pojavlja se v The Wall Street Journal, CNBC, Forbes, TechCrunch in drugih vodilnih novičarskih medijih. Speechify je največji ponudnik pretvorbe besedila v govor na svetu. Obiščite speechify.com/news, speechify.com/blog in speechify.com/press za več informacij.

Kaj je Microsoft VALL-E?

Cliff Weitzman

Speechify, vaš glasovni AI asistent
Pretvornik besedila v govor. Glasovno tipkanje. Hitri odgovori.

Kaj je Microsoft VALL-E

Kaj pomeni »zero-shot« nevronski kodek jezikovni model

Poslušajte napredno TTS tehnologijo v praksi s Speechify