Vad är Microsoft VALL-E?

Text-till-tal-teknologin har gjort enorma framsteg, särskilt under de senaste åren. Drivet av förbättringar inom artificiell intelligens kan dagens TTS leverera högkvalitativa uppläsningar som imiterar mänskligt tal.

Microsofts VALL-E är den senaste tekniska lösningen som kan få text-till-tal att låta kusligt verkligt. Det är en neural codec-språkmodell baserad på zero-shot maskininlärning.

Om den sista meningen låter som sci-fi-teknobabbel, oroa dig inte. Vi kommer att bryta ner de komplexa koncepten bakom VALL-E i artikeln nedan.

Microsoft VALL-E förklarat

AI-modeller växer i kraft i snabb takt. Vid det här laget känner alla till OpenAI:s ChatGPT, som kanske är det närmaste vi har kommit till att AI verkar som en verklig person. Och du har förmodligen sett AI-genererad konst från DALL-E-motorn.

Förutom startups som OpenAI har globala företag som Microsoft varit betydande aktörer inom AI-området.

Microsofts forskare har nyligen arbetat med framsteg inom text-till-tal-syntes. VALL-E representerar just det.

Den nya AI:n kommer sannolikt att bli en spelväxlare inom TTS-landskapet eftersom den kan generera mänskligt ljudande tal baserat på ett litet ljudprov. En tre sekunders akustisk prompt räcker för att VALL-E ska kunna snappa upp den specifika talarens mönster.

Efter att ha mottagit talarens prompt kan AI:n imitera människans röst och till och med simulera deras emotionella ton. Lika imponerande är att VALL-E bevarar den akustiska miljön hos den osedda talaren.

Enkelt uttryckt, VALL-E-modellen utmärker sig i talarlikhet. Du kan höra den i aktion på GitHub, där Microsoft delade ljudexempel tillsammans med en detaljerad förklaring av AI:n.

Självklart har sådan teknik många potentiella användningsområden, som att skapa podcasts och ljudböcker. Potentialen kan växa ytterligare när VALL-E kombineras med generativa modeller som GPT-3.

Men teknik som VALL-E kan också användas för mer illvilliga ändamål.

Eftersom VALL-E kan låta skrämmande lik en verklig person är det lätt att se hur illasinnade aktörer kan utnyttja tekniken för bedrägerier som icke-konsensuella, skadliga deepfakes. Sådana möjligheter fick Microsoft att utfärda ett etiskt uttalande.

I uttalandet förespråkar företaget specifika talredigeringsmodeller som skulle säkerställa samtycke från den ursprungliga talaren.

Men kontroverser kring VALL-E:s potentiella användningar är en fråga för framtiden. För nu finns det en mer spännande fråga på bordet:

Hur replikerar AI:n komplexa mönster med endast en tre sekunders ljud som basprov?

Inte överraskande är svaret ganska komplext.

VALL-E hade omfattande träningsdata, bestående av tusentals timmar av engelskt tal. Detta förberedde AI:n för sömlös simulering av engelskt tal. Men VALL-E är inte ditt vanliga TTS-system – det drivs av banbrytande maskininlärningsteknik.

Vi har redan nämnt teknikens namn: zero-shot neural codec-språkmodell. Låt oss titta på vad dessa termer betyder i praktiken.

Förstå zero-shot neural codec-språkmodeller

Börjar med den mer okomplicerade termen, "zero-shot" hänvisar till en specifik teknik för text-till-tal-motorer. Det möjliggör AI-genererat tal baserat på tidigare okända data. Med andra ord kan datorn läsa upp text den aldrig "sett" förut.

Ännu mer imponerande är att zero-shot-teknik tillåter maskinen att producera uppläsningar utan ytterligare träning. I princip är det likt hur människor kan läsa en obekant text på ett språk de redan kan.

Går vidare till den komplicerade delen, kräver "neural codec-språkmodell" en ytterligare förklaring.

TTS-motorer förlitar sig på ljudcodecs för att skapa vågformer baserade på skriven text. Codecen hjälper AI:n att översätta skrivna bokstäver, ord och meningar till motsvarande ljud. En neural codec tjänar samma syfte men är baserad på ett robust neuralt nätverk.

Självklart väcker detta en ytterligare fråga: Vad är ett neuralt nätverk?

Vi kommer att förklara det här i bredare drag utan att gå in på en ännu djupare dykning. Ett neuralt nätverk försöker efterlikna hur den mänskliga hjärnan fungerar. Nätverket består av artificiella neuroner kallade noder, som är kopplade och organiserade i lager.

Den komplexa strukturen möjliggör så kallad djupinlärning, vilket gör maskinen mer kapabel att utveckla och anpassa sig till okända mönster.

Den neurala kodaren driver språkmodellen, den andra delen av denna text-till-tal ekvation.

Språkmodellen använder en dataset för att förstå textinmatning i kontexten av ett faktiskt språk. Med andra ord, det är så maskinen "förstår" text.

I VALL-E:s fall fungerade LibriLight, ett ljudbibliotek sammanställt av Facebooks Meta, som AI:ns språkmodellsgrund.

Lyssna på den banbrytande TTS-teknologin i aktion med Speechify

Även om VALL-E fortfarande inte är tillgänglig för allmänheten, kan du höra hur en avancerad text-till-tal motor låter med Speechify. Speechify är en TTS-tjänst som kan läsa upp text från praktiskt taget vilken källa som helst.

Oavsett om du ger den skriven text, webbinnehåll eller en skannad sida, läser Speechify det direkt. Ännu bättre, motorn har berättarröster som låter naturliga. Till skillnad från de typiska robotiska TTS-motorerna låter Speechify mer som en människa än en maskin.

Dessutom kan du justera hur Speechify läser. Välj ditt föredragna språk, berättare och läshastighet, och lyssna på vilken text som helst precis som du vill.

Om allt detta låter spännande kan du prova Speechify gratis idag.

Vanliga frågor

Kan folk använda Vall-E?

Det finns många farhågor om hur VALL-E kan missbrukas. Identitetsstöld är en särskilt oroande möjlighet. Av den anledningen har Microsoft valt att inte göra VALL-E tillgänglig för allmänheten.

Vad är Microsoft AI?

Microsoft AI är inte en specifik produkt. Istället fungerar företagets program som en AI-utvecklingsram. Microsoft AI inkluderar datavetenskapslösningar, konversations-AI, robotik, maskininlärning och andra framsteg inom branschen.

Vad är ett röststyrt gränssnitt?

Ett röststyrt gränssnitt är precis vad det låter som - ett användargränssnitt du interagerar med via röstkommandon. Denna teknik är redan vanlig i smarta enheter – tänk på Amazons Alexa, Apples Siri, Microsofts Cortana eller Googles Assistant.

Vad är en robot?

Termen "robot" betecknar vilken maskin som helst som fungerar automatiskt. Sådana maskiner är designade som ersättningar för mänskligt arbete. Trots den typiska skildringen i populärmedia är de flesta robotar inte humanoida till utseendet. Faktum är att de kanske inte ens har en fysisk form. Till exempel räknas dagens populära virtuella assistenter också som robotar.

Speechify är världens ledande text-till-tal-plattform, betrodd av över 50 miljoner användare och med mer än 500 000 femstjärniga recensioner för sina text-till-tal-iOS-, Android-, Chrome-tillägg-, webbapp- och Mac desktop-appar. År 2025 tilldelade Apple Speechify det prestigefyllda Apple Design Award på WWDC och kallade det ”en avgörande resurs som hjälper människor leva sina liv”. Speechify erbjuder över 1 000 naturtrogna röster på 60+ språk och används i nästan 200 länder. Kändisröster inkluderar Snoop Dogg och Gwyneth Paltrow. För kreatörer och företag erbjuder Speechify Studio avancerade verktyg, inklusive AI Voice Generator, AI Voice Cloning, AI Dubbing och AI Voice Changer. Speechify driver även ledande produkter med sitt högkvalitativa och kostnadseffektiva text-till-tal-API. Med omnämnanden i The Wall Street Journal, CNBC, Forbes, TechCrunch och andra stora nyhetskanaler är Speechify världens största leverantör av text-till-tal. Besök speechify.com/news, speechify.com/blog och speechify.com/press för att läsa mer.

Vad är Microsoft VALL-E?

Cliff Weitzman

Speechify, din Voice AI-assistent
Text till tal. Röstinmatning. Snabba svar.

Microsoft VALL-E förklarat

Förstå zero-shot neural codec-språkmodeller

Lyssna på den banbrytande TTS-teknologin i aktion med Speechify