Hva er Microsoft VALL-E?

Tekst-til-tale-teknologi har gjort store fremskritt, spesielt de siste årene. Drevet av forbedringer innen kunstig intelligens, kan dagens TTS levere høykvalitets opplesninger som imiterer menneskelig tale.

Microsofts VALL-E er den nyeste teknologiløsningen som kan få tekst-til-tale til å høres nesten uhyggelig ekte ut. Det er en nevrale kodeks språkmodell basert på zero-shot maskinlæring.

Hvis den siste setningen høres ut som sci-fi teknobabbel, ikke bekymre deg. Vi vil bryte ned de komplekse konseptene bak VALL-E i artikkelen nedenfor.

Microsoft VALL-E forklart

AI-modeller vokser i kraft i raskt tempo. Nå kjenner alle til OpenAI's ChatGPT, som kanskje er det nærmeste vi har kommet til at AI virker som en faktisk person. Og du har sannsynligvis sett noe AI-drevet kunst fra DALL-E-motoren.

Foruten oppstartsselskaper som OpenAI, har globale selskaper som Microsoft vært betydelige aktører innen AI.

Microsofts forskere har nylig jobbet med fremskritt innen tekst-til-tale-syntese. VALL-E representerer nettopp det.

Den nye AI-en vil sannsynligvis være en spillveksler i TTS-landskapet fordi den kan generere menneskelignende tale basert på en liten lydprøve. En tre sekunders akustisk prompt er nok for VALL-E til å fange opp den spesifikke talerens mønstre.

Etter å ha mottatt talerprompten, kan AI-en imitere menneskets stemme og til og med simulere deres følelsesmessige tone. Like imponerende, VALL-E bevarer det akustiske miljøet til den usette taleren.

Enkelt sagt, VALL-E-modellen utmerker seg i talersimilitet. Du kan høre den i aksjon på GitHub, hvor Microsoft delte lydeksempler sammen med en detaljert forklaring av AI-en.

Selvfølgelig har slik teknologi mange potensielle bruksområder, som å lage podkaster og lydbøker. Potensialet kan vokse ytterligere når VALL-E kombineres med generative modeller som GPT-3.

Men teknologi som VALL-E kan også brukes til mer skumle formål.

Siden VALL-E kan høres skremmende lik en faktisk person, er det lett å se hvordan ondsinnede aktører kan utnytte teknologien til svindel som ikke-samtykkende, skadelige deepfakes. Slike muligheter fikk Microsoft til å utstede en etisk erklæring.

I erklæringen går selskapet inn for spesifikke tale-redigeringsmodeller som vil sikre samtykke fra den opprinnelige taleren.

Men kontroverser rundt VALL-Es potensielle bruksområder er en vurdering for fremtiden. For nå er det et mer spennende spørsmål på bordet:

Hvordan replikerer AI komplekse mønstre med bare en tre sekunders lyd som grunnprøve?

Ikke overraskende er svaret ganske komplekst.

VALL-E hadde omfattende treningsdata, bestående av tusenvis av timer med engelsk tale. Dette forberedte AI-en for sømløs simulering av engelsk talespråk. Imidlertid er VALL-E ikke ditt vanlige TTS-system – det er drevet av banebrytende maskinlæringsteknologi.

Vi har allerede nevnt teknologinavnet: zero-shot nevrale kodeks språkmodell. La oss se på hva disse begrepene betyr i praksis.

Forståelse av zero-shot nevrale kodeks språkmodeller

Starter med det mer enkle begrepet, refererer “zero-shot” til en spesifikk teknologi for tekst-til-tale-motorer. Det tillater AI-generert tale basert på tidligere ukjente data. Med andre ord kan datamaskinen lese høyt tekst den aldri har “sett” før.

Enda mer imponerende, zero-shot-teknologi lar maskinen produsere opplesninger uten ytterligere trening. I hovedsak er det likt hvordan mennesker kan lese en ukjent tekst på et språk de allerede kjenner.

Når vi går videre til den kompliserte delen, krever “nevrale kodeks språkmodell” en ytterligere oppdeling.

TTS-motorer er avhengige av lydkodeker for å lage bølgeformer basert på skriftlig tekst. Kodeken hjelper AI-en med å oversette skriftlige bokstaver, ord og setninger til tilsvarende lyder. En nevrale kodeks tjener samme formål, men er basert på et robust nevralt nettverk.

Selvfølgelig reiser dette et tilleggsspørsmål: Hva er et nevralt nettverk?

Vi vil forklare det her i bredere trekk uten å gå inn i en enda dypere dykk. Et nevralt nettverk forsøker å etterligne hvordan den menneskelige hjernen fungerer. Nettverket består av kunstige nevroner kalt noder, som er koblet sammen og organisert i lag.

Den komplekse strukturen muliggjør såkalt dyp læring, noe som gjør maskinen mer i stand til å utvikle og tilpasse ukjente mønstre.

Den nevrale koden driver språkmodellen, den andre delen av denne tekst-til-tale løsningen.

Språkmodellen bruker et datasett for å forstå enhver tekst i konteksten av et faktisk språk. Med andre ord, dette er hvordan maskinen "forstår" tekst.

I VALL-Es tilfelle fungerte LibriLight, et lydarkiv satt sammen av Facebooks Meta, som grunnlaget for AI-ens språkmodell.

Hør den banebrytende TTS-teknologien i aksjon med Speechify

Selv om VALL-E fortsatt ikke er tilgjengelig for offentligheten, kan du høre hvordan en avansert tekst-til-tale motor høres ut med Speechify. Speechify er en TTS-tjeneste som kan lese opp tekst fra praktisk talt hvilken som helst kilde.

Enten du gir den skriftlig tekst, nettinnhold eller en skannet side, vil Speechify lese det umiddelbart. Enda bedre, motoren har fortellerstemmer som høres naturlige ut. I motsetning til de typiske robotiske TTS-motorene, høres Speechify mer ut som et menneske enn en maskin.

I tillegg kan du justere hvordan Speechify leser. Velg ditt foretrukne språk, forteller og lesehastighet, og lytt til enhver tekst akkurat slik du vil.

Hvis alt dette høres spennende ut, kan du prøve Speechify gratis i dag.

FAQ

Kan folk bruke Vall-E?

Det er mange bekymringer om hvordan VALL-E kan misbrukes. Identitetstyveri er en spesielt bekymringsfull mulighet. Av den grunn har Microsoft valgt å ikke gjøre VALL-E offentlig tilgjengelig.

Hva er Microsoft AI?

Microsoft AI er ikke et bestemt produkt. I stedet fungerer selskapets program som en ramme for AI-utvikling. Microsoft AI inkluderer datavitenskapelige løsninger, samtale-AI, robotikk, maskinlæring og andre fremskritt i bransjen.

Hva er et stemmestyrt grensesnitt?

Et stemmestyrt grensesnitt er akkurat hva det høres ut som - et brukergrensesnitt du interagerer med via stemmekommandoer. Denne teknologien er allerede vanlig i smarte enheter – tenk på Amazons Alexa, Apples Siri, Microsofts Cortana eller Googles Assistant.

Hva er en robot?

Begrepet "robot" betegner enhver maskin som opererer automatisk. Slike maskiner er designet som erstatninger for menneskelig arbeidskraft. Til tross for den typiske fremstillingen i populærmedia, er de fleste roboter ikke humanoide i utseende. Faktisk trenger de kanskje ikke engang ha en fysisk form. For eksempel regnes dagens populære virtuelle assistenter også som roboter.

Speechify er verdens ledende tekst-til-tale-plattform, med over 50 millioner brukere og mer enn 500 000 femstjerners vurderinger på sine tekst-til-tale-iOS-, Android-, Chrome-utvidelse-, webapp- og Mac-desktop-apper. I 2025 ga Apple Speechify den prestisjetunge Apple Design Award på WWDC, og kalte det «en kritisk ressurs som hjelper folk å leve livene sine». Speechify tilbyr over 1 000 naturtro stemmer på mer enn 60 språk, og brukes i nærmere 200 land. Kjendisstemmer inkluderer Snoop Dogg og Gwyneth Paltrow. For skapere og bedrifter gir Speechify Studio avanserte verktøy, inkludert AI voice generator, AI-stemmekloning, AI-dubbing og AI-stemmebytter. Speechify driver også ledende produkter med sitt høykvalitets, kostnadseffektive tekst-til-tale-API. Omtalt i The Wall Street Journal, CNBC, Forbes, TechCrunch og andre store nyhetskanaler, er Speechify verdens største tekst-til-tale-leverandør. Besøk speechify.com/news, speechify.com/blog og speechify.com/press for å lære mer.

Hva er Microsoft VALL-E?

Cliff Weitzman

Speechify, din Voice AI-assistent
Tekst til tale. Stemmeinnskriving. Raske svar.

Microsoft VALL-E forklart

Forståelse av zero-shot nevrale kodeks språkmodeller

Hør den banebrytende TTS-teknologien i aksjon med Speechify