Hvad er Microsoft VALL-E?

Tekst-til-tale-teknologi har gjort store fremskridt, især i de seneste år. Drevet af forbedringer inden for kunstig intelligens kan dagens TTS levere høj kvalitet, der efterligner menneskelig tale.

Microsofts VALL-E er den nyeste teknologiske løsning, der kan få tekst-til-tale til at lyde næsten uhyggeligt menneskeligt. Det er en neural codec sprogmodel baseret på zero-shot maskinlæring.

Hvis den sidste sætning lyder som sci-fi teknobabble, så bare rolig. Vi vil forklare de komplekse begreber bag VALL-E i artiklen nedenfor.

Microsoft VALL-E forklaret

AI-modeller vokser hurtigt i styrke. Alle kender nu til OpenAI's ChatGPT, som måske er det tætteste, vi er kommet på AI, der virker som en rigtig person. Og du har sikkert set noget AI-genereret kunst fra DALL-E motoren.

Udover startups som OpenAI har globale virksomheder som Microsoft været betydelige aktører inden for AI.

Microsofts forskere har for nylig arbejdet på fremskridt inden for tekst-til-tale-syntese. VALL-E repræsenterer netop dette.

Den nye AI vil sandsynligvis ændre spillet inden for TTS, fordi den kan generere menneskelignende tale baseret på en lille lydprøve. En tre sekunders akustisk prompt er nok for VALL-E til at opfange den specifikke talers mønstre.

Efter at have modtaget talerprompten kan AI'en efterligne menneskets stemme og endda simulere deres følelsesmæssige tone. Lige så imponerende bevarer VALL-E den akustiske miljø fra den usete taler.

Kort sagt, VALL-E modellen udmærker sig i talerlighed. Du kan høre den i aktion på GitHub, hvor Microsoft har delt lydeksempler sammen med en detaljeret forklaring af AI'en.

Selvfølgelig har sådan teknologi mange potentielle anvendelser, som at skabe podcasts og lydbøger. Potentialet kan vokse yderligere, når VALL-E kombineres med generative modeller som GPT-3.

Men teknologi som VALL-E kunne også bruges til mere skumle formål.

Da VALL-E kan lyde skræmmende som en rigtig person, er det let at se, hvordan ondsindede aktører kunne udnytte teknologien til svindel som ikke-samtykkende, skadelige deepfakes. Sådanne muligheder fik Microsoft til at udsende en etisk erklæring.

I erklæringen går virksomheden ind for specifikke tale-redigeringsmodeller, der ville sikre samtykke fra den oprindelige taler.

Men kontroverser omkring VALL-E's potentielle anvendelser er en overvejelse for fremtiden. For nu er der et mere spændende spørgsmål på bordet:

Hvordan replikerer AI'en komplekse mønstre med kun en tre sekunders lyd som en grundlæggende prøve?

Ikke overraskende er svaret ret komplekst.

VALL-E havde omfattende træningsdata, bestående af tusindvis af timer med engelsk tale. Dette forberedte AI'en til problemfri simulation af engelsk sprog. Men VALL-E er ikke dit almindelige TTS-system – det er drevet af banebrydende maskinlæringsteknologi.

Vi har allerede nævnt teknologiens navn: zero-shot neural codec sprogmodel. Lad os se på, hvad disse termer betyder i praksis.

Forståelse af zero-shot neural codec sprogmodeller

Startende med det mere ligetil udtryk, refererer “zero-shot” til en specifik teknologi for tekst-til-tale-motorer. Det tillader AI-genereret tale baseret på tidligere ukendte data. Med andre ord kan computeren læse tekst højt, den aldrig har “set” før.

Endnu mere imponerende tillader zero-shot teknologi maskinen at producere oplæsninger uden yderligere træning. Grundlæggende er det ligesom, hvordan mennesker kan læse en ukendt tekst på et sprog, de allerede kender.

Går vi videre til den komplicerede del, kræver “neural codec sprogmodel” en yderligere opdeling.

TTS-motorer er afhængige af lydcodecs for at skabe bølgeformer baseret på skreven tekst. Codecen hjælper AI'en med at oversætte skrevne bogstaver, ord og sætninger til tilsvarende lyde. En neural codec tjener samme formål, men er baseret på et robust neuralt netværk.

Selvfølgelig rejser dette et yderligere spørgsmål: Hvad er et neuralt netværk?

Vi vil forklare det her i bredere træk uden at gå endnu dybere. Et neuralt netværk forsøger at efterligne, hvordan den menneskelige hjerne fungerer. Netværket består af kunstige neuroner kaldet noder, som er forbundet og organiseret i lag.

Den komplekse struktur muliggør såkaldt dyb læring, hvilket gør maskinen mere i stand til at udvikle og tilpasse ukendte mønstre.

Den neurale codec driver sprogmodellen, den anden del af denne tekst til tale ligning.

Sprogmodellen trækker på et datasæt for at forstå enhver tekstinput i konteksten af et faktisk sprog. Med andre ord, sådan “forstår” maskinen teksten.

I VALL-E's tilfælde fungerede LibriLight, et lydarkiv samlet af Facebooks Meta, som AI'ens sprogmodelfundament.

Lyt til den banebrydende TTS-teknologi i aktion med Speechify

Selvom VALL-E stadig ikke er tilgængelig for offentligheden, kan du høre, hvordan en avanceret tekst til tale motor lyder med Speechify. Speechify er en TTS-tjeneste, der kan læse tekst højt fra praktisk talt enhver kilde.

Uanset om du giver den skreven tekst, webindhold eller en scannet side, vil Speechify læse det med det samme. Endnu bedre, motoren har fortællerstemmer, der lyder naturlige. I modsætning til de typiske robotagtige TTS-motorer lyder Speechify mere som et menneske end en maskine.

Derudover kan du justere, hvordan Speechify læser. Vælg dit foretrukne sprog, fortæller og læsehastighed, og lyt til enhver tekst præcis, som du ønsker.

Hvis alt dette lyder spændende, kan du prøve Speechify gratis i dag.

FAQ

Kan folk bruge Vall-E?

Der er mange bekymringer om, hvordan VALL-E kunne misbruges. Identitetstyveri er en særlig bekymrende mulighed. Af den grund har Microsoft valgt ikke at gøre VALL-E offentligt tilgængelig.

Hvad er Microsoft AI?

Microsoft AI er ikke et bestemt produkt. I stedet fungerer virksomhedens program som en AI-udviklingsramme. Microsoft AI inkluderer datavidenskabsløsninger, konversations-AI, robotteknologi, maskinlæring og andre fremskridt i branchen.

Hvad er en stemmestyret grænseflade?

En stemmestyret grænseflade er præcis, hvad det lyder som - en brugergrænseflade, du interagerer med via stemmekommandoer. Denne teknologi er allerede almindelig i smarte enheder – tænk på Amazons Alexa, Apples Siri, Microsofts Cortana eller Googles Assistant.

Hvad er en robot?

Begrebet “robot” betegner enhver maskine, der opererer automatisk. Sådanne maskiner er designet som erstatninger for menneskelig arbejdskraft. På trods af den typiske fremstilling i populærkulturen er de fleste robotter ikke humanoide i udseende. Faktisk behøver de måske ikke engang have en fysisk form. For eksempel tæller nutidens populære virtuelle assistenter også som robotter.

Speechify er verdens førende tekst-til-tale-platform, betroet af over 50 millioner brugere og med mere end 500.000 femstjernede anmeldelser på sine tekst-til-tale iOS-, Android-, Chrome-udvidelse-, webapp- og Mac desktop-apps. I 2025 tildelte Apple Speechify den prestigefyldte Apple Design Award ved WWDC og kaldte det “en uvurderlig ressource, der hjælper folk med at leve deres liv.” Speechify tilbyder over 1.000 naturligt lydende stemmer på mere end 60 sprog og bruges i næsten 200 lande. Kendte stemmer inkluderer Snoop Dogg, Mr. Beast og Gwyneth Paltrow. For skabere og virksomheder tilbyder Speechify Studio avancerede værktøjer, herunder AI Voice Generator, AI Voice Cloning, AI Dubbing og AI Voice Changer. Speechify driver også førende produkter med sin høj-kvalitets og omkostningseffektive tekst-til-tale API. Omtalt i The Wall Street Journal, CNBC, Forbes, TechCrunch og andre store nyhedsmedier, er Speechify verdens største tekst-til-tale-udbyder. Besøg speechify.com/news, speechify.com/blog og speechify.com/press for at lære mere.

Hvad er Microsoft VALL-E?

Cliff Weitzman

#1 Tekst-til-tale læser.
Lad Speechify læse for dig.

Microsoft VALL-E forklaret

Forståelse af zero-shot neural codec sprogmodeller

Lyt til den banebrydende TTS-teknologi i aktion med Speechify