Wat is Microsoft VALL-E?

Tekst-naar-spraak technologie heeft enorme sprongen gemaakt, vooral in de afgelopen jaren. Aangedreven door verbeteringen in kunstmatige intelligentie, kan de huidige TTS hoogwaardige voorlezingen leveren die menselijke spraak nabootsen.

Microsoft's VALL-E is de nieuwste technologische oplossing die tekst-naar-spraak bijna griezelig echt kan laten klinken. Het is een neurale codec-taalmodel gebaseerd op zero-shot machine learning.

Als die laatste zin als sciencefiction-technobabbel klinkt, maak je geen zorgen. We zullen de complexe concepten achter VALL-E hieronder in het artikel uitleggen.

Microsoft VALL-E uitgelegd

AI-modellen worden in hoog tempo krachtiger. Tegenwoordig kent iedereen OpenAI's ChatGPT, wat misschien wel het dichtst in de buurt komt van AI die als een echt persoon lijkt. En je hebt waarschijnlijk wat AI-gegenereerde kunst van de DALL-E engine gezien.

Naast startups zoals OpenAI, zijn wereldwijde bedrijven zoals Microsoft belangrijke spelers in de AI-ruimte.

Onderzoekers van Microsoft hebben recentelijk gewerkt aan verbeteringen in tekst-naar-spraak synthese. VALL-E vertegenwoordigt precies dat.

De nieuwe AI zal waarschijnlijk een revolutie teweegbrengen in het TTS-landschap omdat het menselijke spraak kan genereren op basis van een klein audiofragment. Een akoestische prompt van drie seconden is genoeg voor VALL-E om de specifieke patronen van de spreker op te pikken.

Na het ontvangen van de sprekerprompt kan de AI de menselijke stem imiteren en zelfs hun emotionele toon nabootsen. Even indrukwekkend is dat VALL-E de akoestische omgeving van de onbekende spreker behoudt.

Kort gezegd blinkt het VALL-E model uit in spreker-gelijkenis. Je kunt het in actie horen op GitHub, waar Microsoft audio-voorbeelden heeft gedeeld samen met een gedetailleerde uitleg van de AI.

Natuurlijk heeft dergelijke technologie tal van potentiële toepassingen, zoals het maken van podcasts en audioboeken. Het potentieel kan verder groeien naarmate VALL-E wordt gecombineerd met generatieve modellen zoals GPT-3.

Maar technologie zoals VALL-E kan ook voor meer kwaadaardige doeleinden worden gebruikt.

Aangezien VALL-E angstaanjagend echt kan klinken, is het gemakkelijk in te zien hoe kwaadwillenden de technologie zouden kunnen gebruiken voor oplichting zoals niet-consensuele, schadelijke deepfakes. Dergelijke mogelijkheden hebben Microsoft ertoe aangezet een ethische verklaring af te geven.

In de verklaring pleit het bedrijf voor specifieke spraakbewerkingsmodellen die toestemming van de oorspronkelijke spreker zouden waarborgen.

Maar controverses rond de potentiële toepassingen van VALL-E zijn een overweging voor de toekomst. Voor nu is er een spannendere vraag op tafel:

Hoe kan de AI complexe patronen repliceren met slechts een drie seconden durend audiofragment als basisvoorbeeld?

Niet verrassend is het antwoord behoorlijk complex.

VALL-E had uitgebreide trainingsdata, bestaande uit duizenden uren Engelse spraak. Dit bereidde de AI voor op naadloze simulatie van Engelse taalspraak. VALL-E is echter niet je doorsnee TTS-systeem – het wordt aangedreven door geavanceerde machine learning technologie.

We hebben de naam van de technologie al genoemd: zero-shot neurale codec-taalmodel. Laten we eens kijken wat die termen in de praktijk betekenen.

Begrijpen van zero-shot neurale codec-taalmodellen

Te beginnen met de eenvoudigere term, "zero-shot" verwijst naar een specifieke technologie voor tekst-naar-spraak engines. Het maakt AI-gegenereerde spraak mogelijk op basis van voorheen onbekende data. Met andere woorden, de computer kan tekst voorlezen die het nog nooit eerder heeft "gezien".

Nog indrukwekkender is dat zero-shot technologie de machine in staat stelt om voorlezingen te produceren zonder extra training. In wezen is het vergelijkbaar met hoe mensen een onbekende tekst kunnen lezen in een taal die ze al kennen.

Overgaand naar het ingewikkelde deel, vereist het "neurale codec-taalmodel" een verdere uitleg.

TTS-engines vertrouwen op audiocodecs om golfvormen te creëren op basis van geschreven tekst. De codec helpt de AI om geschreven letters, woorden en zinnen om te zetten in bijbehorende geluiden. Een neurale codec dient hetzelfde doel, maar is gebaseerd op een robuust neuraal netwerk.

Natuurlijk roept dit een extra vraag op: Wat is een neuraal netwerk?

We zullen het hier in bredere lijnen uitleggen zonder in nog diepere details te treden. Een neuraal netwerk probeert na te bootsen hoe het menselijk brein functioneert. Het netwerk bestaat uit kunstmatige neuronen, zogenaamde knooppunten, die verbonden en georganiseerd zijn in lagen.

De complexe structuur maakt zogenaamde deep learning mogelijk, waardoor de machine beter in staat is om onbekende patronen te ontwikkelen en aan te passen.

De neurale codec drijft het taalmodel aan, het andere deel van deze tekst-naar-spraak vergelijking.

Het taalmodel gebruikt een dataset om elke tekstinvoer in de context van een echte taal te begrijpen. Met andere woorden, dit is hoe de machine “zin geeft” aan tekst.

In het geval van VALL-E diende LibriLight, een audiobibliotheek samengesteld door Facebook's Meta, als de basis voor het AI-taalmodel.

Luister naar de geavanceerde TTS-technologie in actie met Speechify

Hoewel VALL-E nog niet beschikbaar is voor het publiek, kun je horen hoe een geavanceerde tekst-naar-spraak motor klinkt met Speechify. Speechify is een TTS-dienst die tekst van praktisch elke bron kan voorlezen.

Of je nu geschreven tekst, webinhoud of een gescande pagina geeft, Speechify leest het direct voor. Beter nog, de motor heeft vertelstemmen die natuurlijk klinken. In tegenstelling tot de typische robotachtige TTS-motoren klinkt Speechify meer als een mens dan als een machine.

Bovendien kun je aanpassen hoe Speechify leest. Kies je voorkeurstaal, verteller en leessnelheid, en luister naar elke tekst precies zoals jij wilt.

Als dit allemaal spannend klinkt, kun je Speechify vandaag gratis uitproberen.

FAQ

Kunnen mensen Vall-E gebruiken?

Er zijn veel zorgen over hoe VALL-E misbruikt zou kunnen worden. Identiteitsdiefstal is een bijzonder zorgwekkende mogelijkheid. Om die reden heeft Microsoft ervoor gekozen om VALL-E niet openbaar beschikbaar te maken.

Wat is Microsoft AI?

Microsoft AI is geen specifiek product. In plaats daarvan dient het programma van het bedrijf als een AI-ontwikkelingsraamwerk. Microsoft AI omvat datawetenschapsoplossingen, conversatie-AI, robotica, machine learning en andere vooruitgangen in de industrie.

Wat is een spraakgestuurde interface?

Een spraakgestuurde interface is precies wat het klinkt - een gebruikersinterface waarmee je via spraakopdrachten interacteert. Deze technologie is al gebruikelijk in slimme apparaten – denk aan Amazon's Alexa, Apple's Siri, Microsoft's Cortana of Google's Assistant.

Wat is een robot?

De term “robot” duidt op elke machine die automatisch werkt. Dergelijke machines zijn ontworpen als vervanging voor menselijke arbeid. Ondanks de typische weergave in populaire media, zijn de meeste robots niet mensachtig van uiterlijk. Sterker nog, ze hebben misschien niet eens een fysieke vorm. Bijvoorbeeld, de populaire virtuele assistenten van vandaag tellen ook als robots.

Speechify is wereldwijd het toonaangevende tekst-naar-spraak platform, vertrouwd door meer dan 50 miljoen gebruikers en ondersteund door meer dan 500.000 vijfsterrenbeoordelingen voor zijn tekst-naar-spraak iOS-, Android-, Chrome-extensie-, webapp- en Mac-desktop-apps. In 2025 heeft Apple Speechify bekroond met de prestigieuze Apple Design Award tijdens WWDC en noemde het “een essentiële hulpbron die mensen helpt hun leven te leiden.” Speechify biedt meer dan 1.000 natuurlijke stemmen in meer dan 60 talen en wordt gebruikt in bijna 200 landen. Bekende stemmen zijn onder andere Snoop Dogg, Mr. Beast en Gwyneth Paltrow. Voor makers en bedrijven biedt Speechify Studio geavanceerde tools, waaronder AI Voice Generator, AI Voice Cloning, AI Dubbing en de AI Voice Changer. Speechify ondersteunt ook toonaangevende producten met zijn hoogwaardige en kosteneffectieve tekst-naar-spraak API. Speechify is te zien geweest in The Wall Street Journal, CNBC, Forbes, TechCrunch en andere grote nieuwsmedia. Speechify is de grootste tekst-naar-spraak aanbieder ter wereld. Bezoek speechify.com/news, speechify.com/blog en speechify.com/press voor meer informatie.

Wat is Microsoft VALL-E?

Cliff Weitzman

#1 Tekst-naar-spraak lezer.
Laat Speechify voorlezen.

Microsoft VALL-E uitgelegd

Begrijpen van zero-shot neurale codec-taalmodellen

Luister naar de geavanceerde TTS-technologie in actie met Speechify