Wat is Microsoft VALL-E?
Uitgelicht In
Microsoft VALL-E vertegenwoordigt de nieuwste technologische vooruitgang die volledig natuurlijk klinkende TTS mogelijk maakt. Hier is een gedetailleerd overzicht van de technologie.
Tekst-naar-spraak technologie heeft enorme sprongen gemaakt, vooral in de afgelopen jaren. Aangedreven door verbeteringen in kunstmatige intelligentie, kan de huidige TTS hoogwaardige voorlezingen leveren die menselijke spraak nabootsen.
Microsoft's VALL-E is de nieuwste technologische oplossing die tekst-naar-spraak bijna griezelig echt kan laten klinken. Het is een neurale codec-taalmodel gebaseerd op zero-shot machine learning.
Als die laatste zin als sciencefiction-technobabbel klinkt, maak je geen zorgen. We zullen de complexe concepten achter VALL-E hieronder in het artikel uitleggen.
Microsoft VALL-E uitgelegd
AI-modellen worden in hoog tempo krachtiger. Tegenwoordig kent iedereen OpenAI's ChatGPT, wat misschien wel het dichtst in de buurt komt van AI die als een echt persoon lijkt. En je hebt waarschijnlijk wat AI-gegenereerde kunst van de DALL-E engine gezien.
Naast startups zoals OpenAI, zijn wereldwijde bedrijven zoals Microsoft belangrijke spelers in de AI-ruimte.
Onderzoekers van Microsoft hebben recentelijk gewerkt aan verbeteringen in tekst-naar-spraak synthese. VALL-E vertegenwoordigt precies dat.
De nieuwe AI zal waarschijnlijk een revolutie teweegbrengen in het TTS-landschap omdat het menselijke spraak kan genereren op basis van een klein audiofragment. Een akoestische prompt van drie seconden is genoeg voor VALL-E om de specifieke patronen van de spreker op te pikken.
Na het ontvangen van de sprekerprompt kan de AI de menselijke stem imiteren en zelfs hun emotionele toon nabootsen. Even indrukwekkend is dat VALL-E de akoestische omgeving van de onbekende spreker behoudt.
Kort gezegd blinkt het VALL-E model uit in spreker-gelijkenis. Je kunt het in actie horen op GitHub, waar Microsoft audio-voorbeelden heeft gedeeld samen met een gedetailleerde uitleg van de AI.
Natuurlijk heeft dergelijke technologie tal van potentiële toepassingen, zoals het maken van podcasts en audioboeken. Het potentieel kan verder groeien naarmate VALL-E wordt gecombineerd met generatieve modellen zoals GPT-3.
Maar technologie zoals VALL-E kan ook voor meer kwaadaardige doeleinden worden gebruikt.
Aangezien VALL-E angstaanjagend echt kan klinken, is het gemakkelijk in te zien hoe kwaadwillenden de technologie zouden kunnen gebruiken voor oplichting zoals niet-consensuele, schadelijke deepfakes. Dergelijke mogelijkheden hebben Microsoft ertoe aangezet een ethische verklaring af te geven.
In de verklaring pleit het bedrijf voor specifieke spraakbewerkingsmodellen die toestemming van de oorspronkelijke spreker zouden waarborgen.
Maar controverses rond de potentiële toepassingen van VALL-E zijn een overweging voor de toekomst. Voor nu is er een spannendere vraag op tafel:
Hoe kan de AI complexe patronen repliceren met slechts een drie seconden durend audiofragment als basisvoorbeeld?
Niet verrassend is het antwoord behoorlijk complex.
VALL-E had uitgebreide trainingsdata, bestaande uit duizenden uren Engelse spraak. Dit bereidde de AI voor op naadloze simulatie van Engelse taalspraak. VALL-E is echter niet je doorsnee TTS-systeem – het wordt aangedreven door geavanceerde machine learning technologie.
We hebben de naam van de technologie al genoemd: zero-shot neurale codec-taalmodel. Laten we eens kijken wat die termen in de praktijk betekenen.
Begrijpen van zero-shot neurale codec-taalmodellen
Te beginnen met de eenvoudigere term, "zero-shot" verwijst naar een specifieke technologie voor tekst-naar-spraak engines. Het maakt AI-gegenereerde spraak mogelijk op basis van voorheen onbekende data. Met andere woorden, de computer kan tekst voorlezen die het nog nooit eerder heeft "gezien".
Nog indrukwekkender is dat zero-shot technologie de machine in staat stelt om voorlezingen te produceren zonder extra training. In wezen is het vergelijkbaar met hoe mensen een onbekende tekst kunnen lezen in een taal die ze al kennen.
Overgaand naar het ingewikkelde deel, vereist het "neurale codec-taalmodel" een verdere uitleg.
TTS-engines vertrouwen op audiocodecs om golfvormen te creëren op basis van geschreven tekst. De codec helpt de AI om geschreven letters, woorden en zinnen om te zetten in bijbehorende geluiden. Een neurale codec dient hetzelfde doel, maar is gebaseerd op een robuust neuraal netwerk.
Natuurlijk roept dit een extra vraag op: Wat is een neuraal netwerk?
We zullen het hier in bredere lijnen uitleggen zonder in nog diepere details te treden. Een neuraal netwerk probeert na te bootsen hoe het menselijk brein functioneert. Het netwerk bestaat uit kunstmatige neuronen, zogenaamde knooppunten, die verbonden en georganiseerd zijn in lagen.
De complexe structuur maakt zogenaamde deep learning mogelijk, waardoor de machine beter in staat is om onbekende patronen te ontwikkelen en aan te passen.
De neurale codec drijft het taalmodel aan, het andere deel van deze tekst-naar-spraak vergelijking.
Het taalmodel gebruikt een dataset om elke tekstinvoer in de context van een echte taal te begrijpen. Met andere woorden, dit is hoe de machine “zin geeft” aan tekst.
In het geval van VALL-E diende LibriLight, een audiobibliotheek samengesteld door Facebook's Meta, als de basis voor het AI-taalmodel.
Luister naar de geavanceerde TTS-technologie in actie met Speechify
Hoewel VALL-E nog niet beschikbaar is voor het publiek, kun je horen hoe een geavanceerde tekst-naar-spraak motor klinkt met Speechify. Speechify is een TTS-dienst die tekst van praktisch elke bron kan voorlezen.
Of je nu geschreven tekst, webinhoud of een gescande pagina geeft, Speechify leest het direct voor. Beter nog, de motor heeft vertelstemmen die natuurlijk klinken. In tegenstelling tot de typische robotachtige TTS-motoren klinkt Speechify meer als een mens dan als een machine.
Bovendien kun je aanpassen hoe Speechify leest. Kies je voorkeurstaal, verteller en leessnelheid, en luister naar elke tekst precies zoals jij wilt.
Als dit allemaal spannend klinkt, kun je Speechify vandaag gratis uitproberen.
FAQ
Kunnen mensen Vall-E gebruiken?
Er zijn veel zorgen over hoe VALL-E misbruikt zou kunnen worden. Identiteitsdiefstal is een bijzonder zorgwekkende mogelijkheid. Om die reden heeft Microsoft ervoor gekozen om VALL-E niet openbaar beschikbaar te maken.
Wat is Microsoft AI?
Microsoft AI is geen specifiek product. In plaats daarvan dient het programma van het bedrijf als een AI-ontwikkelingsraamwerk. Microsoft AI omvat datawetenschapsoplossingen, conversatie-AI, robotica, machine learning en andere vooruitgangen in de industrie.
Wat is een spraakgestuurde interface?
Een spraakgestuurde interface is precies wat het klinkt - een gebruikersinterface waarmee je via spraakopdrachten interacteert. Deze technologie is al gebruikelijk in slimme apparaten – denk aan Amazon's Alexa, Apple's Siri, Microsoft's Cortana of Google's Assistant.
Wat is een robot?
De term “robot” duidt op elke machine die automatisch werkt. Dergelijke machines zijn ontworpen als vervanging voor menselijke arbeid. Ondanks de typische weergave in populaire media, zijn de meeste robots niet mensachtig van uiterlijk. Sterker nog, ze hebben misschien niet eens een fysieke vorm. Bijvoorbeeld, de populaire virtuele assistenten van vandaag tellen ook als robots.
Cliff Weitzman
Cliff Weitzman is een voorvechter van dyslexie en de CEO en oprichter van Speechify, de nummer 1 tekst-naar-spraak app ter wereld, met meer dan 100.000 beoordelingen van 5 sterren en de eerste plaats in de App Store in de categorie Nieuws & Tijdschriften. In 2017 werd Weitzman opgenomen in de Forbes 30 onder 30 lijst voor zijn werk om het internet toegankelijker te maken voor mensen met leerstoornissen. Cliff Weitzman is te zien geweest in EdSurge, Inc., PC Mag, Entrepreneur, Mashable, en andere toonaangevende media.