Was ist Microsoft VALL-E?

Die Text-zu-Sprache-Technologie hat in den letzten Jahren enorme Fortschritte gemacht. Angetrieben durch Verbesserungen in der künstlichen Intelligenz kann das heutige TTS qualitativ hochwertige Ausgaben liefern, die menschliche Sprache imitieren.

Microsofts VALL-E ist die neueste technologische Lösung, die Text-zu-Sprache geradezu unheimlich klingen lassen könnte. Es handelt sich um ein neuronales Codec-Sprachmodell, das auf Zero-Shot-Maschinelles Lernen basiert.

Wenn dieser letzte Satz wie Science-Fiction-Technogeschwafel klingt, keine Sorge. Wir werden die komplexen Konzepte hinter VALL-E im folgenden Artikel aufschlüsseln.

Microsoft VALL-E erklärt

KI-Modelle werden in rasantem Tempo leistungsfähiger. Mittlerweile kennt jeder OpenAIs ChatGPT, das dem Anschein nach am nächsten kommt, dass KI wie eine echte Person wirkt. Und wahrscheinlich haben Sie einige KI-gestützte Kunstwerke aus der DALL-E-Engine gesehen.

Neben Startups wie OpenAI sind globale Unternehmen wie Microsoft bedeutende Akteure im KI-Bereich.

Die Forscher von Microsoft haben kürzlich an Fortschritten in der Text-zu-Sprache-Synthese gearbeitet. VALL-E repräsentiert genau das.

Die neue KI wird wahrscheinlich ein Wendepunkt im TTS-Bereich sein, da sie menschlich klingende Sprache basierend auf einem winzigen Audio-Sample erzeugen kann. Ein dreisekündiger akustischer Hinweis reicht aus, damit VALL-E die spezifischen Muster des Sprechers erkennt.

Nachdem der Sprecherhinweis empfangen wurde, kann die KI die menschliche Stimme imitieren und sogar deren emotionalen Ton simulieren. Ebenso beeindruckend ist, dass VALL-E die akustische Umgebung des unbekannten Sprechers bewahrt.

Einfach ausgedrückt, das VALL-E-Modell glänzt in der Ähnlichkeit zum Sprecher. Sie können es in Aktion auf GitHub hören, wo Microsoft Audio-Beispiele zusammen mit einer detaillierten Erklärung der KI geteilt hat.

Natürlich hat eine solche Technologie viele potenzielle Anwendungen, wie Podcasts und Hörbücher zu erstellen. Das Potenzial könnte weiter wachsen, wenn VALL-E mit generativen Modellen wie GPT-3 kombiniert wird.

Aber Technologie wie VALL-E könnte auch für böswillige Zwecke genutzt werden.

Da VALL-E erschreckend echt klingen kann, ist es leicht zu erkennen, wie böswillige Akteure die Technologie für Betrügereien wie nicht einvernehmliche, schädliche Deepfakes nutzen könnten. Solche Möglichkeiten veranlassten Microsoft, eine Ethikerklärung herauszugeben.

In der Erklärung befürwortet das Unternehmen spezifische Sprachbearbeitungsmodelle, die die Zustimmung des ursprünglichen Sprechers sicherstellen würden.

Aber Kontroversen über die potenziellen Anwendungen von VALL-E sind eine Überlegung für die Zukunft. Derzeit steht eine spannendere Frage im Raum:

Wie repliziert die KI komplexe Muster mit nur einem dreisekündigen Audio als Basisprobe?

Wenig überraschend ist die Antwort ziemlich komplex.

VALL-E hatte umfangreiche Trainingsdaten, bestehend aus Tausenden von Stunden englischer Sprache. Dies bereitete die KI auf eine nahtlose Simulation der englischen Sprache vor. Allerdings ist VALL-E kein gewöhnliches TTS-System – es wird von modernster maschineller Lerntechnologie angetrieben.

Wir haben bereits den Namen der Technologie erwähnt: Zero-Shot-Neuronales-Codec-Sprachmodell. Schauen wir uns an, was diese Begriffe in der Praxis bedeuten.

Verständnis von Zero-Shot-Neuronalen-Codec-Sprachmodellen

Beginnen wir mit dem einfacheren Begriff, „Zero-Shot“ bezieht sich auf eine spezifische Technologie für Text-zu-Sprache-Engines. Sie ermöglicht KI-generierte Sprache basierend auf zuvor unbekannten Daten. Mit anderen Worten, der Computer kann Text vorlesen, den er noch nie „gesehen“ hat.

Noch beeindruckender ist, dass die Zero-Shot-Technologie es der Maschine ermöglicht, Ausgaben ohne zusätzliches Training zu erzeugen. Im Wesentlichen ist es ähnlich wie Menschen, die einen unbekannten Text in einer Sprache lesen können, die sie bereits kennen.

Kommen wir zum komplizierten Teil, das „neuronale Codec-Sprachmodell“ erfordert eine weitere Aufschlüsselung.

TTS-Engines verlassen sich auf Audiocodecs, um Wellenformen basierend auf geschriebenem Text zu erstellen. Der Codec hilft der KI, geschriebene Buchstaben, Wörter und Sätze in entsprechende Klänge zu übersetzen. Ein neuronaler Codec erfüllt denselben Zweck, basiert jedoch auf einem robusten neuronalen Netzwerk.

Natürlich stellt sich die zusätzliche Frage: Was ist ein neuronales Netzwerk?

Wir werden es hier in groben Zügen erklären, ohne noch tiefer einzutauchen. Ein neuronales Netzwerk versucht, die Funktionsweise des menschlichen Gehirns nachzuahmen. Das Netzwerk besteht aus künstlichen Neuronen, sogenannten Knoten, die verbunden und in Schichten organisiert sind.

Die komplexe Struktur ermöglicht das sogenannte Deep Learning, wodurch die Maschine besser in der Lage ist, unbekannte Muster zu entwickeln und anzupassen.

Der neuronale Codec treibt das Sprachmodell an, den anderen Teil dieser Text-zu-Sprache Gleichung.

Das Sprachmodell greift auf einen Datensatz zurück, um jeden Texteingang im Kontext einer tatsächlichen Sprache zu verstehen. Anders ausgedrückt, so „versteht“ die Maschine den Text.

Im Fall von VALL-E diente LibriLight, eine von Facebooks Meta zusammengestellte Audiobibliothek, als Grundlage für das KI-Sprachmodell.

Hören Sie die fortschrittliche TTS-Technologie in Aktion mit Speechify

Obwohl VALL-E der Öffentlichkeit noch nicht zugänglich ist, können Sie mit Speechify hören, wie eine fortschrittliche Text-zu-Sprache Engine klingt. Speechify ist ein TTS-Dienst, der Text aus nahezu jeder Quelle vorlesen kann.

Egal, ob Sie ihm geschriebenen Text, Webinhalte oder eine gescannte Seite geben, Speechify liest es sofort vor. Noch besser, die Engine bietet Erzählstimmen, die natürlich klingen. Im Gegensatz zu den typischen robotischen TTS-Engines klingt Speechify mehr wie ein Mensch als eine Maschine.

Zusätzlich können Sie anpassen, wie Speechify liest. Wählen Sie Ihre bevorzugte Sprache, den Erzähler und die Lesegeschwindigkeit und hören Sie jeden Text genau so, wie Sie es möchten.

Wenn all das spannend klingt, können Sie Speechify heute kostenlos ausprobieren.

FAQ

Können Menschen Vall-E nutzen?

Es gibt viele Bedenken, wie VALL-E missbraucht werden könnte. Identitätsdiebstahl ist eine besonders besorgniserregende Möglichkeit. Aus diesem Grund hat sich Microsoft entschieden, VALL-E nicht öffentlich zugänglich zu machen.

Was ist Microsoft AI?

Microsoft AI ist kein bestimmtes Produkt. Stattdessen dient das Programm des Unternehmens als Rahmenwerk für die KI-Entwicklung. Microsoft AI umfasst Datenwissenschaftslösungen, konversationelle KI, Robotik, maschinelles Lernen und andere Fortschritte in der Branche.

Was ist eine sprachgesteuerte Schnittstelle?

Eine sprachgesteuerte Schnittstelle ist genau das, wonach es klingt - eine Benutzeroberfläche, mit der Sie über Sprachbefehle interagieren. Diese Technologie ist bereits in Smart-Geräten weit verbreitet – denken Sie an Amazons Alexa, Apples Siri, Microsofts Cortana oder Googles Assistant.

Was ist ein Roboter?

Der Begriff „Roboter“ bezeichnet jede Maschine, die automatisch arbeitet. Solche Maschinen sind als Ersatz für menschliche Arbeit konzipiert. Trotz der typischen Darstellung in den Medien sind die meisten Roboter nicht humanoid. Tatsächlich müssen sie nicht einmal eine physische Form haben. Zum Beispiel zählen auch die heutigen beliebten virtuellen Assistenten als Roboter.

Speechify ist die weltweit führende Text-vorlesen-lassen-Plattform, der mehr als 50 Millionen Nutzer vertrauen und die von über 500.000 Fünf-Sterne-Bewertungen für die Text-vorlesen-lassen-iOS-, Android-, Chrome-Erweiterung-, Web-App- und Mac-Desktop-Anwendungen unterstützt wird. 2025 verlieh Apple Speechify den renommierten Apple Design Award auf der WWDC und bezeichnete es als „eine wichtige Ressource, die Menschen hilft, ihren Alltag zu meistern“. Speechify bietet über 1.000 natürlich klingende Stimmen in mehr als 60 Sprachen und wird in fast 200 Ländern genutzt. Zu den prominenten Stimmen gehören Snoop Dogg und Gwyneth Paltrow. Für Kreative und Unternehmen bietet Speechify Studio fortschrittliche Tools wie den KI-Stimmengenerator, KI-Stimmenklonen, KI-Dubbing und den KI-Stimmenveränderer. Mit seiner hochwertigen und zugleich erschwinglichen Text-vorlesen-lassen-API ermöglicht Speechify zudem branchenführende Produkte. In The Wall Street Journal, CNBC, Forbes, TechCrunch und anderen namhaften Medien vorgestellt, ist Speechify der weltweit führende Anbieter für Text vorlesen lassen. Besuchen Sie speechify.com/news, speechify.com/blog und speechify.com/press, um mehr zu erfahren.

Was ist Microsoft VALL-E?

Cliff Weitzman

Speechify, Ihr Voice-KI-Assistent für
Text vorlesen lassen, Spracheingabe und schnelle Antworten.

Microsoft VALL-E erklärt

Verständnis von Zero-Shot-Neuronalen-Codec-Sprachmodellen

Hören Sie die fortschrittliche TTS-Technologie in Aktion mit Speechify