Was ist Zero-Shot-Voice-Cloning?

Dank Fortschritten im maschinellen Lernen hat das Voice-Cloning in den letzten Jahren erhebliche Fortschritte gemacht und einige der beeindruckendsten text vorlesen lassen Lösungen hervorgebracht. Zu den wichtigsten Entwicklungen gehört Zero-Shot, das in der Tech-Branche für Aufsehen sorgt. Dieser Artikel stellt das Zero-Shot-Voice-Cloning vor und zeigt, wie es die Branche verändert hat.

Zero-Shot-Maschinelles Lernen erklärt

Das Ziel des Voice-Cloning ist es, die Stimme eines Sprechers zu replizieren, indem sein Ton und seine Klangfarbe mit nur einer kleinen Menge aufgezeichneter Sprache synthetisiert werden. Mit anderen Worten, Voice-Cloning ist eine hochmoderne Technologie, die künstliche Intelligenz nutzt, um eine Stimme zu erzeugen, die einer bestimmten Person ähnelt. Diese Technologie unterscheidet drei Hauptprozesse des Voice-Cloning:

One-Shot-Lernen

One-Shot-Lernen bedeutet, dass das Modell nur mit einem Bild von etwas Neuem trainiert wird, aber dennoch in der Lage sein sollte, andere Bilder desselben Objekts zu erkennen.

Few-Shot-Lernen

Few-Shot-Lernen ist, wenn einem Modell ein paar Bilder von etwas Neuem gezeigt werden und es ähnliche Dinge erkennen kann, auch wenn sie ein wenig anders aussehen.

Zero-Shot-Lernen

Zero-Shot-Lernen bedeutet, einem Modell beizubringen, neue Objekte oder Konzepte zu erkennen, die es zuvor nicht trainiert hat, indem ein Datensatz wie VCTK verwendet wird, um sie zu beschreiben. Dies ist der Fall, wenn das Modell neue Dinge ohne Bilder, Beispiele oder andere Trainingsdaten erkennen soll. Stattdessen gibt man ihm eine Liste von Merkmalen oder Eigenschaften, die das neue Objekt beschreiben.

Was ist Voice-Cloning?

Voice-Cloning ist die Replikation der Stimme eines Sprechers mithilfe von maschinellen Lerntechniken. Das Ziel des Voice-Cloning ist es, den Ton des Sprechers mit nur einer kleinen Menge seiner aufgezeichneten Sprache zu reproduzieren. Beim Voice-Cloning wandelt ein Sprecher-Encoder die Sprache einer Person in einen Code um, der später mithilfe von Sprecher-Embedding in einen Vektor umgewandelt werden kann. Dieser Vektor wird dann verwendet, um einen Synthesizer, auch als Vocoder bekannt, zu trainieren, um eine Sprache zu erzeugen, die wie die Stimme des Sprechers klingt. Der Synthesizer nimmt den Sprecher-Embedding-Vektor und ein Mel-Spektrogramm, eine visuelle Darstellung des Sprachsignals, als Eingabe. Dies ist der grundlegende Prozess des Voice-Cloning. Er erzeugt dann eine Wellenformausgabe, die der tatsächliche Klang der synthetisierten Sprache ist. Dieser Prozess wird typischerweise mit maschinellen Lerntechniken wie Deep Learning durchgeführt. Darüber hinaus kann er mit einer Vielzahl von Datensätzen und Metriken trainiert werden, um die Qualität der erzeugten Sprache zu bewerten. Voice-Cloning kann für verschiedene Anwendungen genutzt werden, wie zum Beispiel:

Stimmenkonvertierung - die Fähigkeit, eine Aufnahme der Stimme einer Person so zu ändern, dass es klingt, als hätte eine andere Person sie gesprochen.
Sprecherverifikation - wenn jemand behauptet, eine bestimmte Person zu sein, und seine Stimme verwendet wird, um zu überprüfen, ob dies stimmt.
Multisprecher text vorlesen lassen - die Erstellung von Sprache aus gedrucktem Text und Schlüsselwörtern

Einige beliebte Voice-Cloning-Algorithmen sind WaveNet, Tacotron2, Zero-Shot-Multisprecher TTS und Microsofts VALL-E. Außerdem gibt es viele andere Open-Source-Algorithmen auf GitHub, die hervorragende Endergebnisse bieten. Wenn Sie mehr über Voice-Cloning-Techniken erfahren möchten, sind die ICASSP, Interspeech und die IEEE International Conference die richtigen Orte für Sie.

Zero-Shot-Lernen im Voice-Cloning

Ein Sprecher-Encoder wird verwendet, um Sprachvektoren aus Trainingsdaten zu extrahieren, um Zero-Shot-Voice-Cloning zu erreichen. Diese Sprachvektoren können dann für die Signalverarbeitung von Sprechern verwendet werden, die zuvor nicht in den Trainingsdatensätzen enthalten waren, auch bekannt als unsichtbare Sprecher. Dies kann durch das Training eines neuronalen Netzwerks mit verschiedenen Techniken erreicht werden, wie zum Beispiel:

Konvolutionale Modelle sind neuronale Netzwerkmodelle, die zur Lösung von Bildklassifizierungsproblemen eingesetzt werden.
Autoregressive Modelle können zukünftige Werte basierend auf vergangenen Werten vorhersagen.

Eine der Herausforderungen beim Zero-Shot-Voice-Cloning besteht darin, sicherzustellen, dass die synthetisierte Sprache von hoher Qualität ist und für den Zuhörer natürlich klingt. Um diese Herausforderung zu bewältigen, werden verschiedene Metriken verwendet, um die Qualität der Sprachsynthese zu bewerten:

Sprechersimilarität misst, wie ähnlich die synthetisierte Sprache den Sprachmustern des ursprünglichen Zielsprechers ist.
Sprachnatürlichkeit bezieht sich darauf, wie natürlich die synthetisierte Sprache für den Zuhörer klingt.

Die tatsächlichen Daten aus der realen Welt, die zur Schulung und Bewertung von KI-Modellen verwendet werden, werden als Ground-Truth-Referenzaudio bezeichnet. Diese Daten werden für das Training und die Normalisierung genutzt. Zusätzlich werden Stiltransfertechniken eingesetzt, um die Fähigkeit des Modells zur Generalisierung zu verbessern. Stiltransfer beinhaltet die Verwendung von zwei Eingaben - eine für den Hauptinhalt und die andere als Stilreferenz - um die Leistung des Modells mit neuen Daten zu verbessern. Mit anderen Worten, das Modell kann besser mit neuen Situationen umgehen.

Erleben Sie die neueste Voice-Cloning-Technologie in Aktion mit Speechify Studio

Das KI-Stimmenklonen von Speechify Studio ermöglicht es Ihnen, eine individuelle KI-Version Ihrer eigenen Stimme zu erstellen – perfekt, um Erzählungen zu personalisieren, Markenidentität zu stärken oder jedem Projekt eine vertraute Note zu verleihen. Nehmen Sie einfach eine Probe auf, und die fortschrittlichen KI-Modelle von Speechify erzeugen eine lebensechte digitale Replik, die genau wie Sie klingt. Möchten Sie noch mehr Flexibilität? Der integrierte Stimmenverzerrer ermöglicht es Ihnen, bestehende Aufnahmen in eine der über 1.000 KI-Stimmen von Speechify Studio umzuformen, sodass Sie kreative Kontrolle über Ton, Stil und Vortrag haben. Egal, ob Sie Ihre eigene Stimme verfeinern oder Audio für verschiedene Kontexte transformieren, Speechify Studio bietet Ihnen professionelle Sprachpersonalisierung direkt zur Hand.

FAQ

Wozu dient das Stimmenklonen?

Das Ziel des Stimmenklonens ist es, qualitativ hochwertige, natürlich klingende Sprache zu erzeugen, die in verschiedenen Anwendungen genutzt werden kann, um die Kommunikation und Interaktion zwischen Mensch und Maschine zu verbessern.

Was ist der Unterschied zwischen Stimmkonvertierung und Stimmenklonen?

Die Stimmkonvertierung beinhaltet die Modifikation der Sprache einer Person, um wie eine andere Person zu klingen, während das Stimmenklonen eine neue Stimme erzeugt, die einem bestimmten menschlichen Sprecher ähnelt.

Welche Software kann die Stimme einer Person klonen?

Es gibt zahlreiche Optionen, darunter Speechify, Resemble.ai, Play.ht und viele andere.

Wie kann man eine gefälschte Stimme erkennen?

Eine der häufigsten Techniken zur Erkennung von Audio-Deepfakes ist die Spektralanalyse, bei der ein Audiosignal analysiert wird, um charakteristische Stimmuster zu erkennen.

Speechify ist die weltweit führende Text-vorlesen-lassen-Plattform, der mehr als 50 Millionen Nutzer vertrauen und die von über 500.000 Fünf-Sterne-Bewertungen für die Text-vorlesen-lassen-iOS-, Android-, Chrome-Erweiterung-, Web-App- und Mac-Desktop-Anwendungen unterstützt wird. 2025 verlieh Apple Speechify den renommierten Apple Design Award auf der WWDC und bezeichnete es als „eine wichtige Ressource, die Menschen hilft, ihren Alltag zu meistern“. Speechify bietet über 1.000 natürlich klingende Stimmen in mehr als 60 Sprachen und wird in fast 200 Ländern genutzt. Zu den prominenten Stimmen gehören Snoop Dogg und Gwyneth Paltrow. Für Kreative und Unternehmen bietet Speechify Studio fortschrittliche Tools wie den KI-Stimmengenerator, KI-Stimmenklonen, KI-Dubbing und den KI-Stimmenveränderer. Mit seiner hochwertigen und zugleich erschwinglichen Text-vorlesen-lassen-API ermöglicht Speechify zudem branchenführende Produkte. In The Wall Street Journal, CNBC, Forbes, TechCrunch und anderen namhaften Medien vorgestellt, ist Speechify der weltweit führende Anbieter für Text vorlesen lassen. Besuchen Sie speechify.com/news, speechify.com/blog und speechify.com/press, um mehr zu erfahren.

Was ist Zero-Shot-Voice-Cloning?

Cliff Weitzman

Speechify, Ihr Voice-KI-Assistent für
Text vorlesen lassen, Spracheingabe und schnelle Antworten.