Sie haben schon von Deepfake Voices gehört, aber was genau sind sie? In diesem Leitfaden erfahren Sie alles, was Sie über diese KI-Technologie wissen müssen und wie sie sich von TTS unterscheidet.
Gefälschte Stimmen und Text-to-Speech
Dank der Fortschritte im Bereich der künstlichen Intelligenz (KI) und des Deep Learning können Menschen heute hochwertige und realistische synthetische Medien erstellen. Diese Technologie hat die Türen zu vielen neuen kreativen Technologien geöffnet, die zahlreiche Branchen betreffen. Eine dieser Technologien sind Deepfakes, auch bekannt als synthetische Stimmen und Stimmenklonen.
Wir werden das Phänomen der künstlichen Stimme erörtern und seine Vor- und Nachteile untersuchen. Außerdem werden wir uns verschiedene Tools ansehen, mit denen Sie eine künstliche Stimme erzeugen können.
Was sind Deepfake-Stimmen?
Der Begriff “Deepfake” bezieht sich auf Inhalte, die synthetische Medien sind. Mithilfe von KI-Technologie können Nutzer ein Video-Depfake erstellen, das die Ähnlichkeit einer Person mit einer anderen ändert oder jemanden so aussehen lässt, als würde er etwas sagen, was er nie gesagt hat, auch bekannt als Stimmenklonen.
Um ein Deepfake-Video zu erstellen, benötigen Sie eine Software, die Gesichter analysiert, Audio aus Text synthetisiert und die Bewegungen des Mundes einer Person in einer 3D-Umgebung modelliert.
Das Klonen von Stimmen ist jedoch eine der anspruchsvolleren Anwendungen dieser Technologie. Selbst diejenigen, die sich nicht mit der Technik auskennen, haben wahrscheinlich schon von einer oder mehreren Deepfake-Kontroversen gehört. Kürzlich kam ein posthumer Dokumentarfilm über Anthony Bourdain heraus, und die Zuschauer waren überrascht, den verstorbenen Autor und Koch als Sprecher des Filmmaterials zu hören.
Die Produktionsfirma arbeitete mit IT-Startups zusammen, um Bourdins Stimme zu klonen und der Geschichte einen Hauch von Realismus zu verleihen. Obwohl diese Leistung beeindruckend ist, wirft sie einige ethische Fragen auf. Wenn alles, was man braucht, ein Computer und die entsprechende Software ist, kann praktisch jeder gefälschte Bild- oder Tonaufnahmen von jemandem erstellen, um dessen Ruf zu schädigen.
Wie genau werden Deepfakes hergestellt?
Zunächst sammelt man genügend Stimmproben von jemandem. Der Input kann aus Beiträgen in sozialen Medien, aufgezeichneten Telefongesprächen, Fernsehen usw. stammen. Dann kombiniert eine auf KI-Algorithmen basierende Software die Proben, um eine falsche Stimme zu erzeugen.
Dies ist ein grundlegender Überblick über den komplexen Prozess, aber letztendlich verwenden KI-Tools die gesammelten Daten, um natürlich klingende Stimmen zu erzeugen, die digitalen Text lesen können. Aus diesem Grund sind Deepfakes eng mit der Text-to-Speech-Technologie (TTS) verbunden.
Nachteile
Da maschinelles Lernen die Stimme einer Person nachahmen kann, haben Betrüger begonnen, sie für ihre Zwecke zu nutzen. Gefälschte Stimmen können so überzeugend klingen, dass viele Menschen Opfer von Telefonbetrügereien werden und vertrauliche Informationen preisgeben.
Glücklicherweise werden mit der Weiterentwicklung der KI-Sprachsoftware auch die Lösungen zur Bekämpfung von Betrügern und zur Erkennung von Stimmfälschungen weiterentwickelt. IT-Unternehmen haben begonnen, in fortschrittliche biometrische Mechanismen zu investieren, um Deepfake-Spoofing-Angriffe zu verhindern. Diese Authentifizierungssysteme helfen Banken, Call-Centern und Versicherungsunternehmen, KI-Stimmen zu identifizieren und aus ihren Umgebungen zu entfernen, bevor sie ihre Geschäftspraktiken bedrohen.
Profis
Trotz dieser Cybersicherheitsbedenken haben Deepfakes auch einige bemerkenswerte Vorteile. Als das Deepfake-Video “This Is Not Morgan Freeman” im Jahr 2021 veröffentlicht wurde, war es ein Zeichen für die potenziellen Einsatzmöglichkeiten der erweiterten Technologie.
Die Aufnahmen zeigten, dass eine KI-Software durch die Eingabe von Audioaufnahmen und Filmmaterial des Schauspielers seine Eigenheiten, seine Mimik und sein Sprachmuster nachbilden konnte. Wie wir bereits erwähnt haben, wirft dies einige ethische Probleme auf, kann aber für Menschen wie den Schauspieler Val Kilmer von unschätzbarem Wert sein.
Kilmer verlor seine Stimme aufgrund von Kehlkopfkrebs und viele dachten, dies würde seine Hollywood-Karriere beenden. Eine Amazon Prime-Dokumentation über den Schauspieler enthüllte, dass sein Sohn die Synchronstimmen für Kilmers neue Rollen aufnahm.
Als Kilmer jedoch eine Partnerschaft mit Sonatic einging, einem IT-Startup-Unternehmen, das sich auf die Modellierung von Stimmen spezialisiert hat, konnte er seine Stimme wiedererlangen. Mithilfe der Deepfake-Technologie stellte das Unternehmen Kilmers Stimme wieder her, und das Publikum konnte das verblüffende Ergebnis in dem kürzlich erschienenen Film Top Gun hören : Maverick.
Deepfake-Stimmensoftware zum Ausprobieren
Werkzeuge des maschinellen Lernens können das Leben vieler Menschen positiv beeinflussen, und vielleicht sind Sie daran interessiert, ein Audio-Deefake zu erstellen. Obwohl Sie für qualitativ hochwertige Ergebnisse hochmoderne Hardware und Software benötigen, können Sie verschiedene Programme verwenden, um natürlich klingende Stimmen zu erzeugen. Hier sind fünf Deepfake-Stimmengeneratoren, die Sie ausprobieren können:
Ähnlich wie
Resemble AI ist ein Text-to-Speech- und Deepfake-Erstellungstool, das mit begrenzten Daten menschliche Stimmen erzeugt. Mit etwa fünf Minuten Audioaufnahmen können Nutzer ihr erstes Deepfake erstellen.
Sie können die Probefunktion testen und die App mit Clips von sich selbst füttern, und schon nach wenigen Minuten hören Sie eine vertraute Stimme. Die Benutzer schätzen die einfach zu bedienende Benutzeroberfläche von Resemble und können sogar die Intonation der Audioausgabe optimieren.
Beschreibung
Dieser beeindruckende Sprachsynthesizer verfügt über leistungsstarke Bearbeitungsfunktionen. Das Programm analysiert Sprachaufnahmen, Videoclips und Transkripte, um KI-gesteuerte Stimmen zu erzeugen. Wenn Sie mit der Qualität des Eingabematerials unzufrieden sind, können Sie es direkt in der App bearbeiten – Sie müssen keine zusätzlichen Aufnahmen machen.
Der Hauptzweck von Descript besteht darin, Autoren von Inhalten dabei zu helfen, qualitativ hochwertige Voiceovers für ihre Podcasts und Videos zu erstellen. Das Programm verfügt über zahlreiche Standardstimmen, mit denen Sie experimentieren können, um sich mit den Möglichkeiten von Descript vertraut zu machen.
ReSpeecher
ReSpeecher ist eine zuverlässige Deepfake-Lösung, die dabei geholfen hat, die Stimme von Luke Skywalker in The Mandalorian nachzubilden. Obwohl die Software für Filme und Fernsehsendungen geeignet ist, kann sie auch eine hervorragende Möglichkeit sein, Voiceovers für Werbung, Animationen, Videospiele, Podcasts und mehr zu erstellen.
iSpeech
iSpeech ist als Desktop-Programm erhältlich, aber Sie können auch die webbasierte Version ausprobieren. Neben der Sprachsynthese bietet die App auch Funktionen für Text-to-Speech, Web-Reader und Spracherkennung. Um sich mit der Software vertraut zu machen, können Sie eine der Demos ausprobieren und mit den Stimmen von Barrack Obama, Arnold Schwarzenegger oder Scarlett Johansson herumspielen.
Klonen von Stimmen in Echtzeit
Dieses Open-Source-Projekt ist kostenlos auf GitHub verfügbar. Diese umfassende Toolbox kann die Stimme einer Person mit einer Audioeingabe von nur fünf Sekunden synthetisieren. Benutzer haben jedoch berichtet, dass die Bedienung der Software mittlere bis fortgeschrittene technische Kenntnisse erfordert.
Speechify – Die Text-in-Sprache-Alternative zu Deepfake-Stimmen
Text-to-Speech-Apps (TTS) wie Speechify und Deepfake-Generatoren basieren auf ähnlichen Technologien, haben aber unterschiedliche Ziele. Speechify ist ein TTS- oder Vorlesetool, das praktisch jeden gedruckten oder digitalen Text vorlesen kann. Nachdem Benutzer ein Microsoft Word-Dokument, einen Artikel oder eine Abschrift in die App importiert und ihre bevorzugte Sprecherstimme ausgewählt haben, liest Speechify den Inhalt laut vor.
Das Programm bietet eine unübertroffene Auswahl an hochwertigen männlichen und weiblichen Stimmen und unterstützt über 20 Sprachen, darunter Englisch, Spanisch, Französisch, Italienisch und Portugiesisch. Wenn Sie Ihre Produktivität steigern und sich von einer prominenten Stimme vorlesen lassen möchten, sollten Sie sich die Stimme von Gwyneth Paltrow in Speechify ansehen.
Laden Sie das Programm auf Ihren Computer, Ihr iPhone oder Ihr Android-Gerät herunter und testen Sie Speechify noch heute kostenlos .
FAQ
Ist FakeYou kostenlos?
FakeYou ist ein benutzerfreundliches und kostenloses Programm, mit dem Sie natürlich klingende Stimmen erzeugen können.
Wie erkennt man, ob eine Stimme gefälscht ist?
Es kann schwierig sein, Deepfakes ohne ausgefeilte Software zu erkennen. Cybersicherheitsunternehmen verwenden stimmbiometrische Systeme, um Deepfake-Betrug zu verhindern.
Welche Gefahren birgt die Stimmenfälschung?
Deepfakes dienen manchmal böswilligen Zwecken und können Fehlinformationen verbreiten, den Ruf einer Person ruinieren und mangelndes Vertrauen in staatliche Einrichtungen hervorrufen.