Wat is zero-shot voice cloning?
Op zoek naar onze Tekst-naar-spraak lezer?
Uitgelicht In
Wat is zero-shot voice cloning? Ontdek wat zero-shot voice cloning is en hoe het werkt.
Dankzij vooruitgang in machine learning heeft voice cloning de afgelopen jaren aanzienlijke vooruitgang geboekt, resulterend in enkele van de meest indrukwekkende text-to-speech oplossingen tot nu toe. Een van de belangrijkste ontwikkelingen is zero-shot, dat veel aandacht trekt in de technologiesector. Dit artikel introduceert zero-shot voice cloning en hoe het de industrie heeft getransformeerd.
Zero-shot machine learning uitgelegd
Het doel van voice cloning is om de stem van een spreker te repliceren door hun toon en klankkleur te synthetiseren met slechts een kleine hoeveelheid opgenomen spraak. Met andere woorden, voice cloning is een geavanceerde technologie die kunstmatige intelligentie gebruikt om een stem te creëren die lijkt op die van een specifieke persoon. Deze technologie onderscheidt drie hoofdprocessen voor voice cloning:
One-shot learning
One-shot learning betekent dat het model is getraind op slechts één afbeelding van iets nieuws, maar toch in staat moet zijn om andere afbeeldingen van hetzelfde te herkennen.
Few-shot learning
Few-shot learning is wanneer een model een paar afbeeldingen van iets nieuws te zien krijgt en vergelijkbare dingen kan herkennen, zelfs als ze er een beetje anders uitzien.
Zero-shot learning
Zero-shot learning is het trainen van een model om nieuwe objecten of concepten te herkennen die het niet eerder heeft gezien door gebruik te maken van een dataset, zoals VCTK, om ze te beschrijven. Dit is wanneer het model wordt geleerd om nieuwe dingen te herkennen zonder afbeeldingen, voorbeelden of andere trainingsdata. In plaats daarvan geef je het een lijst met kenmerken of eigenschappen die het nieuwe item beschrijven.
Wat is voice cloning?
Voice cloning is het repliceren van de stem van een spreker met behulp van machine learning technieken. Het doel van voice cloning is om de toon van de spreker te reproduceren met slechts een kleine hoeveelheid van hun opgenomen spraak. Bij voice cloning zet een sprekerencoder de spraak van een persoon om in een code die later kan worden omgezet in een vector met behulp van sprekerembedding. Die vector wordt vervolgens gebruikt om een synthesizer, ook wel vocoder genoemd, te trainen om een spraak te creëren die klinkt als de stem van de spreker. De synthesizer neemt de sprekerembeddingvector en een mel spectrogram, een visuele weergave van het spraaksignaal, als input. Dit is het basisproces voor voice cloning. Het produceert vervolgens een golfvormuitvoer, wat het daadwerkelijke geluid van de gesynthetiseerde spraak is. Dit proces wordt meestal uitgevoerd met behulp van machine learning technieken zoals deep learning. Bovendien kan het worden getraind met behulp van verschillende datasets en meetwaarden om de kwaliteit van de gegenereerde spraak te evalueren. Voice cloning kan worden gebruikt voor verschillende toepassingen zoals:
- Stemconversie - de mogelijkheid om een opname van de stem van één persoon te veranderen zodat het klinkt alsof een andere persoon het heeft gesproken.
- Sprekerverificatie - wanneer iemand zegt dat ze een bepaalde persoon zijn en hun stem wordt gebruikt om te controleren of het waar is.
- Multispreker text-to-speech - het creëren van spraak uit gedrukte tekst en trefwoorden
Enkele populaire voice cloning-algoritmen zijn WaveNet, Tacotron2, Zero-shot Multispeaker TTS, en Microsoft’s VALL-E. Ook zijn er veel andere open-source algoritmen te vinden op GitHub, die uitstekende eindresultaten bieden. Bovendien, als je meer wilt leren over voice cloning technieken, zijn de ICASSP, Interspeech en IEEE International Conference de juiste plekken voor jou.
Zero-shot learning in voice cloning
Een sprekerencoder wordt gebruikt om spraakvectoren uit trainingsdata te halen om zero-shot voice cloning te bereiken. Deze spraakvectoren kunnen vervolgens worden gebruikt voor signaalverwerking van sprekers die niet eerder in de trainingsdatasets zijn opgenomen, ook wel ongeziene sprekers genoemd. Dit kan worden bereikt door een neuraal netwerk te trainen met behulp van verschillende technieken, zoals:
- Convolutionele modellen zijn neurale netwerkmodellen die worden gebruikt om beeldclassificatieproblemen op te lossen.
- Autoregressieve modellen kunnen toekomstige waarden voorspellen op basis van eerdere waarden.
Een van de uitdagingen van zero-shot voice cloning is ervoor te zorgen dat de gesynthetiseerde spraak van hoge kwaliteit is en natuurlijk klinkt voor de luisteraar. Om deze uitdaging aan te pakken, worden verschillende meetwaarden gebruikt om de kwaliteit van de spraaksynthese te evalueren:
- Spreker-gelijkenis meet hoe vergelijkbaar de gesynthetiseerde spraak is met de oorspronkelijke spraakpatronen van de doelspeaker.
- Spraaknatuurlijkheid verwijst naar hoe natuurlijk de gesynthetiseerde spraak klinkt voor de luisteraar.
De daadwerkelijke gegevens uit de echte wereld, die worden gebruikt om AI-modellen te onderwijzen en te evalueren, worden de grondwaarheid referentie-audio genoemd. Deze gegevens worden gebruikt voor training en normalisatie. Daarnaast worden stijltransfertechnieken toegepast om het vermogen van het model tot generalisatie te verbeteren. Stijltransfer houdt in dat er twee invoeren worden gebruikt - één voor de hoofdinhoud en de andere voor de stijlreferentie - om de prestaties van het model met nieuwe gegevens te verbeteren. Met andere woorden, het model kan beter omgaan met nieuwe situaties.
Bekijk de nieuwste stemkloningstechnologie in actie met Speechify
Hoewel het aanvankelijk ongebruikelijk lijkt om een tekst-naar-spraak generator in dit artikel op te nemen, is Speechify de perfecte keuze voor iedereen die een hoogwaardige, veelzijdige TTS-lezer nodig heeft. Het heeft een uitstekende uitspraak en ondersteuning voor Engels, Spaans, Duits, en 12 andere talen, samen met meer dan 30 aangepaste stemmen van verschillende sprekers. Speechify is een krachtige TTS-oplossing, ideaal voor AI-voice-overs. Als een geavanceerde TTS dienst maakt Speechify gebruik van een geavanceerd model dat realtime optimalisatie en geavanceerde decoderingstechnieken toepast, resulterend in natuurlijk klinkende vertellingen die menselijke spraak evenaren. Speechify is gebruiksvriendelijke software die werkt op bijna elk besturingssysteem, inclusief Windows, Android, iOS, en Mac. De decoder van Speechify maakt gebruik van geavanceerde signaalverwerkingstechnieken en ondersteunt snelheden die 9x sneller zijn dan de gemiddelde leessnelheid, met een reeks functies om de premium kwaliteit van de audio-uitvoer te garanderen. Probeer het vandaag nog en ervaar de kracht van de beste end-to-end TTS modeltechnologie uit de eerste hand, met zijn aanpasbare voorgetrainde modellen en diverse selectie van stemmen.
FAQ
Wat is het doel van stemkloning?
Stemkloning heeft als doel om hoogwaardige, natuurlijk klinkende spraak te produceren die in verschillende toepassingen kan worden gebruikt om de communicatie en interactie tussen mens en machine te verbeteren.
Wat is het verschil tussen stemconversie en stemkloning?
Stemconversie houdt in dat de spraak van één persoon wordt aangepast om te klinken als een andere persoon, terwijl stemkloning een nieuwe stem creëert die lijkt op een specifieke menselijke spreker.
Welke software kan iemands stem klonen?
Er zijn tal van opties beschikbaar, waaronder Speechify, Resemble.ai, Play.ht, en vele anderen.
Hoe kun je een vervalste stem detecteren?
Een van de meest voorkomende technieken om een audio-deepfake te identificeren is spectrale analyse, waarbij een audiosignaal wordt geanalyseerd om onderscheidende stempatronen te detecteren.
Cliff Weitzman
Cliff Weitzman is een voorvechter van dyslexie en de CEO en oprichter van Speechify, de nummer 1 tekst-naar-spraak app ter wereld, met meer dan 100.000 beoordelingen van 5 sterren en de eerste plaats in de App Store in de categorie Nieuws & Tijdschriften. In 2017 werd Weitzman opgenomen in de Forbes 30 onder 30 lijst voor zijn werk om het internet toegankelijker te maken voor mensen met leerstoornissen. Cliff Weitzman is te zien geweest in EdSurge, Inc., PC Mag, Entrepreneur, Mashable, en andere toonaangevende media.