Takket være fremskridt inden for maskinlæring har stemmekloning gjort betydelige fremskridt i de seneste år, hvilket har resulteret i nogle af de mest imponerende tekst-til-tale løsninger til dato. Blandt de vigtigste udviklinger er zero-shot, som har skabt bølger i teknologisektoren. Denne artikel vil introducere zero-shot stemmekloning og hvordan det har transformeret industrien.
Forklaring af Zero-shot Maskinlæring
Målet med stemmekloning er at replikere en talers stemme ved at syntetisere deres tone og klang ved hjælp af kun en lille mængde optaget tale. Med andre ord er stemmekloning en avanceret teknologi, der bruger kunstig intelligens til at skabe en stemme, der ligner en bestemt persons. Denne teknologi skelner mellem tre hovedprocesser inden for stemmekloning:
One-shot Læring
One-shot læring betyder, at modellen kun trænes på ét billede af noget nyt, men den skal stadig kunne genkende andre billeder af det samme.
Few-shot Læring
Few-shot læring er, når en model vises nogle få billeder af noget nyt og kan genkende lignende ting, selvom de ser lidt anderledes ud.
Zero-shot Læring
Zero-shot læring er at lære en model at genkende nye objekter eller begreber, som den ikke tidligere er blevet trænet på, ved hjælp af et datasæt, såsom VCTK, til at beskrive dem. Dette er, når modellen læres at genkende nye ting uden billeder, eksempler eller andre træningsdata. I stedet giver du den en liste over karakteristika eller funktioner, der beskriver det nye element.
Hvad er Stemmekloning?
Stemmekloning er at replikere en talers stemme ved hjælp af maskinlæringsteknikker. Målet med stemmekloning er at gengive talerens tone ved hjælp af kun en lille mængde af deres optagede tale. I stemmekloning omdanner en taler-encoder en persons tale til en kode, der senere kan omdannes til en vektor ved hjælp af talerindlejring. Den vektor bruges derefter til at træne en synthesizer, også kendt som en vocoder, til at skabe en tale, der lyder som talerens stemme. Synthesizeren tager talerindlejringsvektoren og et mel-spektrogram, en visuel repræsentation af talesignalet, som input. Dette er den grundlæggende proces for stemmekloning. Den producerer derefter en bølgeformudgang, som er den faktiske lyd af den syntetiserede tale. Denne proces udføres typisk ved hjælp af maskinlæringsteknikker såsom dyb læring. Derudover kan den trænes ved hjælp af en række datasæt og metrikker til at evaluere kvaliteten af den genererede tale. Stemmekloning kan bruges til forskellige anvendelser såsom:
- Stemmeomdannelse - evnen til at ændre en optagelse af en persons stemme, så det lyder som om en anden person talte det.
- Talerverifikation - når nogen siger, at de er en bestemt person, og deres stemme bruges til at kontrollere, om det er sandt.
- Multitaler tekst-til-tale - en skabelse af tale fra den trykte tekst og nøgleord
Nogle populære stemmekloningsalgoritmer inkluderer WaveNet, Tacotron2, Zero-shot Multitaler TTS, og Microsofts VALL-E. Derudover kan mange andre open-source algoritmer findes på GitHub, som tilbyder fremragende slutresultater. Hvis du er interesseret i at lære mere om stemmekloningsteknikker, er ICASSP, Interspeech og IEEE International Conference de rette steder for dig.
Zero-shot Læring i Stemmekloning
En taler-encoder bruges til at udtrække talevektorer fra træningsdata for at opnå zero-shot stemmekloning. Disse talevektorer kan derefter bruges til signalbehandling af talere, der ikke tidligere har været inkluderet i træningsdatasættene, også kendt som usete talere. Dette kan opnås ved at træne et neuralt netværk ved hjælp af en række teknikker, såsom:
- Konvolutionelle modeller er neurale netværksmodeller, der anvendes til at løse billedklassifikationsproblemer.
- Autoregressive modeller kan forudsige fremtidige værdier baseret på tidligere værdier.
En af udfordringerne ved zero-shot stemmekloning er at sikre, at den syntetiserede tale er af høj kvalitet og lyder naturligt for lytteren. For at imødegå denne udfordring anvendes forskellige metrikker til at evaluere kvaliteten af talesyntesen:
- Talersimilaritet måler, hvor lig den syntetiserede tale er med den oprindelige måltalers talemønstre.
- Talenaturlighed refererer til, hvor naturligt den syntetiserede tale lyder for lytteren.
De faktiske data fra den virkelige verden, som bruges til at undervise og evaluere AI-modeller, kaldes grundsand reference lyd. Disse data bruges til træning og normalisering. Derudover anvendes stiloverførselsteknikker for at forbedre modellens evne til generalisering. Stiloverførsel involverer brugen af to input - et til hovedindholdet og et andet til stilreferencen - for at forbedre modellens ydeevne med nye data. Med andre ord bliver modellen bedre til at håndtere nye situationer.
Se den nyeste stemmekloningsteknologi i aktion med Speechify Studio
Speechify Studios AI stemmekloning giver dig mulighed for at skabe en skræddersyet AI-version af din egen stemme—perfekt til at personliggøre fortælling, opbygge brandkonsistens eller tilføje et velkendt præg til ethvert projekt. Optag blot en prøve, og Speechifys avancerede AI-modeller vil generere en livagtig digital kopi, der lyder præcis som dig. Ønsker du endnu mere fleksibilitet? Den indbyggede stemmeændrer giver dig mulighed for at omforme eksisterende optagelser til en hvilken som helst af Speechify Studios 1.000+ AI-stemmer, hvilket giver dig kreativ kontrol over tone, stil og levering. Uanset om du finjusterer din egen stemme eller transformerer lyd til forskellige kontekster, giver Speechify Studio dig professionel stemmetilpasning lige ved hånden.
FAQ
Hvad er formålet med stemmekloning?
Stemmekloning har til formål at producere høj kvalitet, naturligt lydende tale, der kan anvendes i forskellige applikationer for at forbedre kommunikation og interaktion mellem mennesker og maskiner.
Hvad er forskellen mellem stemmekonvertering og stemmekloning?
Stemmekonvertering indebærer at ændre en persons tale til at lyde som en anden person, mens stemmekloning skaber en ny stemme, der ligner en specifik menneskelig taler.
Hvilken software kan klone nogens stemme?
Der er mange muligheder tilgængelige, herunder Speechify, Resemble.ai, Play.ht og mange andre.
Hvordan kan man opdage en falsk stemme?
En af de mest almindelige teknikker til at identificere audio deepfake er spektralanalyse, som indebærer at analysere et lydsignal for at opdage karakteristiske stemmemønstre.