Hur man gör röstkloning
Letar du efter vår Text till tal-läsare?
Medverkat i
Röstkloning har potential att revolutionera vårt sätt att närma oss utbildning, affärer och fritid. Så här kan du också göra det.
Till skillnad från faktisk kloning, är röstkloning säker, lätt att lära sig och tillgänglig för i princip alla med en internetanslutning. Dessutom är det inte bara praktiskt utan också användbart, och revolutionerar vårt sätt att närma oss utbildning, affärer, videospel, litteratur och allt annat under solen. Vill du prova? Häng med!
Vad är röstkloning?
Röstkloning är precis vad du föreställer dig — att replikera och generera en individs röst via artificiell intelligens (AI). Det kanske låter som något från science fiction, men vi är säkra på att du redan har haft någon erfarenhet av det. Kommer du ihåg det där text-till-tal (TTS) programmet du brukade leka med, som läste nyheter för dig med Arnold Schwarzeneggers röst? Det är ett exempel på röstkloning. Enkla TTS-webbläsartillägg och appar är inte lika sofistikerade och kraftfulla när det gäller röstkloning. Självklart borde de inte vara det eftersom det inte är deras huvudmål. Riktiga röstkloningslösningar går mycket djupare i sina talmönsteranalyser, vilket låter dem fokusera på att identifiera och använda alla detaljer som gör en röst unik. Som du kan gissa, innebär mer omfattande feedback mer autentiska AI-röster och mer avancerad maskininlärning.
Användningar av röstkloning
Röstkloning är mer än en gimmick och har många användningsområden inom utbildning, affärer, medicin, etc. Självklart, precis som med bokstavlig kloning, finns det några etiska frågor som kommer att dyka upp (tänk bara på de där deepfakes som har läckt ut). Men vi lämnar de filosofiska debatterna till en annan dag och försöker se den ljusa sidan.
Utbildning
Utbildning har, sakta men säkert, flyttat över till den digitala världen. Vi är inte här för att diskutera vilka konsekvenser det kan ha på utbildningssystemet utan snarare för att påpeka ett enkelt faktum — skärmar och Zoom-samtal ersätter klassrum och svarta tavlor. Det betyder att vi har gott om resurser till vårt förfogande som vi kan använda för att göra våra föreläsningar mer engagerande och underhållande. Med röstkloning kan vi till exempel använda djupinlärning för att replikera rösterna av historiska figurer. Föreställ dig att lyssna på Nikola Tesla förklara växelström för dig.
Ljudböcker
Nästa på tur har vi ljudböcker. Även om vi ser dem som utbildningsverktyg och ett sätt att koppla av, är ljudböcker mycket viktigare än så. För vissa människor är de det enda sättet att interagera med det skrivna ordet, särskilt för synskadade. Med röstkloningsteknik kan vi förvandla ljudböcker till något mycket mer underhållande och engagerande.
Text-till-tal-tjänster
Innan vi ser hur röstkloning i realtid och talsyntes fungerar, låt oss återvända till TTS-programmen en stund och se hur bra jobb de kan göra. Till exempel, låt oss titta på Speechify, en av de mest sofistikerade TTS-lösningarna som finns. Vad kan Speechify göra? Speechify kan omvandla vilken text som helst till ljudfiler, den kan skanna fysiska dokument och konvertera dem till tal och den kan hjälpa dig att skapa voiceovers för din blogg, etc. Varför nämner vi allt detta? Eftersom TTS-appar är prisvärda och tillgängliga, kan de inte bara dra nytta av röstkloning mycket utan också hjälpa till att driva röstkloning framåt in i mainstream. Till exempel har Speechify kändisröster, så du kan lyssna på din favoritroman läst av Gwyneth Paltrow. Prova det.
Hur skapas AI-röster?
Nu kan vi gå tillbaka till det nördiga och berätta hur AI-röster faktiskt skapas och hur de lyckas låta som mänskliga röster. Oroa dig inte — vi kommer inte göra det för komplicerat. Som vi redan har sagt, använder röstkloning AI-teknik djupinlärning för att lista ut vad det är exakt som gör en röst till någons egen röst. Vi pratar om tonhöjd, ton, accent, ljudstyrka och allt annat som vi associerar med en individs röst. Som du kan föreställa dig, krävs det kraftfull teknik för att lista ut allt detta; men det är möjligt. Det som faktiskt är viktigt är att vi matar det djupa neurala nätverket med massor av ljudinmatning. På ett sätt är det också hur vi lär oss främmande språk! Självklart har tekniken utvecklats nu, och vissa lösningar tar bara några timmar att få till den önskade rösten, vilket är fantastiskt om det inte finns tillräckligt med ljuddata vi kan använda (kom ihåg vad vi sa om historiska figurer).
Röstkloningsappar
Som du kan föreställa dig, finns det massor av röstkloningsappar där ute nu när internet är allestädes närvarande. Självklart gör vissa ett bättre jobb än andra. Här är några av våra toppval som du kan använda för att skapa dina egna syntetiska röster och utnyttja hela kraften av talsyntes från bekvämligheten av ditt hem:
- Respeecher
- Murf
- Resemble
- Descript
Röstkloningswebbplatser
Om du är bekant med TTS-verktyg vet du att du inte alltid behöver ladda ner appar för att få jobbet gjort. Istället kan du använda webbläsartillägg och webbplatser för en snabbare lösning. Samma sak gäller för AI-röstkloning. Du kan till exempel använda något som Zzlab. Men om du vill få ut det mesta av syntetiska talprogram föreslår vi att du laddar ner Speechify eller något av de program vi listade ovan.
Vanliga frågor
Vad är skillnaden mellan röstkloning och röstförvrängning?
Svaret är enkelt: röstförvrängning handlar om att ändra en persons röst för att få den att låta annorlunda, det vill säga att sätta den genom ett digitalt filter av något slag. Röstkloning, å andra sidan, är en mer komplex process som involverar djup- och maskininlärning med målet att skapa en AI-röst som kan producera ljud på egen hand och inte bara ändra talarens röst i realtid.
Vem är lättast att klona?
Den lättaste röstmodellen att klona skulle vara den med mest röstdata och ljudprover tillgängliga. Till exempel kan du använda dina egna röstinspelningar eller leta efter röster från populära innehållsskapare och kändisar eftersom algoritmerna redan gynnar dem.
Cliff Weitzman
Cliff Weitzman är en förespråkare för dyslexi och VD samt grundare av Speechify, världens främsta app för text-till-tal, med över 100 000 femstjärniga recensioner och förstaplats i App Store i kategorin Nyheter & Tidskrifter. År 2017 blev Weitzman utsedd till Forbes 30 under 30-lista för sitt arbete med att göra internet mer tillgängligt för personer med inlärningssvårigheter. Cliff Weitzman har blivit uppmärksammad i EdSurge, Inc., PC Mag, Entrepreneur, Mashable, bland andra ledande medier.