Vad är Google WaveNet
Medverkat i
WaveNet är ett artificiellt neuralt nätverk designat för att generera rå ljud. Här är hur teknologin - ett av många text-till-tal-verktyg som finns tillgängliga - förbättrar vår förmåga att höra och bearbeta orden omkring oss.
Många människor använder text-till-tal-tjänster dagligen, liksom virtuella assistenter. Men vad de kanske inte vet är att dessa två delar många funktioner när det gäller hur de fungerar. När teknologin förbättras, gör även kvaliteten på apparna vi använder i vårt dagliga liv det.
Samma sak gäller för TTS-appar och virtuella assistenter. Det finns ett par företag som visar exceptionella resultat inom området, och ett av dem är Google med sin WaveNet-teknologi.
Vad är Google WaveNet?
WaveNet är ett artificiellt neuralt nätverk designat för att generera rå ljud. Teamet bakom det är DeepMind, som är ett företag från London med fokus på artificiell intelligens. Introduktionen av teknologin gjorde en stor förändring för Google Cloud-plattformen och tog allt till nästa nivå.
En av de största fördelarna som Googles DeepMind introducerade jämfört med tidigare text-till-tal-system är att det låter bättre. När det introducerades 2016, TTS-system kunde inte skapa en naturligt ljudande röst.
WaveNet text-till-tal överträffade det på alla sätt. Idén bakom denna teknik är ganska enkel. Programvaran kan använda råa ljudfiler som WAV som input och drar nytta av anslutning med Google API och en API-nyckel.
Idag har vi många sätt att använda denna teknologi, tack vare vår förmåga att utnyttja dessa komplexa algoritmer. Många företag världen över tävlar med varandra för att leverera den bästa möjliga produkten. Och detta är en bra sak. För slutanvändare innebär det bara fler alternativ som gör det lättare att hitta ett program som passar deras behov.
Hur WaveNet fungerar
WaveNet är en version av FNN eller feedforward neuralt nätverk, även känt som ett djupt konvolutionellt neuralt nätverk. CNN tar den råa signalen från input och kan sedan syntetisera output en provpunkt i taget.
Naturligtvis är grunden bakom allt maskininlärning, naturlig språkbehandling, djupinlärning och maskinintelligens. I tidigare iterationer av text-till-tal-appar var idén att skapa en databas av fonem, och appen skulle välja rätt, eller åtminstone den som representerade närmast det ljud som behövdes.
Men att skapa denna typ av pussel är inte lätt. Programvaran behöver förstå hur språk fungerar, inklusive dess rytm och dynamik, annars skulle ljuden som kommer ut ur din högtalare uppfattas som falska.
Som med de flesta text-till-tal-program använder WaveNet också riktiga ljudvågor - tänk parametrisk eller konkatenerad, för att nämna några. På detta sätt kan programvaran analysera språkets regler (eller snarare ljuden) och hur det förändras över tid.
Detta gör att programmet kan generera mönster som kommer att låta som mänskligt tal baserat på talsamplingarna. Det som är imponerande är att programvaran kommer att producera output baserat på informationen som matas in i programvaran.
Här är vad det betyder i verkligheten: Om du talar italienska, till exempel, kan programmet hjälpa dig att producera italienskt tal. Detta representerade en stor förändring vid den tiden och banade väg för andra text-till-tal-API:er.
Exempel på WaveNet i praktiken
När Google introducerade programvaran krävde den för mycket processorkraft för att användas i verkligheten. Men allt detta förändrades under de följande åren. Detta API hjälpte först till att driva Google Assistant-röster, som företaget erbjöd över flera plattformar.
WaveNet är också ett utmärkt verktyg om du letar efter TTS-programvara. Rösten låter mer realistisk, vilket gör hela upplevelsen mer njutbar. Du kan använda det för att lyssna på de senaste nyheterna, transkriptioner av podcaster eller vad du än kan föreställa dig.
Det är bara början. Hela idén bakom processen kan också hjälpa personer med talnedsättning att få tillbaka sina röster. Röstsyntes är termen som används för röstimitation, och dess potential är häpnadsväckande. Till exempel kan personer med talnedsättning, i teorin, använda ett prov av sin röst och integrera det med text-till-tal-verktyg. Detta kan ge dem deras röst tillbaka.
Vi vet ännu inte allt som framtiden har i beredskap för TTS-program, men vi kan anta att det kommer att bli fantastiskt. En av de bästa sakerna med detta innovationsområde är att det finns många olika företag som arbetar med TTS-produkter.
När alla arbetar mot samma mål är det mer troligt att vi kommer att se otroliga resultat.
Speechify - Talsyntes
Bland de program du bör kolla in så snart som möjligt är Speechify. Det är en text-till-tal-app som du kan använda på nästan vilken enhet som helst. Den finns tillgänglig för iOS, Android, Mac och till och med som en tillägg för Google Chrome.
Speechify kan hantera alla typer av innehåll. Den kan läsa upp PDF-filer, dokument, e-post eller vad som helst du har på din enhet. En av appens största fördelar är dess mångsidighet och anpassningsbarhet.
Du kan ändra läshastigheten, välja olika röstalternativ, justera tonhöjden och så vidare. Det är också värt att nämna att Speechify erbjuder en OCR-funktion, vilket innebär att du kan ta ett foto av din bok, och appen kommer att läsa upp den för dig.
Appen är speciellt utformad för personer med dyslexi, ADD, de som lär sig ett nytt språk eller vem som helst som vill vara produktiv medan de läser en bok. Det är en allt-i-ett-app som kommer att förändra hur du upplever läsning.
Speechify är lätt att använda, och du behöver ingen omfattande handledning för att förstå den.
Vanliga frågor
Vad används WaveNet till?
Det är ett djupt neuralt nätverk som kan skapa rå ljud. Det är en text-till-tal-syntes som erbjuder realistiskt ljudande WaveNet-röster, och det kan tränas med hjälp av riktiga inspelningar av tal. Som ett resultat har det framgångsrikt överträffat Google Cloud text-till-tal.
Idag används programvaran för Google Assistant-röster.
Vad är WaveNet-modellen?
Modellen är baserad på PixelCNN-arkitekturen. För att hantera långsiktiga beroenden som är nödvändiga för att skapa rå output, använder arkitekturen dilaterade kausala konvolutioner.
Tillägget av dilaterade CNNs möjliggör enklare och snabbare träning, och det kan gå tusen lager tillbaka i tiden. Det kan också arbeta 20 gånger snabbare än realtid.
Vad är skillnaden mellan WaveNet och konvolutionella neurala nätverk?
Programvaran är baserad på det djupa konvolutionella neurala nätverket eller CNN. Detta innebär att WaveNet bara är en tillämpning av CNN. En liknande teknik används av andra företag som Microsoft eller Amazon (tillsammans med SSML), och den erbjuder hög kvalitet och utmärkta resultat.
När du letar efter den bästa text-till-tal-appen, vänd dig till Speechify. Även om andra plattformar erbjuder vissa fördelar, är Speechify enkel att använda, problem fri och intuitiv för alla användare som vill omvandla text till tal.
Tyler Weitzman
Tyler Weitzman är medgrundare, chef för artificiell intelligens och president på Speechify, världens främsta app för text-till-tal, med över 100 000 femstjärniga recensioner. Weitzman är utexaminerad från Stanford University, där han tog en kandidatexamen i matematik och en masterexamen i datavetenskap med inriktning på artificiell intelligens. Han har utsetts av Inc. Magazine som en av de 50 främsta entreprenörerna och har blivit uppmärksammad i Business Insider, TechCrunch, LifeHacker, CBS, bland andra publikationer. Weitzmans masteruppsats fokuserade på artificiell intelligens och text-till-tal, där hans slutrapport hade titeln: “CloneBot: Personalized Dialogue-Response Predictions.”