Hva er Google WaveNet
Fremhevet i
WaveNet er et kunstig nevralt nettverk designet for å generere rå lyd. Her er hvordan teknologien - ett av mange tilgjengelige tekst-til-tale-verktøy - forbedrer vår evne til å høre og prosessere ordene rundt oss.
Mange bruker tekst-til-tale-tjenester daglig, samt virtuelle assistenter. Men det de kanskje ikke vet, er at disse to deler mange funksjoner når det gjelder hvordan de fungerer. Etter hvert som teknologien forbedres, gjør også kvaliteten på appene vi bruker i hverdagen det.
Det samme gjelder for TTS-apper og virtuelle assistenter. Det er et par selskaper som viser eksepsjonelle resultater på dette feltet, og en av dem er Google med sin WaveNet-teknologi.
Hva er Google WaveNet?
WaveNet er et kunstig nevralt nettverk designet for å generere rå lyd. Teamet bak det er DeepMind, som er et firma fra London med fokus på kunstig intelligens. Introduksjonen av teknologien gjorde en betydelig endring for Google Cloud-plattformen, og det tok alt til neste nivå.
En av de største fordelene som Googles DeepMind introduserte sammenlignet med tidligere tekst-til-tale-systemer, er at det høres bedre ut. Da det ble introdusert i 2016, TTS-systemer var ikke i stand til å skape en naturlig lydende stemme.
WaveNet tekst-til-tale overgikk det på alle måter. Ideen bak denne teknologien er ganske enkel. Programvaren kan bruke rå lydfiler som WAV som input og drar nytte av tilkobling med Google API og en API-nøkkel.
I dag har vi mange måter å bruke denne teknologien på, takket være vår evne til å utnytte disse komplekse algoritmene. Mange selskaper over hele verden konkurrerer med hverandre for å levere det best mulige produktet. Og dette er en god ting. For sluttbrukere betyr det bare flere alternativer som gjør det lettere å finne et program som passer deres behov.
Hvordan WaveNet fungerer
WaveNet er en versjon av FNN eller feedforward nevralt nettverk, også kjent som et dypt konvolusjonelt nevralt nettverk. CNN tar det rå signalet fra input og kan deretter syntetisere output én prøve om gangen.
Selvfølgelig er grunnlaget bak alt maskinlæring, naturlig språkbehandling, dyp læring og maskinintelligens. I tidligere iterasjoner av tekst-til-tale-apper var ideen å lage en database av fonemer, og appen ville velge den riktige, eller i det minste den som representerte lyden som trengtes best.
Men å lage denne typen puslespill er ikke lett. Programvaren må forstå hvordan språk fungerer, inkludert dets rytme og dynamikk, ellers vil lydene som kommer ut av høyttaleren din virke falske.
Som med de fleste tekst-til-tale-programmer, bruker WaveNet også ekte lydsignaler - tenk parametrisk eller konkatenerende, for å nevne noen få. På denne måten kan programvaren analysere språkets regler (eller rettere sagt lyder), og hvordan det endres over tid.
Dette gjør at programmet kan generere mønstre som vil høres ut som menneskelig tale basert på taleprøvene. Det som er imponerende, er at programvaren vil produsere output basert på informasjonen som mates inn i programvaren.
Her er hva det betyr i den virkelige verden: Hvis du snakker italiensk, for eksempel, kan programmet hjelpe deg med å produsere italiensk tale. Dette representerte en stor endring på den tiden og banet vei for andre tekst-til-tale-APIer.
Eksempler på WaveNet i bruk
Da Google introduserte programvaren, krevde det for mye prosessorkraft til å brukes i det virkelige liv. Men alt dette endret seg i de påfølgende årene. Denne API-en hjalp først med å drive Google Assistant-stemmer, som selskapet tilbød på tvers av flere plattformer.
WaveNet er også et flott verktøy hvis du ser etter TTS-programvare. Stemmen høres mer realistisk ut, noe som gjør hele opplevelsen mer behagelig. Du kan bruke den til å lytte til de siste nyhetene, transkripsjoner av podkaster eller hva som helst annet du kan tenke deg.
Dette er bare begynnelsen. Hele ideen bak prosessen kan også hjelpe personer med talevansker å få tilbake stemmene sine. Stemmessyntese er begrepet som brukes for stemmeimitasjon, og potensialet er forbløffende. For eksempel kan personer med talevansker, i teorien, bruke en prøve av stemmen sin og integrere den med tekst-til-tale-verktøy. Dette kan gi dem stemmen tilbake.
Vi vet ennå ikke alt hva fremtiden bringer for TTS-programmer, men vi kan anta at det vil bli fantastisk. En av de beste tingene med dette innovasjonsområdet er at det er mange forskjellige selskaper som jobber med TTS-produkter.
Når alle jobber mot det samme målet, er det mer sannsynlig at vi vil se utrolige resultater.
Speechify - Talesyntese
Blant programmene du bør sjekke ut så snart som mulig, er Speechify. Det er en tekst-til-tale-app, og du kan bruke den på nesten alle enheter. Den er tilgjengelig for iOS, Android, Mac og til og med som en utvidelse for Google Chrome.
Speechify kan håndtere alle typer innhold. Den kan lese opp PDF-er, dokumenter, e-poster eller hva som helst annet du har på enheten din. En av hovedfordelene med appen er dens allsidighet og tilpasningsmuligheter.
Du kan endre lesehastigheten, velge forskjellige stemmer, justere tonehøyden og så videre. Det er også verdt å nevne at Speechify tilbyr en OCR-funksjon, som betyr at du kan ta et bilde av boken din, og appen vil lese den for deg.
Appen er spesielt designet for personer med dysleksi, ADD, de som lærer et nytt språk eller hvem som helst som ønsker å være produktiv mens de leser en bok. Det er en alt-i-ett-app som vil endre måten du opplever lesing på.
Speechify er enkel å bruke, og du trenger ikke en omfattende veiledning for å forstå den.
FAQ
Hva brukes WaveNet til?
Det er et dypt nevralt nettverk som kan lage rå lyd. Det er en tekst-til-tale-syntese som tilbyr realistisk lydende WaveNet-stemmer, og det kan trenes ved hjelp av ekte taleopptak. Som et resultat har det overgått Google Cloud tekst-til-tale.
I dag brukes programvaren til Google Assistant-stemmer.
Hva er WaveNet-modellen?
Modellen er basert på PixelCNN-arkitekturen. For å håndtere langtrekkende avhengigheter som er nødvendige for å lage rå output, bruker arkitekturen dilaterte kausale konvolusjoner.
Tillegget av dilaterte CNN-er tillater enklere og raskere trening, og det kan gå tusen lag tilbake i tid. Det kan også arbeide 20 ganger raskere enn sanntid.
Hva er forskjellen mellom WaveNet og konvolusjonelle nevrale nettverk?
Programvaren er basert på det dype konvolusjonelle nevrale nettverket eller CNN. Dette betyr at WaveNet bare er en anvendelse av CNN. En lignende teknologi brukes av andre selskaper som Microsoft eller Amazon (sammen med SSML), og den tilbyr høy kvalitet og gode resultater.
Når du leter etter den beste tekst-til-tale-appen, velg Speechify. Selv om andre plattformer tilbyr visse fordeler, er Speechify sømløs å bruke, problem fri og intuitiv for enhver bruker som ønsker å gjøre tekst om til tale.
Tyler Weitzman
Tyler Weitzman er medgründer, leder for kunstig intelligens og president i Speechify, verdens ledende tekst-til-tale-app, med over 100 000 femstjerners anmeldelser. Weitzman er utdannet ved Stanford University, hvor han tok en bachelorgrad i matematikk og en mastergrad i informatikk med spesialisering i kunstig intelligens. Han har blitt kåret av Inc. Magazine som en av de 50 beste entreprenørene, og han har blitt omtalt i Business Insider, TechCrunch, LifeHacker, CBS, blant andre publikasjoner. Weitzmans mastergradsforskning fokuserte på kunstig intelligens og tekst-til-tale, hvor hans avsluttende oppgave hadde tittelen: “CloneBot: Personalized Dialogue-Response Predictions.”