Hvad er Google WaveNet
Fremhævet i
WaveNet er et kunstigt neuralt netværk designet til at generere rå lyd. Her er, hvordan teknologien - et af mange tekst-til-tale værktøjer tilgængelige - forbedrer vores evne til at høre og bearbejde ordene omkring os.
Mange mennesker bruger tekst-til-tale tjenester dagligt, samt virtuelle assistenter. Men hvad de måske ikke ved, er, at disse to deler mange funktioner, når det kommer til, hvordan de fungerer. Efterhånden som teknologien forbedres, gør kvaliteten af de apps, vi bruger i vores daglige liv, det også.
Det samme gælder for TTS-apps og VAs. Der er et par virksomheder, der viser exceptionelle resultater på området, og en af dem er Google med sin WaveNet-teknologi.
Hvad er Google WaveNet?
WaveNet er et kunstigt neuralt netværk designet til at generere rå lyd. Holdet bag det er DeepMind, som er en virksomhed fra London med fokus på kunstig intelligens. Introduktionen af teknologien gjorde en stor forskel for Google Cloud-platformen og løftede alt til næste niveau.
En af de største fordele, som Googles DeepMind introducerede sammenlignet med de tidligere tekst-til-tale-systemer, er, at det lyder bedre. Da det blev introduceret i 2016, TTS systemer var ikke i stand til at skabe en naturligt lydende stemme.
WaveNet tekst-til-tale overgik det på alle måder. Ideen bag denne teknologi er ret simpel. Softwaren er i stand til at bruge rå lydfiler som WAV som input og drager fordel af forbindelsen med Google API og en API-nøgle.
I dag har vi mange måder at bruge denne teknologi på, takket være vores evne til at udnytte disse komplekse algoritmer. Mange virksomheder verden over konkurrerer med hinanden for at levere det bedst mulige produkt. Og det er en god ting. For slutbrugerne betyder det kun flere muligheder, der gør det lettere at finde et program, der passer til deres behov.
Hvordan WaveNet fungerer
WaveNet er en version af FNN eller feedforward neuralt netværk, også kendt som et dybt konvolutionelt neuralt netværk. CNN tager det rå signal fra input og kan derefter syntetisere output én prøve ad gangen.
Selvfølgelig er grundlaget bag det hele maskinlæring, naturlig sprogbehandling, dyb læring og maskinintelligens. I tidligere iterationer af tekst-til-tale-apps var ideen at skabe en database af fonemer, og appen ville vælge den rigtige, eller i det mindste den, der repræsenterede den nærmeste til den nødvendige lyd.
Men at skabe denne type puslespil er ikke let. Softwaren skal forstå, hvordan sprog fungerer, inklusive dets rytme og dynamik, ellers ville lydene fra din højttaler fremstå som falske.
Som med de fleste tekst-til-tale-programmer bruger WaveNet også ægte lydsignaler - tænk parametrisk eller konkateneret, for at nævne nogle få. På denne måde kan softwaren analysere sprogets regler (eller rettere lyde), og hvordan det ændrer sig over tid.
Dette gør det muligt for programmet at generere mønstre, der vil lyde som menneskelig tale baseret på talens prøver. Det imponerende er, at softwaren vil producere output baseret på de oplysninger, der bliver fodret til softwaren.
Her er, hvad det betyder i den virkelige verden: Hvis du taler italiensk, for eksempel, kan programmet hjælpe dig med at producere italiensk tale. Dette repræsenterede en stor ændring på det tidspunkt og banede vejen for andre tekst-til-tale API'er.
Eksempler på WaveNet i aktion
Da Google introducerede softwaren, krævede det for meget processorkraft til at blive brugt i virkeligheden. Men alt dette ændrede sig i de følgende år. Denne API hjalp først med at drive Google Assistant-stemmer, som virksomheden tilbød på tværs af flere platforme.
WaveNet er også et fantastisk værktøj, hvis du leder efter TTS-software. Stemmen lyder mere realistisk, hvilket gør hele oplevelsen mere behagelig. Du kan bruge det til at lytte til de seneste nyheder, transskriptioner af podcasts eller hvad som helst andet, du kan forestille dig.
Det er kun begyndelsen. Hele ideen bag processen kan også hjælpe talehæmmede mennesker med at få deres stemmer tilbage. Stemme-syntese er udtrykket, der bruges til stemmeimitation, og dets potentiale er forbløffende. For eksempel kan mennesker, der er talehæmmede, i teorien bruge en prøve af deres stemme og integrere den med tekst-til-tale værktøjer. Dette kan give dem deres stemme tilbage.
Vi ved endnu ikke alt, hvad fremtiden bringer for TTS-programmer, men vi kan antage, at det vil være vidunderligt. En af de bedste ting ved dette innovationsområde er, at der er mange forskellige virksomheder, der arbejder på TTS-produkter.
Når alle arbejder mod det samme mål, er det mere sandsynligt, at vi vil se utrolige resultater.
Speechify - Tale-syntese
Blandt de programmer, du bør tjekke ud hurtigst muligt, er Speechify. Det er en tekst-til-tale app, som du kan bruge på næsten enhver enhed. Den er tilgængelig for iOS, Android, Mac og endda som en udvidelse til Google Chrome.
Speechify kan håndtere enhver type indhold. Den kan læse dine PDF'er, dokumenter, e-mails eller hvad som helst andet, du har på din enhed. En af appens største fordele er dens alsidighed og tilpasningsmuligheder.
Du kan ændre læsehastigheden, vælge forskellige stemmer, justere tonehøjden og så videre. Det er også værd at nævne, at Speechify tilbyder en OCR-funktion, hvilket betyder, at du kan tage et billede af din bog, og appen vil læse den for dig.
Appen er specielt designet til personer med dysleksi, ADD, dem der lærer et nyt sprog eller enhver, der ønsker at være produktiv, mens de læser en bog. Det er en alt-i-en app, der vil ændre din opfattelse af læsning.
Speechify er nem at bruge, og du behøver ikke en omfattende vejledning for at finde ud af det.
FAQ
Hvad bruges WaveNet til?
Det er et dybt neuralt netværk, der kan skabe rå lyd. Det er en tekst-til-tale syntese, der tilbyder realistisk lydende WaveNet-stemmer, og det kan trænes ved hjælp af rigtige optagelser af tale. Som et resultat har det med succes overgået Google Cloud tekst-til-tale.
I dag bruges softwaren til Google Assistant-stemmer.
Hvad er WaveNet-modellen?
Modellen er baseret på PixelCNN-arkitekturen. For at håndtere langtrækkende afhængigheder, der er nødvendige for at skabe rå output, bruger arkitekturen dilaterede kausale konvolutioner.
Tilføjelsen af dilaterede CNN'er muliggør lettere og hurtigere træning, og den kan gå tusind lag tilbage i tiden. Den kan også arbejde 20 gange hurtigere end realtid.
Hvad er forskellen mellem WaveNet og konvolutionelle neurale netværk?
Softwaren er baseret på det dybe konvolutionelle neurale netværk eller CNN. Dette betyder, at WaveNet blot er en anvendelse af CNN. En lignende teknologi bruges af andre virksomheder som Microsoft eller Amazon (sammen med SSML), og den tilbyder høj kvalitet og gode resultater.
Når du leder efter den bedste tekst-til-tale app, så vælg Speechify. Selvom andre platforme tilbyder udvalgte fordele, er Speechify nem at bruge, problem fri og intuitiv for enhver bruger, der ønsker at omdanne tekst til tale.
Tyler Weitzman
Tyler Weitzman er medstifter, leder af kunstig intelligens og præsident hos Speechify, verdens førende tekst-til-tale app med over 100.000 5-stjernede anmeldelser. Weitzman er uddannet fra Stanford University, hvor han modtog en bachelor i matematik og en master i datalogi med fokus på kunstig intelligens. Han er blevet udvalgt af Inc. Magazine som en af de 50 bedste iværksættere og har været omtalt i Business Insider, TechCrunch, LifeHacker, CBS og andre publikationer. Weitzmans kandidatforskning fokuserede på kunstig intelligens og tekst-til-tale, hvor hans afsluttende opgave havde titlen: “CloneBot: Personalized Dialogue-Response Predictions.”