Social Proof

Wat is Google WaveNet

Speechify is de nummer 1 audiolezer ter wereld. Lees sneller door boeken, documenten, artikelen, PDF's, e-mails - alles wat je leest.

Uitgelicht In

forbes logocbs logotime magazine logonew york times logowall street logo
Luister naar dit artikel met Speechify!
Speechify

WaveNet is een kunstmatig neuraal netwerk ontworpen om ruwe audio te genereren. Hier is hoe de technologie - een van de vele beschikbare tekst-naar-spraak tools - onze mogelijkheid verbetert om de woorden om ons heen te horen en te verwerken.

Veel mensen gebruiken tekst-naar-spraak diensten dagelijks, evenals virtuele assistenten. Maar wat ze misschien niet weten, is dat deze twee veel gemeenschappelijke kenmerken hebben in de manier waarop ze werken. Naarmate de technologie verbetert, verbetert ook de kwaliteit van de apps die we in ons dagelijks leven gebruiken.

Hetzelfde geldt voor TTS-apps en VA's. Er zijn een paar bedrijven die uitzonderlijke resultaten laten zien op dit gebied, en een daarvan is Google met zijn WaveNet-technologie.

Wat is Google WaveNet?

WaveNet is een kunstmatig neuraal netwerk ontworpen om ruwe audio te genereren. Het team erachter is DeepMind, een bedrijf uit Londen dat zich richt op kunstmatige intelligentie. De introductie van de technologie bracht een grote verandering teweeg voor het Google Cloud-platform en tilde alles naar een hoger niveau.

Een van de belangrijkste voordelen die Google’s DeepMind introduceerde in vergelijking met de vorige tekst-naar-spraak systemen is dat het beter klinkt. Toen het in 2016 werd geïntroduceerd, TTS systemen waren niet in staat om een natuurlijk klinkende stem te creëren.

WaveNet tekst-naar-spraak overtrof het op alle fronten. Het idee achter deze technologie is vrij eenvoudig. De software kan ruwe audiobestanden zoals WAV als input gebruiken en profiteert van de connectiviteit met Google API en een API-sleutel.

Vandaag de dag hebben we talloze manieren om deze technologie te gebruiken, dankzij ons vermogen om deze complexe algoritmen te benutten. Veel bedrijven over de hele wereld concurreren met elkaar om het best mogelijke product te leveren. En dat is een goede zaak. Voor eindgebruikers betekent het alleen maar meer opties die het gemakkelijker maken om een programma te vinden dat aan hun behoeften voldoet.

Hoe WaveNet werkt

WaveNet is een versie van FNN of feedforward neuraal netwerk, ook wel bekend als een diep convolutioneel neuraal netwerk. CNN neemt het ruwe signaal van de input en kan vervolgens de output één sample tegelijk synthetiseren.

Natuurlijk is de basis achter alles machine learning, natuurlijke taalverwerking, deep learning en machine-intelligentie. In eerdere iteraties van tekst-naar-spraak apps was het idee om een database van fonemen te creëren, en de app zou de juiste kiezen, of in ieder geval degene die het dichtst bij het benodigde geluid kwam.

Maar het creëren van dit soort puzzel is niet eenvoudig. De software moet begrijpen hoe taal werkt, inclusief het ritme en de dynamiek, anders zouden de geluiden uit je luidspreker nep overkomen.

Zoals bij de meeste tekst-naar-spraak programma's, gebruikt WaveNet ook echte audiogolfvormen - denk aan parametrisch of concatenatief, om er maar een paar te noemen. Op deze manier kan de software de regels van de taal (of liever geluiden) analyseren, en hoe deze in de loop van de tijd veranderen.

Dit stelt het programma in staat om patronen te genereren die klinken als menselijke spraak op basis van de spraakvoorbeelden. Wat indrukwekkend is, is dat de software de output zal produceren op basis van de informatie die aan de software wordt gevoed.

Dit is wat het betekent in de echte wereld: Als je bijvoorbeeld Italiaans spreekt, kan het programma je helpen Italiaanse spraak te produceren. Dit betekende destijds een enorme verandering en effende de weg voor andere tekst-naar-spraak API's.

Voorbeelden van WaveNet in actie

Toen Google de software introduceerde, vereiste het te veel rekenkracht om in het echte leven te worden gebruikt. Maar dit veranderde allemaal in de daaropvolgende jaren. Deze API hielp eerst bij het aandrijven van Google Assistant-stemmen, die het bedrijf op meerdere platforms aanbood.

WaveNet is ook een geweldig hulpmiddel als je op zoek bent naar TTS-software. De stem klinkt realistischer, wat de hele ervaring aangenamer maakt. Je kunt het gebruiken om naar het laatste nieuws te luisteren, transcripties van podcasts of wat je maar kunt bedenken.

Dat is nog maar het begin. Het hele idee achter het proces kan ook mensen met spraakproblemen helpen hun stem terug te krijgen. Stemsynthetisatie is de term die wordt gebruikt voor stemimitatie, en het potentieel ervan is verbluffend. Mensen die bijvoorbeeld spraakproblemen hebben, kunnen in theorie een sample van hun stem gebruiken en deze integreren met tekst-naar-spraak tools. Dit kan hen hun stem teruggeven.

We weten nog niet wat de toekomst in petto heeft voor TTS-programma's, maar we kunnen aannemen dat het geweldig zal zijn. Een van de beste dingen aan dit gebied van innovatie is dat er veel verschillende bedrijven zijn die werken aan TTS-producten.

Wanneer iedereen naar hetzelfde doel toewerkt, is de kans groter dat we ongelooflijke resultaten zullen zien.

Speechify - Spraaksynthese

Een van de programma's die je zo snel mogelijk moet bekijken, is Speechify. Het is een tekst-naar-spraak app die je op bijna elk apparaat kunt gebruiken. Het is beschikbaar voor iOS, Android, Mac en zelfs als een extensie voor Google Chrome.

Speechify kan elk type inhoud verwerken. Het kan je PDF's, documenten, e-mails of wat je ook op je apparaat hebt voorlezen. Een van de grootste voordelen van de app is zijn veelzijdigheid en aanpasbaarheid.

Je kunt de leessnelheid aanpassen, verschillende stemmen kiezen, de toonhoogte wijzigen, enzovoort. Het is ook vermeldenswaard dat Speechify een OCR-functie biedt, wat betekent dat je een foto kunt maken van je boek, en de app leest het voor je voor.

De app is speciaal ontworpen voor mensen met dyslexie, ADD, mensen die een nieuwe taal leren of iedereen die productief wil zijn tijdens het lezen van een boek. Het is een alles-in-één app die je kijk op lezen zal veranderen.

Speechify is eenvoudig te gebruiken, en je hebt geen uitgebreide handleiding nodig om het te begrijpen.

FAQ

Waar wordt WaveNet voor gebruikt?

Het is een diep neuraal netwerk dat ruwe audio kan creëren. Het is een tekst-naar-spraak synthese die realistisch klinkende WaveNet-stemmen biedt, en het kan worden getraind met echte spraakopnamen. Hierdoor heeft het met succes Google Cloud tekst-naar-spraak overtroffen.

Tegenwoordig wordt de software gebruikt voor Google Assistant-stemmen.

Wat is het WaveNet-model?

Het model is gebaseerd op de PixelCNN-architectuur. Om te kunnen omgaan met langeafstandsafhankelijkheden die nodig zijn om ruwe output te creëren, gebruikt de architectuur gedilateerde causale convoluties.

De toevoeging van gedilateerde CNN's maakt eenvoudiger en sneller trainen mogelijk, en het kan duizend lagen terug in de tijd gaan. Het kan ook 20 keer sneller werken dan real-time.

Wat is het verschil tussen WaveNet en Convolutional Neural Networks?

De software is gebaseerd op het diepe convolutionele neurale netwerk of CNN. Dit betekent dat WaveNet slechts één toepassing is van CNN. Een vergelijkbare technologie wordt gebruikt door andere bedrijven zoals Microsoft of Amazon (samen met SSML), en het biedt hoge kwaliteit en geweldige resultaten.

Als je op zoek bent naar de beste tekst-naar-spraak app, kies dan voor Speechify. Hoewel andere platforms bepaalde voordelen bieden, is Speechify naadloos te gebruiken, probleem vrij en intuïtief voor elke gebruiker die tekst in gesproken woord wil omzetten.

Tyler Weitzman

Tyler Weitzman

Tyler Weitzman is de medeoprichter, hoofd van Kunstmatige Intelligentie & president bij Speechify, de nummer 1 tekst-naar-spraak app ter wereld, met meer dan 100.000 5-sterren beoordelingen. Weitzman is afgestudeerd aan Stanford University, waar hij een BS in wiskunde en een MS in Computer Science in de Kunstmatige Intelligentie richting behaalde. Hij is door Inc. Magazine geselecteerd als een Top 50 Ondernemer en is verschenen in Business Insider, TechCrunch, LifeHacker, CBS, en andere publicaties. Weitzman's onderzoek voor zijn master richtte zich op kunstmatige intelligentie en tekst-naar-spraak, waarbij zijn eindscriptie de titel droeg: “CloneBot: Gepersonaliseerde Dialoog-Antwoord Voorspellingen.”