Tekst-naar-spraak stemmen. Hoe werkt het?
Uitgelicht In
Hoe werken tekst-naar-spraak stemmen precies? We praten een beetje over de AI-technologie die woorden omzet in natuurlijk klinkende stemmen - direct!
Hoewel het concept van tekst-naar-spraak - oftewel software die de woorden op een computerscherm hardop voorleest aan de gebruiker - niet nieuw is, lijkt het de afgelopen jaren een ware revolutie door te maken.
Volgens een recent onderzoek werd de tekst-naar-spraak markt in 2020 gewaardeerd op een indrukwekkende $2 miljard - deels door de impact van de nog steeds voortdurende COVID-19 pandemie. Bovendien wordt verwacht dat de waarde tegen 2026 zal groeien tot $5 miljard - een indrukwekkende samengestelde jaarlijkse groei van 14,6%.
Veel hiervan kan worden toegeschreven aan de manieren waarop tekst-naar-spraak oplossingen mensen met verschillende visuele beperkingen helpen. Volgens de Centers for Disease Control and Prevention hebben ongeveer 12 miljoen mensen boven de 40 in de Verenigde Staten problemen met het verwerken van visuele informatie. Van dat aantal zijn er een miljoen volledig blind en hebben acht miljoen visuele problemen door een ongecorrigeerde refractiefout. Dat aantal is gestegen van 4,2 miljoen in 2012.
Dit alles om te zeggen dat tekst-naar-spraak technologie zijn waarde door de jaren heen meer dan bewezen heeft. Veel oplossingen zoals Speechify bieden zelfs meerdere hoogwaardige stemmen waaruit gebruikers kunnen kiezen, afhankelijk van hun behoeften. Maar hoe werken deze oplossingen en waarom zijn er zoveel stemopties beschikbaar? De antwoorden op dergelijke vragen vereisen dat je een paar belangrijke zaken in gedachten houdt.
De Werking van Tekst-naar-Spraak
Voordat je bij de daadwerkelijke stemmen achter tekst-naar-spraak komt, is het belangrijk om beter te begrijpen hoe deze oplossingen in de eerste plaats werken.
Tekst-naar-spraak maakt gebruik van kunstmatige intelligentie, machine learning en soortgelijke technologieën om de geschreven woorden op een pagina of scherm om te zetten in audio-inhoud die vervolgens hardop kan worden voorgelezen. Dit omvat niet alleen de inhoud van een website of iets als een artikel, maar ook tekst geschreven in applicaties zoals Microsoft Word en anderen.
De audio-inhoud zelf wordt volledig gegenereerd door het gebruikte apparaat. Naast het werken op desktop- en laptopcomputers, is tekst-naar-spraak ook beschikbaar op bijna elke smartphone, tablet of ander mobiel apparaat dat vandaag de dag op de markt is.
In de overgrote meerderheid van alle oplossingen wordt de tekst-naar-spraak verwerking lokaal op het apparaat zelf afgehandeld. Dit maakt tekst-naar-spraak waardevol, zelfs als er geen internetverbinding aanwezig is.
Naast het mogelijk maken voor mensen met visuele problemen om geschreven inhoud te lezen en te begrijpen, is tekst-naar-spraak ook nuttig omdat de toonhoogte en zelfs het tempo van de stem kunnen worden aangepast. Als je iets wilt vertragen om het beter te begrijpen, kan dat. Evenzo, als je de stem wilt versnellen om sneller door de inhoud te gaan, kan dat ook.
Tekst-naar-Spraak Stemmen: Een Uiteenzetting
Als het gaat om de daadwerkelijke stem die door deze tekst-naar-spraak oplossingen wordt gebruikt, komt het uiteindelijk allemaal neer op een concept dat een spraak synthesizer wordt genoemd.
Wat is een Spraak Synthesizer?
Spraaksynthese is een vorm van output waarbij je computer (of ander apparaat) woorden hardop leest in een eerder gekozen stem. Conceptueel is het niet zo heel anders dan zelf de woorden op een pagina lezen of ze zelfs uitprinten - je hebt het nog steeds over hoe de computer de gevraagde informatie uitvoert. Alleen doet het dat niet alleen via tekst, maar via een stem die je kunt horen via je luidsprekers of koptelefoon.
Over het algemeen werkt spraaksynthese door de oplossing die je gebruikt een aantal basis- maar belangrijke stappen te laten volgen. De eerste hiervan betreft de omzetting van tekst op een pagina naar woorden.
Stap 1: Voorverwerking
In dit deel van het proces analyseren tekst-naar-spraak oplossingen de woorden in de inhoud die je wilt lezen en nemen ze de letters - die in wezen slechts symbolen zijn - en zetten ze om in woorden. Dit deel van het proces is belangrijk, omdat het geschreven woord soms meer dubbelzinnig kan zijn dan mensen zich realiseren. Bepaalde woorden of zelfs zinnen kunnen meerdere dingen betekenen. Evenzo moet de computer het verschil kunnen "begrijpen" tussen woorden als "hun," "daar" en "zij zijn" - drie woorden die hetzelfde worden uitgesproken maar die de context van een zin drastisch kunnen veranderen.
Hier komen kunstmatige intelligentie en machine learning om de hoek kijken. Met AI kunnen tekst-naar-spraak oplossingen worden "getraind" om deze dubbelzinnigheid zoveel mogelijk te elimineren. Deze fase van het tekst-naar-spraak stemproces wordt "voorverwerking" genoemd, omdat het "achter de schermen" gebeurt voordat de betreffende applicatie iets hardop leest.
Dit is ook de fase waarin de tekst-naar-spraakoplossing onderscheid maakt tussen woorden die hetzelfde kunnen worden gespeld, maar anders klinken afhankelijk van hoe ze worden gebruikt. "Read" is hier een perfect voorbeeld van, omdat het mogelijk is dat je vanavond een boek wilt lezen om te ontspannen, ook al heb je dat boek al talloze keren gelezen. Mensen kunnen deze twee ideeën gemakkelijk onderscheiden gezien de context - kunstmatige intelligentie wordt aan de computerkant ingezet om hetzelfde resultaat te bereiken.
Even moeilijk tijdens deze periode zijn zaken als cijfers, afkortingen, acroniemen en meer. Speciale tekens zoals het dollarteken zijn ook moeilijker te "vertalen" dan alleen het geschreven woord. Daarom is de voorverwerkingsfase zo belangrijk - het helpt ervoor te zorgen dat alles wat uiteindelijk hardop wordt voorgelezen, daadwerkelijk logisch is in de context waarin het bedoeld was.
Stap 2: Begrijpen van Uitspraak
Zodra de tekst is geanalyseerd en de tekst-naar-spraakoplossing "begrijpt" welke woorden hardop moeten worden uitgesproken, begint het volgende deel van het proces. Dit is wanneer die woorden worden omgezet in fonemen - in wezen leert het hoe de woorden in de betreffende tekst op de juiste manier moeten worden uitgesproken.
Dit is een deel van het proces dat in de loop der jaren dramatisch is geëvolueerd. Als je ooit de kans hebt gehad om een tekst-naar-spraakoplossing uit de jaren 90 te gebruiken (of een oudere film uit de jaren 70 of 80 hebt gezien met een scène met tekst-naar-spraak), had je waarschijnlijk te maken met een computergestuurde stem die niet natuurlijk klonk. Het was onmiddellijk herkenbaar als door een computer gegenereerd en hoewel je kon begrijpen wat er werd gezegd, werden de meeste woorden waarschijnlijk verkeerd uitgesproken.
Stap 3: De Conversie naar Spraak Begint
Zodra die fonemen zijn geïdentificeerd, gaat de tekst-naar-spraakoplossing over naar het laatste deel van het proces: het omzetten van die informatie in geluid dat hardop kan worden afgespeeld via de luidsprekers of koptelefoon van een apparaat.
Dit gebeurt op een paar verschillende manieren, afhankelijk van de oplossing die je gebruikt. Een van die manieren is dat een menselijke acteur of actrice een lijst met fonemen hardop leest, waarna die informatie weer in de computer en de oplossing zelf wordt gevoerd. Vervolgens, zodra een specifiek tekstblok door de applicatie is gescand, kan het de fonemen die het op de pagina vindt, matchen met de fonemen die eerder zijn opgenomen. Het zet die twee dingen dan samen om een audioversie van de tekst op een veel natuurlijkere manier dan ooit tevoren af te spelen.
Sommige oplossingen laten de computer nog steeds zelf de stem genereren. Het werkt nog steeds op dezelfde manier, alleen is de "stem" niet gebaseerd op eerder opgenomen audio, maar wordt simpelweg gecreëerd door specifieke geluidsfrequenties in de juiste volgorde te genereren.
In dat opzicht is het niet geheel anders dan de manier waarop een muzieksynthesizer een muzikant in staat kan stellen om de geluiden van instrumenten na te bootsen met behulp van een standaard toetsenbord dat op een computer is aangesloten. Ze kunnen het toetsenbord bespelen zoals ze de piano zouden doen, hoewel in plaats van pianomuziek elke toets een ander akkoord op een gitaar of geluiden van een drum kan nabootsen. Het is nog steeds een computer die de intentie van elke toetsaanslag "begrijpt" en koppelt aan het juiste geluid, zij het in een andere context.
Stemopties en Verder
Een deel van de reden waarom er zoveel verschillende stemopties beschikbaar zijn in deze stemgenerator tekst-naar-spraakoplossingen is omdat ze eigenlijk niet zo moeilijk te creëren zijn als veel mensen denken. De soorten fonemen die nodig zijn voor een AI-stemgenerator om te werken, zijn eigenlijk vrij algemeen in de menselijke taal. Daarom zou het enige wat nodig is, zijn dat een acteur of actrice voor een microfoon gaat zitten, een kort script leest met alle benodigde fonemen, waarna die informatie weer in de oplossing zelf kan worden gevoerd.
De AI-spraaktechnologie zal elk van de fonemen individueel herkennen, in wezen die opname "opbreken" in de som van zijn delen en welke nodig zijn gebruiken om nauwkeurig de tekst-naar-spraakstemmen te genereren die nodig zijn wanneer een gebruiker een website of een andere vorm van inhoud probeert te lezen.
Natuurlijk zijn er veel andere potentiële toepassingen voor dit type natuurlijk klinkende stemgenerator, naast het simpelweg helpen van mensen met visuele beperkingen. In de afgelopen jaren is het publiek erg geïnteresseerd geraakt in AI-spraak en stemgeneratie dankzij sociale medianetwerken zoals TikTok.
TikTok is eigenlijk een van de grotere merken die AI-stemgeneratie heeft omarmd, waardoor gebruikers video's kunnen opnemen, tekst over die video's kunnen plaatsen en vervolgens spraaksynthese die inhoud hardop kan laten voorlezen. Het is een leuke manier om een extra laag van onderdompeling toe te voegen aan inhoud die op TikTok wordt geplaatst en het is iets dat alleen maar populairder zal worden naarmate de tijd verstrijkt.
De Toekomst van Tekst-naar-Spraak is Aangebroken
Uiteindelijk is tekst-naar-spraak een onmisbaar hulpmiddel vanwege wat het ons in staat stelt te doen. Het stelt mensen met visuele problemen in staat om van dezelfde inhoud te genieten en deze te begrijpen als iedereen, geheel op hun eigen voorwaarden. Het kan elke blogpost, artikel, document, whitepaper of andere gedrukte inhoud omzetten in een gemakkelijk te consumeren audio-ervaring, zodat je er niet alleen thuis van kunt genieten, maar ook tijdens je woon-werkverkeer, terwijl je in de sportschool bent, enzovoort.
Het maakt ons leven niet alleen productiever, maar helpt ook bij het oplossen van verschillende belangrijke problemen zoals hierboven beschreven. Op basis daarvan is het gemakkelijk te begrijpen waarom spraaksynthese en AI-spraak de afgelopen jaren zo populair zijn geworden.
Als je meer wilt weten over tekst-naar-spraakstemmen, of als je gewoon meer wilt leren over hoe zo'n oplossing je leven kan verbeteren, wacht dan niet langer - probeer Speechify vandaag nog gratis.
Speechify is de #1 beoordeelde app in de App Store met de meest natuurlijke klinkende spraak en gebruikerservaring met veel aanpasbare stemmen.
Speechify is beschikbaar in verschillende varianten: voor individuele gebruikers, groepen, of API voor bedrijven van alle groottes.
Tyler Weitzman
Tyler Weitzman is de medeoprichter, hoofd van Kunstmatige Intelligentie & president bij Speechify, de nummer 1 tekst-naar-spraak app ter wereld, met meer dan 100.000 5-sterren beoordelingen. Weitzman is afgestudeerd aan Stanford University, waar hij een BS in wiskunde en een MS in Computer Science in de Kunstmatige Intelligentie richting behaalde. Hij is door Inc. Magazine geselecteerd als een Top 50 Ondernemer en is verschenen in Business Insider, TechCrunch, LifeHacker, CBS, en andere publicaties. Weitzman's onderzoek voor zijn master richtte zich op kunstmatige intelligentie en tekst-naar-spraak, waarbij zijn eindscriptie de titel droeg: “CloneBot: Gepersonaliseerde Dialoog-Antwoord Voorspellingen.”