Social Proof

Een korte geschiedenis van tekst-naar-spraak

Speechify is de nummer 1 audiolezer ter wereld. Lees sneller door boeken, documenten, artikelen, PDF's, e-mails - alles wat je leest.

Uitgelicht In

forbes logocbs logotime magazine logonew york times logowall street logo
Luister naar dit artikel met Speechify!
Speechify

Stemsynthetisatietechnologie, beter bekend als tekst-naar-spraak, heeft zich in de loop der jaren snel ontwikkeld. Lees meer over de geschiedenis van tekst-naar-spraak.

Spraaksynthese, of de kunstmatige productie van de menselijke stem, heeft de afgelopen 70 jaar een lange weg afgelegd. Of je nu tekst-naar-spraak diensten gebruikt om boeken te beluisteren, te studeren of je eigen geschreven werk te proeflezen, er is geen twijfel dat tekst-naar-spraak diensten het leven gemakkelijker hebben gemaakt voor mensen in verschillende beroepen.

Hier bekijken we hoe tekst-naar-spraak verwerking werkt en hoe de ondersteunende technologie in de loop der tijd is veranderd.

Inleiding

In de 1700s creëerde de Russische professor Christian Kratzenstein akoestische resonatoren die het geluid van de menselijke stem nabootsten. Twee decennia later maakte de VODER (Voice Operating Demonstrator) grote indruk op de Wereldtentoonstelling in New York toen de maker, Homer Dudley, het publiek liet zien hoe menselijke spraak kunstmatig kon worden gecreëerd. Het apparaat was moeilijk te bedienen - Dudley moest de fundamentele frequentie met voetpedalen regelen.

In het begin van de 1800s ontwikkelde Charles Wheatstone de eerste mechanische spraaksynthesizer. Dit gaf een snelle impuls aan de evolutie van articulatorische synthesetools en technologieën.

Het kan moeilijk zijn om precies te bepalen wat een goed tekst-naar-spraak programma maakt, maar net als veel dingen in het leven, weet je het als je het hoort. Een hoogwaardig tekst-naar-spraak programma biedt natuurlijk klinkende stemmen met realistische intonatie en toon.

Tekst-naar-spraak technologie kan mensen die visueel beperkt zijn en met andere handicaps leven helpen om de informatie te krijgen die ze nodig hebben om te gedijen op het werk en om te communiceren met anderen. De software stelt studenten en anderen met een zware leeslast ook in staat om hun informatie via menselijke spraak te beluisteren wanneer ze onderweg zijn. Synthetische spraak stelt mensen in staat om meer te doen in minder tijd en kan nuttig zijn in verschillende omgevingen, van het maken van videogames tot het helpen van mensen met taalverwerkingsverschillen.

1950s en 60s

In de late jaren 1950 werden de eerste spraaksynthesesystemen gecreëerd. Deze systemen waren computergebaseerd. In 1961 gebruikte John Larry Kelly Jr., een natuurkundige bij Bell Labs, een IBM-computer om spraak te synthetiseren. Zijn vocoder (stemrecorder synthesizer) recreëerde het lied Daisy Bell.

Op het moment dat Kelly zijn vocoder perfectioneerde, gebruikte Arthur C. Clarke, auteur van 2001: A Space Odyssey, Kelly's demonstratie in het scenario van zijn boek. Tijdens de scène zingt de HAL 9000 computer Daisy Bell.

In 1966 kwam lineaire voorspellende codering op de markt. Deze vorm van spraakcoding begon zijn ontwikkeling onder Fumitada Itakura en Shuzo Saito. Bishnu S. Atal en Manfred R. Schroeder droegen ook bij aan de ontwikkeling van lineaire voorspellende codering.

1970s

In 1975 werd de lineaire spectrale paren methode ontwikkeld door Itakura. Deze hoog-compressie spraakcoding methode hielp Itakura meer te leren over spraakanalyse en -synthese, zwakke plekken te vinden en uit te zoeken hoe deze te verbeteren.

In dit jaar werd MUSA ook uitgebracht. Dit zelfstandige spraaksynthesesysteem gebruikte een algoritme om Italiaans voor te lezen. Een versie die drie jaar later werd uitgebracht, kon in het Italiaans zingen.

In de jaren 70 werd de eerste articulatorische synthesizer ontwikkeld, gebaseerd op het menselijke spraakkanaal. De eerste bekende synthesizer werd ontwikkeld door Tom Baer, Paul Mermelstein en Philip Rubin bij Haskins Laboratories. Het trio gebruikte informatie van de spraakkanaalmodellen die in de jaren 60 en 70 bij Bell Laboratories waren gemaakt.

In 1976 werden de Kurzweil Reading Machines voor blinden geïntroduceerd. Hoewel deze apparaten veel te duur waren voor het grote publiek, boden bibliotheken ze vaak aan voor mensen met visuele beperkingen om boeken te beluisteren.

Lineaire voorspellende codering werd het startpunt voor synthesizerchips. Texas Instruments LPC Speech Chips en de Speak & Spell speelgoed van de late jaren 70 gebruikten beide synthesizerchiptechnologie. Deze speelgoed waren voorbeelden van menselijke stemsynthetisatie met nauwkeurige intonaties, die de stem onderscheidde van de vaak robotachtig klinkende gesynthetiseerde stemmen van die tijd. Veel draagbare elektronica met de mogelijkheid om spraak te synthetiseren werden populair in dit decennium, waaronder de Telesensory Systems Speech+ rekenmachine voor blinden. De Fidelity Voice Chess Challenger, een schaakcomputer die spraak kon synthetiseren, werd in 1979 uitgebracht.

1980s

In de jaren 80 begon spraaksynthese de wereld van videogames te veroveren. In 1980 bracht Sun Electronics Stratovox uit, een schietspel in arcade-stijl. Manbiki Shoujo (vertaald naar Engels als Shoplifting Girl) was het eerste computerspel met de mogelijkheid om spraak te synthetiseren. Het elektronische spel Milton werd ook in 1980 uitgebracht - het was het eerste elektronische spel van The Milton Bradley Company dat menselijke stem kon synthetiseren.

In 1983 kwam de zelfstandige akoestisch-mechanische spraakmachine DECtalk. DECtalk begreep fonetische spellingen van woorden, waardoor aangepaste uitspraak van ongebruikelijke woorden mogelijk was. Deze fonetische spellingen konden ook een toonindicator bevatten die DECtalk gebruikte bij het uitspreken van de fonetische componenten. Hierdoor kon DECtalk zingen.

In de late jaren 80 creëerde Steve Jobs NeXT, een systeem dat werd ontwikkeld door Trillium Sound Research. Hoewel NeXT niet van de grond kwam, voegde Jobs het programma uiteindelijk samen met Apple in de jaren 90.

Jaren 90

Eerdere versies van gesynthetiseerde tekst-naar-spraak-systemen klonken duidelijk robotachtig, maar dat begon te veranderen in de late jaren 80 en vroege jaren 90. Zachtere medeklinkers zorgden ervoor dat sprekende machines hun elektronische klank verloren en menselijker klonken. In 1990 ontwikkelde Ann Syrdal bij AT&T Bell Laboratories een vrouwelijke spraaksynthesestem. Ingenieurs werkten in de jaren 90 aan het natuurlijker laten klinken van stemmen.

In 1999 bracht Microsoft Narrator uit, een schermlezeroplossing die nu in elke kopie van Microsoft Windows is opgenomen.

Jaren 2000

Spraaksynthese liep in de jaren 2000 tegen wat hobbels aan, omdat ontwikkelaars moeite hadden om overeenstemming te bereiken over standaarden voor gesynthetiseerde spraak. Omdat spraak zeer individueel is, is het moeilijk voor mensen over de hele wereld om samen te komen en het eens te worden over de juiste uitspraak van fonemen, difonen, intonatie, toon, patroonweergave en inflectie.

De kwaliteit van formantsynthese spraakaudio werd ook meer een zorg in de jaren 90, toen ingenieurs en onderzoekers opmerkten dat de kwaliteit van de systemen die in een laboratorium werden gebruikt om gesynthetiseerde spraak af te spelen vaak veel geavanceerder was dan de apparatuur die de gebruiker had. Bij spraaksynthese denken veel mensen aan de stem van Stephen Hawking, die een robotachtige stem met weinig menselijke toon gaf.

In 2005 kwamen onderzoekers eindelijk tot enige overeenstemming en begonnen ze een gemeenschappelijke spraakdataset te gebruiken, waardoor ze vanuit dezelfde basisidealen konden werken bij het creëren van geavanceerde spraaksynthesesystemen.

In 2007 werd een studie uitgevoerd die aantoonde dat luisteraars kunnen bepalen of een persoon die spreekt glimlacht. Onderzoekers blijven werken aan het gebruik van deze informatie om spraakherkennings- en spraaksynthesesoftware te creëren die natuurlijker is.

Jaren 2010

Tegenwoordig zijn producten voor spraaksynthese die spraaksignalen gebruiken overal, van Siri tot Alexa. Elektronische spraaksynthesizers maken het leven niet alleen gemakkelijker, maar ook leuker. Of je nu een TTS-systeem gebruikt om onderweg naar romans te luisteren of apps gebruikt die het gemakkelijker maken om een vreemde taal te leren, het is waarschijnlijk dat je dagelijks tekst-naar-spraak-technologie gebruikt om je neurale netwerken te activeren.

De toekomst

In de komende jaren zal de technologie voor stemsynthetisatie zich waarschijnlijk richten op het creëren van een model van de hersenen om beter te begrijpen hoe we spraakgegevens in onze geest vastleggen. Spraaktechnologie zal ook werken aan een beter begrip van de rol die emotie speelt in spraak, en zal deze informatie gebruiken om AI-stemmen te creëren die niet te onderscheiden zijn van echte mensen.

De nieuwste in stemsynthetisatietechnologie: Speechify

Bij het leren over de overgangen van eerdere spraaksynthesetechnologie is het verbazingwekkend om te bedenken hoe ver de wetenschap is gekomen. Tegenwoordig maken apps zoals Speechify het eenvoudig om elke tekst naar audiobestanden te vertalen. Met slechts een druk op de knop (of tik op een app) kan Speechify websites, documenten en afbeeldingen van tekst omzetten in natuurlijk klinkende spraak. De bibliotheek van Speechify synchroniseert op al je apparaten, waardoor het eenvoudig is om te blijven leren en werken onderweg. Bekijk de Speechify-app in zowel de Apple App Store als Android's Google Play.  

Veelgestelde vragen

Wie heeft tekst-naar-spraak uitgevonden?

Tekst-naar-spraak voor Engels werd uitgevonden door Noriko Umeda. Het systeem werd in 1968 ontwikkeld in het Electrotechnical Laboratory in Japan.

Wat is het doel van tekst-naar-spraak?

Veel mensen maken gebruik van tekst-naar-spraak technologie. Voor mensen die de voorkeur geven aan informatie in audioformaat, kan TTS-technologie het eenvoudig maken om de benodigde informatie te verkrijgen voor werk of studie, zonder urenlang voor een boek te zitten. Drukke professionals gebruiken ook TTS technologie om op de hoogte te blijven van hun werk wanneer ze niet voor een computerscherm kunnen zitten. Veel soorten TTS-technologie zijn oorspronkelijk ontwikkeld voor mensen met een visuele beperking, en TTS is nog steeds een fantastische manier voor mensen die moeite hebben met zien om de informatie te krijgen die ze nodig hebben.

Hoe synthesizeer je een toespraak?

Stukken opgenomen spraak worden in een database opgeslagen in verschillende eenheden. Software bereidt audiobestanden voor via eenheidsselectie. Van daaruit wordt een stem gecreëerd. Vaak geldt: hoe groter het uitvoerbereik van een programma, hoe meer het programma moeite heeft om gebruikers vocale helderheid te bieden.

Tyler Weitzman

Tyler Weitzman

Tyler Weitzman is de medeoprichter, hoofd van Kunstmatige Intelligentie & president bij Speechify, de nummer 1 tekst-naar-spraak app ter wereld, met meer dan 100.000 5-sterren beoordelingen. Weitzman is afgestudeerd aan Stanford University, waar hij een BS in wiskunde en een MS in Computer Science in de Kunstmatige Intelligentie richting behaalde. Hij is door Inc. Magazine geselecteerd als een Top 50 Ondernemer en is verschenen in Business Insider, TechCrunch, LifeHacker, CBS, en andere publicaties. Weitzman's onderzoek voor zijn master richtte zich op kunstmatige intelligentie en tekst-naar-spraak, waarbij zijn eindscriptie de titel droeg: “CloneBot: Gepersonaliseerde Dialoog-Antwoord Voorspellingen.”