Social Proof

En kort historia om text-till-tal

Speechify är världens främsta ljudläsare. Ta dig igenom böcker, dokument, artiklar, PDF-filer, e-post - allt du läser - snabbare.

Medverkat i

forbes logocbs logotime magazine logonew york times logowall street logo
Lyssna på denna artikel med Speechify!
Speechify

Röstsyntesteknik, mer känd som text-till-tal, har utvecklats snabbt genom åren. Lär dig mer om text-till-tals historia.

Talsyntes, eller den konstgjorda produktionen av den mänskliga rösten, har kommit långt under de senaste 70 åren. Oavsett om du använder text-till-tal-tjänster för att lyssna på böcker, studera eller korrekturläsa ditt eget skrivna arbete, råder det ingen tvekan om att text-till-tal-tjänster har gjort livet enklare för människor i en mängd olika yrken.

Här kommer vi att titta på hur text-till-tal-behandling fungerar och hur denna hjälpande teknik har förändrats över tid.

Introduktion

På 1700-talet skapade den ryske professorn Christian Kratzenstein akustiska resonatorer som imiterade ljudet av den mänskliga rösten. Två decennier senare gjorde VODER (Voice Operating Demonstrator) stora rubriker på New York World’s Fair när skaparen Homer Dudley visade hur mänskligt tal kunde skapas på konstgjord väg. Enheten var svår att spela – Dudley var tvungen att kontrollera grundfrekvensen med fotpedaler.

I början av 1800-talet utvecklade Charles Wheatstone den första mekaniska talsyntetisatorn. Detta satte igång en snabb utveckling av artikulatoriska syntesverktyg och teknologier.

Det kan vara svårt att exakt definiera vad som gör ett bra text-till-tal-program, men som med mycket annat i livet, vet du det när du hör det. Ett högkvalitativt text-till-tal-program erbjuder naturligt klingande röster med verklighetstrogen betoning och ton.

Text-till-tal-teknik kan hjälpa personer med synnedsättning och andra funktionsnedsättningar att få den information de behöver för att lyckas på jobbet och kommunicera med andra. Programvaran gör det också möjligt för studenter och andra med stora läsbördor att lyssna på sin information via mänskligt tal när de är på språng. Syntetiskt tal gör det möjligt för människor att få mer gjort på kortare tid och kan vara användbart i en mängd olika sammanhang, från skapande av datorspel till att hjälpa personer med språkbehandlingssvårigheter.

1950- och 60-talet

I slutet av 1950-talet skapades de första talsyntessystemen. Dessa system var datorbaserade. År 1961 använde fysikern John Larry Kelly Jr. vid Bell Labs en IBM-dator för att syntetisera tal. Hans vocoder (röståtergivningssyntetisator) återskapade låten Daisy Bell.

När Kelly fulländade sin vocoder använde Arthur C. Clarke, författare till 2001: A Space Odyssey, Kellys demonstration i filmens manus. Under scenen sjunger HAL 9000-datorn Daisy Bell.

År 1966 kom linjär prediktiv kodning in på scenen. Denna form av talkodning började utvecklas under Fumitada Itakura och Shuzo Saito. Bishnu S. Atal och Manfred R. Schroeder bidrog också till utvecklingen av linjär prediktiv kodning.

1970-talet

År 1975 utvecklades metoden för linjära spektralpar av Itakura. Denna högkompressionsmetod för talkodning hjälpte Itakura att lära sig mer om talanalys och syntes, hitta svagheter och komma på hur man kunde förbättra dem.

Under detta år släpptes också MUSA. Detta fristående talsyntessystem använde en algoritm för att läsa italienska högt. En version som släpptes tre år senare kunde sjunga på italienska.

På 70-talet utvecklades den första artikulatoriska syntetisatorn baserad på den mänskliga röstkanalen. Den första kända syntetisatorn utvecklades av Tom Baer, Paul Mermelstein och Philip Rubin vid Haskins Laboratories. Trion använde information från röstkanalmodeller skapade vid Bell Laboratories på 60- och 70-talet.

År 1976 introducerades Kurzweil Reading Machines för blinda. Även om dessa enheter var alldeles för dyra för allmänheten, tillhandahöll bibliotek dem ofta för personer med synnedsättning för att lyssna på böcker.

Linjär prediktiv kodning blev startpunkten för syntetisatorchips. Texas Instruments LPC Speech Chips och Speak & Spell-leksakerna från slutet av 1970-talet använde båda syntetisatorchipteknologi. Dessa leksaker var exempel på mänsklig röstsyntes med korrekta intonationer, vilket skiljde rösten från de vanligt robotliknande syntetiska rösterna vid den tiden. Många handhållna elektroniska enheter med förmåga att syntetisera tal blev populära under detta decennium, inklusive Telesensory Systems Speech+ kalkylator för blinda. Fidelity Voice Chess Challenger, en schackdator som kunde syntetisera tal, släpptes 1979.

1980-talet

På 1980-talet började talsyntes göra sitt intåg i tv-spelsvärlden. 1980 släppte Sun Electronics spelet Stratovox (ett arkadspel i skjutstil). Manbiki Shoujo (översatt till engelska som Shoplifting Girl) var det första datorspelet med förmågan att syntetisera tal. Det elektroniska spelet Milton släpptes också 1980 – det var Milton Bradley Companys första elektroniska spel med förmågan att syntetisera mänsklig röst.

1983 kom den fristående akustisk-mekaniska talmaskinen DECtalk. DECtalk förstod fonetiska stavningar av ord, vilket möjliggjorde anpassad uttal av ovanliga ord. Dessa fonetiska stavningar kunde också inkludera en tonindikator som DECtalk använde när den uttalade de fonetiska komponenterna. Detta gjorde att DECtalk kunde sjunga.

I slutet av 80-talet skapade Steve Jobs NeXT, ett system som utvecklades av Trillium Sound Research. Även om NeXT inte blev en succé, integrerade Jobs programmet med Apple på 90-talet.

1990-talet

Tidigare versioner av syntetiserade text-till-tal-system lät tydligt robotiska, men det började förändras i slutet av 80-talet och början av 90-talet. Mjukare konsonanter gjorde att talmaskiner kunde förlora den elektroniska känslan och låta mer mänskliga. 1990 utvecklade Ann Syrdal vid AT&T Bell Laboratories en kvinnlig talsyntesröst. Ingenjörer arbetade under 90-talet för att göra rösterna mer naturliga.

1999 släppte Microsoft Narrator, en skärmläsarlösning som nu ingår i varje kopia av Microsoft Windows.

2000-talet

Talsyntes stötte på några problem under 2000-talet, då utvecklare kämpade för att skapa överenskomna standarder för syntetiserat tal. Eftersom tal är mycket individuellt är det svårt för människor runt om i världen att enas om korrekt uttal av fonem, difoner, intonation, ton, mönsteruppspelning och betoning.

Kvaliteten på formantsyntesens tal-ljud blev också en större fråga på 90-talet, då ingenjörer och forskare märkte att kvaliteten på systemen som användes i ett laboratorium för att spela upp syntetiserat tal ofta var mycket mer avancerad än den utrustning användaren hade. När man tänker på talsyntes tänker många på Stephen Hawkings röstsyntetisator, som gav en robotliknande röst med lite mänsklig ton.

2005 kom forskare äntligen överens och började använda en gemensam taldatabas, vilket gjorde det möjligt för dem att arbeta utifrån samma grundläggande ideal när de skapade avancerade talsyntessystem.

2007 gjordes en studie som visade att lyssnare kan avgöra om en person som talar ler. Forskare fortsätter att arbeta för att ta reda på hur man kan använda denna information för att skapa taligenkänning och talsyntesprogramvara som är mer naturlig.

2010-talet

Idag finns talsyntesprodukter som använder talsignaler överallt, från Siri till Alexa. Elektroniska talsyntetisatorer gör inte bara livet enklare – de gör också livet roligare. Oavsett om du använder ett TTS-system för att lyssna på romaner på språng eller använder appar som gör det lättare att lära sig ett främmande språk, är det troligt att du använder text-till-tal-teknik för att aktivera dina neurala nätverk dagligen.

Framtiden

Under de kommande åren är det troligt att röstsyntestekniken kommer att fokusera på att skapa en modell av hjärnan för att bättre förstå hur vi lagrar taldata i våra sinnen. Talteknologi kommer också att arbeta för att bättre förstå vilken roll känslor spelar i tal och kommer att använda denna information för att skapa AI-röster som är omöjliga att skilja från verkliga människor.

Det senaste inom röstsyntesteknik: Speechify

När man lär sig om övergångar från tidigare talsyntesteknik är det fantastiskt att föreställa sig hur långt vetenskapen har kommit. Idag gör appar som Speechify det enkelt att översätta vilken text som helst till ljudfiler. Med bara ett knapptryck (eller tryck på en app) kan Speechify ta webbplatser, dokument och bilder av text och översätta dem till naturligt klingande tal. Speechifys bibliotek synkroniseras över alla dina enheter, vilket gör det enkelt för dig att fortsätta lära och arbeta på språng. Kolla in Speechify-appen i både Apples App Store och Androids Google Play.  

Vanliga frågor

Vem uppfann text-till-tal?

Text-till-tal för engelska uppfanns av Noriko Umeda. Systemet utvecklades vid Electrotechnical Laboratory i Japan 1968.

Vad är syftet med text-till-tal?

Många människor använder text-till-tal-teknologi. För de som föredrar att få sin information i ljudformat kan TTS-teknologi göra det enkelt att få den information som behövs för att arbeta eller lära sig, utan att behöva tillbringa timmar framför en bok. Upptagna yrkesverksamma använder också TTS-teknologi för att hålla sig uppdaterade med sitt arbete när de inte kan sitta framför en datorskärm. Många typer av TTS-teknologi utvecklades ursprungligen för personer med synnedsättningar, och TTS är fortfarande ett fantastiskt sätt för personer som har svårt att se att få den information de behöver.

Hur syntetiserar man ett tal?

Delar av inspelade tal lagras i en databas i olika enheter. Programvara förbereder ljudfiler genom enhetsval. Därifrån skapas en röst. Ofta, ju större utbud ett program har, desto mer kämpar programmet med att ge användarna röstklarhet.

Tyler Weitzman

Tyler Weitzman

Tyler Weitzman är medgrundare, chef för artificiell intelligens och president på Speechify, världens främsta app för text-till-tal, med över 100 000 femstjärniga recensioner. Weitzman är utexaminerad från Stanford University, där han tog en kandidatexamen i matematik och en masterexamen i datavetenskap med inriktning på artificiell intelligens. Han har utsetts av Inc. Magazine som en av de 50 främsta entreprenörerna och har blivit uppmärksammad i Business Insider, TechCrunch, LifeHacker, CBS, bland andra publikationer. Weitzmans masteruppsats fokuserade på artificiell intelligens och text-till-tal, där hans slutrapport hade titeln: “CloneBot: Personalized Dialogue-Response Predictions.”