1. Forside
  2. TTS
  3. En kort historie om tekst-til-tale
Social Proof

En kort historie om tekst-til-tale

Speechify er verdens førende lydlæser. Kom hurtigere igennem bøger, dokumenter, artikler, PDF'er, e-mails - alt hvad du læser.

Fremhævet i

forbes logocbs logotime magazine logonew york times logowall street logo
Lyt til denne artikel med Speechify!
Speechify

Stemmesyntese teknologi, mere kendt som tekst-til-tale, har udviklet sig hurtigt gennem årene. Lær mere om historien bag tekst-til-tale.

Talesyntese, eller den kunstige produktion af den menneskelige stemme, har udviklet sig meget over de sidste 70 år. Uanset om du bruger tekst-til-tale tjenester til at lytte til bøger, studere eller korrekturlæse dit eget skriftlige arbejde, er der ingen tvivl om, at tekst-til-tale tjenester har gjort livet lettere for folk i en række forskellige erhverv.

Her vil vi se på, hvordan tekst-til-tale behandling fungerer, og hvordan denne hjælpende teknologi har ændret sig over tid.

Introduktion

I 1700-tallet skabte den russiske professor Christian Kratzenstein akustiske resonatorer, der efterlignede lyden af den menneskelige stemme. To årtier senere vakte VODER (Voice Operating Demonstrator) stor opmærksomhed på verdensudstillingen i New York, da skaberen Homer Dudley viste, hvordan menneskelig tale kunne skabes gennem kunstige midler. Enheden var svær at betjene – Dudley måtte styre grundfrekvensen ved hjælp af fodpedaler.

I begyndelsen af 1800-tallet udviklede Charles Wheatstone den første mekaniske talesyntese. Dette satte gang i en hurtig udvikling af artikulatoriske synteseværktøjer og teknologier.

Det kan være svært at præcisere, hvad der gør et godt tekst-til-tale program, men som med mange ting i livet, ved man det, når man hører det. Et højkvalitets tekst-til-tale program tilbyder naturligt lydende stemmer med ægte intonation og tone.

Tekst-til-tale teknologi kan hjælpe mennesker, der er synshandicappede eller lever med andre handicap, med at få den information, de har brug for, for at trives på arbejdet og kommunikere med andre. Softwaren giver også studerende og andre med store læsebyrder mulighed for at lytte til deres information via menneskelig tale, når de er på farten. Syntetisk tale gør det muligt for folk at få mere fra hånden på kortere tid og kan være nyttig i en række forskellige sammenhænge, fra videospiludvikling til at hjælpe mennesker med sprogbearbejdningsforskelle.

1950'erne og 60'erne

I slutningen af 1950'erne blev de første talesyntesesystemer skabt. Disse systemer var computerbaserede. I 1961 brugte fysikeren John Larry Kelly Jr. fra Bell Labs en IBM-computer til at syntetisere tale. Hans vocoder (stemmeoptager-synthesizer) genskabte sangen Daisy Bell.

På det tidspunkt, hvor Kelly perfektionerede sin vocoder, brugte Arthur C. Clarke, forfatteren af 2001: A Space Odyssey, Kellys demonstration i filmens manuskript. I en scene synger HAL 9000-computeren Daisy Bell.

I 1966 kom lineær forudsigelseskodning på banen. Denne form for talekodning begyndte sin udvikling under Fumitada Itakura og Shuzo Saito. Bishnu S. Atal og Manfred R. Schroeder bidrog også til udviklingen af lineær forudsigelseskodning.

1970'erne

I 1975 blev metoden med lineære spektralpar udviklet af Itakura. Denne højkompressions talekodningsmetode hjalp Itakura med at lære mere om taleanalyse og syntese, finde svage punkter og finde ud af, hvordan man kunne forbedre dem.

I dette år blev MUSA også udgivet. Dette selvstændige talesyntesesystem brugte en algoritme til at læse italiensk højt. En version udgivet tre år senere kunne synge på italiensk.

I 70'erne blev den første artikulatoriske synthesizer udviklet og baseret på den menneskelige vokaltrakt. Den første kendte synthesizer blev udviklet af Tom Baer, Paul Mermelstein og Philip Rubin ved Haskins Laboratories. Trioen brugte information fra vokaltraktmodeller skabt ved Bell Laboratories i 60'erne og 70'erne.

I 1976 blev Kurzweil Reading Machines for the Blind introduceret. Selvom disse enheder var alt for dyre for den brede offentlighed, tilbød biblioteker dem ofte til personer med synshandicap for at lytte til bøger.

Lineær forudsigelseskodning blev udgangspunktet for synthesizer-chips. Texas Instruments LPC Speech Chips og Speak & Spell legetøjet fra slutningen af 1970'erne brugte begge synthesizer-chip teknologi. Disse legetøj var eksempler på menneskelig stemmesyntese med præcise intonationer, der adskilte stemmen fra de almindeligt robotagtige syntetiske stemmer på den tid. Mange håndholdte elektroniske enheder med evnen til at syntetisere tale blev populære i dette årti, herunder Telesensory Systems Speech+ lommeregneren for blinde. Fidelity Voice Chess Challenger, en skakcomputer, der kunne syntetisere tale, blev udgivet i 1979.

1980'erne

I 1980'erne begyndte talesyntese at revolutionere videospilverdenen. I 1980 udgav Sun Electronics Stratovox (et skydespil i arkadestil). Manbiki Shoujo (oversat til engelsk som Shoplifting Girl) var det første computerspil med evnen til at syntetisere tale. Det elektroniske spil Milton blev også udgivet i 1980 – det var Milton Bradley Companys første elektroniske spil med evnen til at syntetisere menneskestemmen.

I 1983 kom den selvstændige akustisk-mekaniske talemaskine kaldet DECtalk. DECtalk forstod fonetiske stavemåder af ord, hvilket tillod tilpasset udtale af usædvanlige ord. Disse fonetiske stavemåder kunne også inkludere en toneindikator, som DECtalk ville bruge, når den udtalte de fonetiske komponenter. Dette gjorde det muligt for DECtalk at synge.

I slutningen af 80'erne skabte Steve Jobs NeXT, et system udviklet af Trillium Sound Research. Selvom NeXT ikke blev en succes, integrerede Jobs programmet med Apple i 90'erne.

1990'erne

Tidligere versioner af syntetiserede tekst-til-tale-systemer lød meget robotagtige, men det begyndte at ændre sig i slutningen af 80'erne og begyndelsen af 90'erne. Blødere konsonanter gjorde det muligt for talemaskiner at miste den elektroniske kant og lyde mere menneskelige. I 1990 udviklede Ann Syrdal ved AT&T Bell Laboratories en kvindelig talesyntesestemme. Ingeniører arbejdede på at gøre stemmerne mere naturlige i løbet af 90'erne.

I 1999 udgav Microsoft Narrator, en skærmlæserløsning, der nu er inkluderet i hver kopi af Microsoft Windows.

2000'erne

Talesyntese stødte på nogle udfordringer i 2000'erne, da udviklere kæmpede for at skabe fælles standarder for syntetiseret tale. Da tale er meget individuel, er det svært for folk verden over at blive enige om korrekt udtale af fonemer, difoner, intonation, tone, mønsterafspilning og betoning.

Kvaliteten af formantsyntese taleaudio blev også en større bekymring i 90'erne, da ingeniører og forskere bemærkede, at kvaliteten af de systemer, der blev brugt i et laboratorium til at afspille syntetiseret tale, ofte var langt mere avanceret end det udstyr, brugeren havde. Når man tænker på talesyntese, tænker mange på Stephen Hawkings stemmesyntetisator, som gav en robotagtig stemme med lidt menneskelig tone.

I 2005 nåede forskere endelig til enighed og begyndte at bruge et fælles taledatasæt, hvilket gjorde det muligt for dem at arbejde ud fra de samme grundlæggende idealer, når de skabte avancerede talesyntesesystemer.

I 2007 blev der udført en undersøgelse, der viste, at lyttere kan afgøre, om en person, der taler, smiler. Forskere arbejder fortsat på at finde ud af, hvordan man kan bruge denne information til at skabe talegenkendelses- og talesyntesesoftware, der er mere naturlig.

2010'erne

I dag er talesynteseprodukter, der bruger talesignaler, overalt, fra Siri til Alexa. Elektroniske talesyntetisatorer gør ikke kun livet lettere – de gør det også sjovere. Uanset om du bruger et TTS-system til at lytte til romaner på farten eller bruger apps, der gør det lettere at lære et fremmedsprog, er det sandsynligt, at du bruger tekst-til-tale-teknologi til at aktivere dine neurale netværk dagligt.

Fremtiden

I de kommende år er det sandsynligt, at stemmesynteseteknologi vil fokusere på at skabe en model af hjernen for bedre at forstå, hvordan vi optager taledata i vores sind. Taleteknologi vil også arbejde på bedre at forstå den rolle, som følelser spiller i tale, og vil bruge denne information til at skabe AI-stemmer, der er umulige at skelne fra rigtige mennesker.

Det nyeste inden for stemmesynteseteknologi: Speechify

Når man lærer om overgangen fra tidligere talesynteseteknologi, er det fantastisk at forestille sig, hvor langt videnskaben er kommet. I dag gør apps som Speechify det nemt at oversætte enhver tekst til lydfiler. Med blot et tryk på en knap (eller et tryk på en app) kan Speechify tage hjemmesider, dokumenter og billeder af tekst og oversætte dem til naturligt lydende tale. Speechifys bibliotek synkroniserer på tværs af alle dine enheder, hvilket gør det enkelt for dig at fortsætte med at lære og arbejde på farten. Tjek Speechify-appen i både Apples App Store og Androids Google Play.  

Ofte stillede spørgsmål

Hvem opfandt tekst-til-tale?

Tekst-til-tale for engelsk blev opfundet af Noriko Umeda. Systemet blev udviklet i Electrotechnical Laboratory i Japan i 1968.

Hvad er formålet med tekst-til-tale?

Mange mennesker bruger tekst-til-tale teknologi. For dem, der foretrækker at få deres information i lydformat, kan TTS-teknologi gøre det nemt at få den nødvendige information til at arbejde eller lære, uden at skulle bruge timer foran en bog. Travle professionelle bruger også TTS teknologi for at holde sig ajour med deres arbejde, når de ikke kan sidde foran en computerskærm. Mange typer TTS-teknologi blev oprindeligt udviklet til personer med synshandicap, og TTS er stadig en fantastisk måde for personer, der har svært ved at se, at få den information, de har brug for.

Hvordan syntetiserer man en tale?

Stykker af optaget tale gemmes i en database i forskellige enheder. Software forbereder lydfiler gennem enhedsvalg. Derfra skabes en stemme. Ofte, jo større outputområde et program har, desto mere kæmper programmet med at give brugerne vokal klarhed.

Tyler Weitzman

Tyler Weitzman

Tyler Weitzman er medstifter, leder af kunstig intelligens og præsident hos Speechify, verdens førende tekst-til-tale app med over 100.000 5-stjernede anmeldelser. Weitzman er uddannet fra Stanford University, hvor han modtog en bachelor i matematik og en master i datalogi med fokus på kunstig intelligens. Han er blevet udvalgt af Inc. Magazine som en af de 50 bedste iværksættere og har været omtalt i Business Insider, TechCrunch, LifeHacker, CBS og andre publikationer. Weitzmans kandidatforskning fokuserede på kunstig intelligens og tekst-til-tale, hvor hans afsluttende opgave havde titlen: “CloneBot: Personalized Dialogue-Response Predictions.”