Hva er historien til tekst-til-tale og stemmesyntese?

Tekst-til-tale (TTS) og stemmesyntese kan virke som helt nye teknologier, men de har faktisk en rik historie som strekker seg flere århundrer tilbake.

Fra de tidligste forsøkene på å etterligne menneskelig tale med mekaniske innretninger til dagens banebrytende kunstig intelligens og dyp læringsmodeller, har utviklingen av TTS vært en fascinerende reise.

I denne artikkelen vil vi dykke dypt inn i historien til tekst-til-tale og stemmesyntese og utforske de spennende mulighetene for fremtiden.

Tekst-til-tale og stemmesyntese: fra tidlig utvikling til dagens bruk

1700- og 1800-tallet

Historien til tekst-til-tale og stemmesyntese kan spores tilbake til 1700- og 1800-tallet. I denne perioden var det flere tidlige forsøk på talesyntese, alle ved bruk av mekaniske innretninger. På 1770-tallet utviklet Wolfgang von Kempelen, en ungarsk oppfinner, en mekanisk innretning kalt den akustisk-mekaniske talemaskinen, designet for å simulere menneskets vokaltrakt. Denne analoge innretningen brukte belger, rør og piper for å produsere vokal- og konsonantlyder.

På slutten av 1700-tallet oppfant en engelsk fysiker, Charles Wheatstone, en mer mekanisk versjon av Kempelens talemaskin, som han kalte "talemaskinen." Innretningen kunne gjengi lydene fra ulike musikkinstrumenter. Selv om Wheatstones innretning ikke var eksplisitt designet for talesyntese, forsterket den ideen om å bruke en mekanisk innretning for å produsere lyd.

På 1800-tallet ble det utviklet flere andre innretninger, inkludert Fabers "kunstige tale"-maskin. Disse innretningene brukte en kombinasjon av mekaniske og pneumatiske systemer for å skape talelyder.

Tidlig 1900-tall og den første hel-elektriske talesyntesen

På begynnelsen av 1900-tallet ble talesynteseteknologien mer sofistikert med oppfinnelsen av det første hel-elektriske talesyntesesystemet – vocoderen av Homer Dudley. Systemet ble utviklet ved Bell Laboratories (Bell Labs) i New Jersey.

Dudleys vocoder brukte en serie resonatorer og filtre for å skape syntetisk tale. Eksperter viste frem vocoderen, kalt Voder, under verdensutstillingen i Flushing Meadows, New York, i 1939-1940. De betjente maskinen ved hjelp av et tastatur og fotpedaler for å generere tale.

Tidlig 1950-tall til slutten av 1970-tallet – fremveksten av synthesizere

I 1951 inspirerte Dudleys arbeid utviklingen av mønsteravspilling av Dr. Franklin S. Cooper ved Haskins Laboratories. Systemet fungerte ved å analysere en innspilt lyd, som et uttalt ord eller en frase, og bryte det ned i dets komponentlydbølger eller "spektrografiske mønstre." Disse mønstrene ble deretter lagret på magnetbånd og spilt av for å produsere en syntetisk versjon av den opprinnelige lyden.

I 1976 ble det første kommersielt vellykkede tekst-til-tale-systemet introdusert av Kurzweil Reading Machine. Systemet brukte en konkatenerende synteseteknikk, som kombinerte forhåndsinnspilte fonemer og ord for å produsere syntetisk tale. Enheten var primært designet for å hjelpe personer med funksjonshemninger, men den ble raskt populær som et lesehjelpemiddel.

Fra 1978 begynte Texas Instruments å jobbe med en talesyntesechip som kunne brukes i videospill og andre datamaskinbaserte applikasjoner. Chipen brukte konkatenerende syntese, som kombinerte innspilte talelyder, eller difoner, for å produsere menneskelignende taleutgang. Denne teknologien ble senere brukt i DECtalk, et tekst-til-tale-system som ga høy kvalitet syntetisk tale for personer med funksjonshemninger.

Moderne tekst-til-tale-systemer

En av de viktigste innovasjonene de siste årene har vært bruken av nevrale nettverk for å generere syntetisk tale. Selskaper som Google og Microsoft har utviklet høykvalitets TTS-systemer som bruker dyp læringsalgoritmer for å analysere store datasett av menneskelige stemmer og generere naturlig klingende taleutgang.

En annen viktig utvikling i TTS som en form for hjelpemiddelsteknologi har vært bruken av enhetsvalg og konkatenerende synteseteknikker. Disse metodene tillater mer realistiske utganger ved å kombinere små enheter av forhåndsinnspilt tale, som difoner eller til og med hele ord, for å skape nye setninger. Disse teknikkene har blitt brukt i populære TTS-apper som Speechify, Apples Siri og Amazons Alexa, samt i eldre verktøy som IBM ViaVoice.

Talegjenkjenningsteknologi har også gjort betydelige fremskritt de siste årene, noe som har muliggjort mer sofistikerte TTS-systemer. Ved å bruke talegjenkjenningsalgoritmer for å transkribere menneskelig tale til tekst, kan TTS-systemer skape mer naturlige overganger i syntetisert tale.

De siste årene har vi også sett integreringen av prosodi og intonasjon. Dette gir mer naturlig klingende tale, med passende pauser, vektlegging og tone. Prosodi er spesielt viktig for språk som engelsk, hvor stress og intonasjon kan påvirke meningen med en setning betydelig.

Dyp læring og videre: teknologiens fremtid

Fremtiden for TTS-teknologi er spennende og full av løfter. Med fremveksten av kunstig intelligens og dyp læring kan vi forvente enda mer naturlig lydende taleutgang som kan etterligne nyansene i menneskelig tale.

Et område hvor dette vil være spesielt nyttig er utviklingen av virtuelle assistenter og chatboter. Disse systemene vil bli mer samtalepreget, og brukerne vil kunne samhandle med dem på en mer naturlig måte.

I tillegg kan vi forvente fremskritt innen fonetisk transkripsjon, også kjent som tekst-til-fonem-konvertering. Etter hvert som maskiner blir bedre til å gjenkjenne og tolke menneskelig tale, vil nøyaktigheten og effektiviteten til tale-til-tekst-systemer fortsette å forbedres.

Til slutt kan vi forvente at tekst-til-tale-teknologi blir mer tilgjengelig og integrert i våre daglige liv. Etter hvert som flere enheter blir koblet til tingenes internett, vil vi kunne kontrollere dem med stemmen vår i sanntid, noe som gjør livene våre mer praktiske og effektive.

Bli med på tekst-til-tale-revolusjonen med Speechify

Hvis du leter etter en kraftig tekst-til-tale tjeneste som kan produsere naturlig, høykvalitets fortelling, trenger du ikke lete lenger enn Speechify.

Med sin avanserte formantsyntese-teknologi skaper Speechify realistiske, naturlig lydende stemmer, i motsetning til de robotaktige stemmene fra fortiden. Selv anerkjente forfattere som Stephen Hawking – som en gang prøvde seg på tekst-til-tale-teknologi – ville blitt imponert over Speechifys evner.

Å bruke Speechify er enkelt – besøk bare den offisielle nettstedet eller last ned mobilappen og skriv inn ønsket tekst. Deretter velger du en stemme som passer dine behov, justerer hastighet og tone etter behov, og voila! Speechify vil skape utmerket og naturlig lydende fortelling perfekt for e-læringsmoduler, forklaringsvideoer, podkaster, og presentasjoner. Du kan til og med lage dine egne tilpassede stemmer for bruk på YouTube og andre sosiale mediekanaler.

Ikke nøye deg med dårligere TTS-tjenester – prøv Speechify i dag og opplev fremtiden for tekst-til-tale-teknologi.

FAQ

Hvem utviklet verdens første talesyntetisator?

Homer Dudley designet verdens første talesyntetisator tidlig på 1930-tallet ved Bell Laboratories i New York.

Hva er formålet med talesyntese?

Talesyntese har som mål å generere kunstig tale fra tekstinput ved hjelp av språkbehandling og grunnleggende frekvensanalyse.

Hva er de fire måtene TTS kan brukes på?

TTS kan brukes til tilgjengelighet, underholdning, språklæring og automatisering av stemmebaserte tjenester.

Hva er noen av fordelene med tekst-til-tale?

Tekst-til-tale kan forbedre tilgjengelighet, styrke læring og øke produktiviteten ved å la brukere konsumere skriftlig innhold i et auditivt format.

Hva har vært det mest overraskende øyeblikket i utviklingen av tekst-til-tale-syntese?

Et av de mest overraskende øyeblikkene i utviklingen av tekst-til-tale-syntese var oppfinnelsen av Charles Wheatstones mekaniske talesyntetisator.

Speechify er verdens ledende tekst-til-tale-plattform, med over 50 millioner brukere og mer enn 500 000 femstjerners vurderinger på sine tekst-til-tale-iOS-, Android-, Chrome-utvidelse-, webapp- og Mac-desktop-apper. I 2025 ga Apple Speechify den prestisjetunge Apple Design Award på WWDC, og kalte det «en kritisk ressurs som hjelper folk å leve livene sine». Speechify tilbyr over 1 000 naturtro stemmer på mer enn 60 språk, og brukes i nærmere 200 land. Kjendisstemmer inkluderer Snoop Dogg og Gwyneth Paltrow. For skapere og bedrifter gir Speechify Studio avanserte verktøy, inkludert AI voice generator, AI-stemmekloning, AI-dubbing og AI-stemmebytter. Speechify driver også ledende produkter med sitt høykvalitets, kostnadseffektive tekst-til-tale-API. Omtalt i The Wall Street Journal, CNBC, Forbes, TechCrunch og andre store nyhetskanaler, er Speechify verdens største tekst-til-tale-leverandør. Besøk speechify.com/news, speechify.com/blog og speechify.com/press for å lære mer.

Hva er historien til tekst-til-tale og stemmesyntese?

Cliff Weitzman

Speechify, din Voice AI-assistent
Tekst til tale. Stemmeinnskriving. Raske svar.