Hvad er historien bag tekst-til-tale og stemmesyntese?
Fremhævet i
Hvad er historien bag tekst-til-tale og stemmesyntese? Opdag de banebrydende øjeblikke og nøglepersoner bag stemmesyntese og tekst-til-tale teknologi.
Tekst-til-tale (TTS) og stemmesyntese kan virke som helt nye teknologier, men de har faktisk en rig historie, der går flere århundreder tilbage.
Fra de tidligste forsøg på at efterligne menneskelig tale med mekaniske apparater til nutidens banebrydende kunstig intelligens og dyb læringsmodeller, har udviklingen af TTS været en fascinerende rejse.
I denne artikel dykker vi ned i historien om tekst-til-tale og stemmesyntese og udforsker de spændende muligheder for fremtiden.
Tekst-til-tale og stemmesyntese: fra tidlig udvikling til moderne anvendelse
1700- og 1800-tallet
Historien om tekst-til-tale og stemmesyntese kan spores tilbage til 1700- og 1800-tallet. I denne periode var der flere tidlige forsøg på talesyntese, alle ved hjælp af mekaniske apparater. I 1770'erne udviklede Wolfgang von Kempelen, en ungarsk opfinder, en mekanisk enhed kaldet den akustisk-mekaniske talemaskine designet til at simulere den menneskelige stemmekanal. Denne analoge enhed brugte blæsebælge, rør og piber til at producere vokal- og konsonantlyde.
I slutningen af 1700-tallet opfandt en engelsk fysiker, Charles Wheatstone, en mere mekanisk version af Kempelens talemaskine, som han kaldte "talemaskinen." Enheden kunne gengive lydene fra forskellige musikinstrumenter. Selvom Wheatstones enhed ikke var specifikt designet til talesyntese, styrkede den ideen om at bruge en mekanisk enhed til at producere lyd.
I det 19. århundrede blev der udviklet forskellige andre apparater, herunder Fabers "kunstige tale" maskine. Disse apparater brugte en kombination af mekaniske og pneumatiske systemer til at skabe talelyde.
Tidligt 1900-tal og den første fuldt elektriske talesyntese
I begyndelsen af det 20. århundrede blev talesyntese teknologien mere sofistikeret med opfindelsen af det første fuldt elektriske talesyntese system – vocoderen af Homer Dudley. Systemet blev udviklet ved Bell Laboratories (Bell Labs) i New Jersey.
Dudleys vocoder brugte en række resonatorer og filtre til at skabe syntetisk tale. Eksperter fremviste vocoderen, kaldet Voder, under verdensudstillingen 1939-1940 i Flushing Meadows, New York. De betjente maskinen ved hjælp af et tastatur og fodpedaler for at generere tale.
Tidligt 1950'erne til slutningen af 1970'erne – synthesizernes fremkomst
I 1951 inspirerede Dudleys arbejde udviklingen af mønsterafspilning af Dr. Franklin S. Cooper ved Haskins Laboratories. Systemet fungerede ved at analysere en optaget lyd, såsom et talt ord eller en sætning, og nedbryde det til dets komponentlydbølger eller "spektrografiske mønstre." Disse mønstre blev derefter lagret på magnetbånd og afspillet for at producere en syntetisk version af den oprindelige lyd.
I 1976 blev det første kommercielt succesfulde tekst-til-tale system introduceret af Kurzweil Reading Machine. Systemet brugte en concatenativ syntese teknik, der kombinerede forudindspillede fonemer og ord for at producere syntetisk tale. Enheden var primært designet til at hjælpe personer med handicap, men den blev hurtigt populær som et læsehjælpemiddel.
Fra 1978 begyndte Texas Instruments at arbejde på en talesyntese chip, der kunne bruges i videospil og andre computerbaserede applikationer. Chippen brugte concatenativ syntese, som kombinerede optagede talelyde, eller difoner, for at producere menneskelignende taleoutput. Denne teknologi blev senere brugt i DECtalk, et tekst-til-tale system, der leverede høj kvalitet syntetisk tale til personer med handicap.
Moderne tekst-til-tale systemer
En af de vigtigste innovationer i de senere år har været brugen af neurale netværk til at generere syntetisk tale. Virksomheder som Google og Microsoft har udviklet høj kvalitet TTS systemer, der bruger dyb læringsalgoritmer til at analysere store datasæt af menneskelige stemmer og generere naturligt lydende taleoutput.
En anden vigtig udvikling i TTS som en form for hjælpemiddel teknologi har været brugen af enhedsvalg og concatenativ syntese teknikker. Disse metoder tillader mere realistiske output ved at kombinere små enheder af forudindspillet tale, såsom difoner eller endda hele ord, for at skabe nye sætninger. Disse teknikker er blevet brugt i populære TTS apps som Speechify, Apples Siri og Amazons Alexa, samt i ældre værktøjer som IBM ViaVoice.
Talegenkendelsesteknologi har også udviklet sig betydeligt i de senere år, hvilket har gjort det muligt for mere sofistikerede TTS systemer. Ved at bruge talegenkendelsesalgoritmer til at transskribere menneskelig tale til tekst, kan TTS systemer skabe mere naturlige overgange i syntetiseret tale.
I de senere år har vi også set integrationen af prosodi og intonation. Dette tillader mere naturligt lydende tale, med passende pauser, vægt og tone. Prosodi er især vigtig for sprog som engelsk, hvor tryk og intonation kan have stor indflydelse på betydningen af en sætning.
Dyb læring og videre: teknologiens fremtid
Fremtiden for TTS-teknologi er spændende og fuld af løfter. Med fremkomsten af kunstig intelligens og dyb læring kan vi forvente endnu mere naturligt lydende taleoutput, der kan efterligne menneskelig tales nuancer og finesser.
Et område, hvor dette vil være særligt nyttigt, er udviklingen af virtuelle assistenter og chatbots. Disse systemer vil blive mere samtalebaserede, og brugerne vil kunne interagere med dem på en mere naturlig måde.
Derudover kan vi forvente fremskridt inden for fonetisk transskription, også kendt som tekst-til-fonem-konvertering. Efterhånden som maskiner bliver bedre til at genkende og fortolke menneskelig tale, vil nøjagtigheden og effektiviteten af tale-til-tekst-systemer fortsætte med at forbedres.
Endelig kan vi forvente, at tekst-til-tale-teknologi bliver mere udbredt og integreret i vores dagligdag. Efterhånden som flere enheder bliver forbundet til Internet of Things, vil vi kunne styre dem med vores stemmer i realtid, hvilket gør vores liv mere bekvemt og effektivt.
Deltag i tekst-til-tale-revolutionen med Speechify
Hvis du leder efter en kraftfuld tekst-til-tale tjeneste, der kan producere naturlig, høj kvalitet fortælling, behøver du ikke lede længere end Speechify.
Med sin avancerede formantsyntese-teknologi skaber Speechify realistiske, naturligt lydende stemmer, i modsætning til de robotagtige stemmer fra fortiden. Selv anerkendte forfattere som Stephen Hawking – der engang prøvede kræfter med tekst-til-tale-teknologi – ville blive imponeret over Speechifys evner.
Det er nemt at bruge Speechify – besøg blot den officielle hjemmeside eller download mobilappen og indtast din ønskede tekst. Vælg derefter en stemme, der passer til dine behov, juster hastighed og tonehøjde efter behov, og voila! Speechify vil skabe fremragende og naturligt lydende fortælling perfekt til e-læringsmoduler, forklaringsvideoer, podcasts, og præsentationer. Du kan endda skabe dine egne tilpassede stemmer til brug på YouTube og andre sociale mediekanaler.
Nøjes ikke med ringere TTS-tjenester – prøv Speechify i dag og oplev fremtiden for tekst-til-tale-teknologi.
FAQ
Hvem udviklede verdens første talesyntetisator?
Homer Dudley designede verdens første talesyntetisator i begyndelsen af 1930'erne hos Bell Laboratories i New York.
Hvad er formålet med talesyntese?
Talesyntese har til formål at generere kunstig tale fra tekstinput ved hjælp af sprogbehandling og grundlæggende frekvensanalyse.
Hvad er de fire måder, TTS kan bruges på?
TTS kan bruges til tilgængelighed, underholdning, sprogindlæring og automatisering af stemmebaserede tjenester.
Hvad er nogle af fordelene ved tekst-til-tale?
Tekst-til-tale kan forbedre tilgængelighed, styrke læring og øge produktiviteten ved at give brugerne mulighed for at forbruge skriftligt indhold i et auditivt format.
Hvad har været det mest overraskende øjeblik i udviklingen af tekst-til-tale-syntese?
Et af de mest overraskende øjeblikke i udviklingen af tekst-til-tale-syntese var opfindelsen af Charles Wheatstones mekaniske talesyntetisator.
Cliff Weitzman
Cliff Weitzman er en fortaler for dysleksi og CEO samt grundlægger af Speechify, verdens førende app til tekst-til-tale, med over 100.000 5-stjernede anmeldelser og førstepladsen i App Store i kategorien Nyheder & Magasiner. I 2017 blev Weitzman udnævnt til Forbes 30 under 30-listen for sit arbejde med at gøre internettet mere tilgængeligt for personer med indlæringsvanskeligheder. Cliff Weitzman har været omtalt i EdSurge, Inc., PC Mag, Entrepreneur, Mashable, blandt andre førende medier.