Tekst-til-tale stemmer. Hvordan fungerer det?
Fremhævet i
Hvordan fungerer tekst-til-tale stemmer egentlig? Vi taler lidt om AI-teknologien, der omdanner ord til naturligt lydende stemmer - i realtid!
Selvom konceptet med tekst-til-tale - altså computersoftware, der kan læse ordene på en computerskærm højt for brugeren - ikke er nyt, ser det ud til at gennemgå en revolution de seneste år.
Ifølge en nylig undersøgelse blev markedet for tekst-til-tale vurderet til utrolige 2 milliarder dollars i 2020 - delvist på grund af den stadig igangværende COVID-19-pandemi. Det forventes at vokse til en værdi af 5 milliarder dollars allerede i 2026 - en imponerende årlig vækstrate på 14,6%.
Meget af dette kan tilskrives de måder, hvorpå tekst-til-tale løsninger hjælper dem med forskellige synshandicap. Ifølge Centers for Disease Control and Prevention har omkring 12 millioner mennesker over 40 år i USA problemer med at bearbejde visuel information. Af dette antal er en million helt blinde, og otte millioner har synsrelaterede problemer på grund af ukorrigerede brydningsfejl. Dette tal er steget fra 4,2 millioner i 2012.
Alt dette siger, at tekst-til-tale teknologi har bevist sin værdi gennem årene. Mange løsninger som Speechify tilbyder endda flere stemmer af høj kvalitet, som brugerne kan vælge imellem afhængigt af deres behov. Men hvordan fungerer disse løsninger, og hvordan er der så mange stemmevalg tilgængelige? Svarene på sådanne spørgsmål kræver, at du holder nogle vigtige ting i tankerne.
Tekst-til-tale: Hvordan det fungerer
Før du når til de faktiske stemmer bag tekst-til-tale, er det vigtigt at få en bedre forståelse af, hvordan disse løsninger fungerer i første omgang.
Tekst-til-tale bruger kunstig intelligens, maskinlæring og lignende teknologier til at tage de skrevne ord på en side eller skærm og konvertere tekst til lydindhold, der derefter kan læses højt. Dette inkluderer ikke kun indholdet af en hjemmeside eller noget som en artikel, men også tekst skrevet i applikationer som Microsoft Word og andre.
Lydindholdet genereres helt af den enhed, der bruges. Udover at fungere på stationære og bærbare computere, er tekst-til-tale også tilgængelig på næsten alle smartphones, tablets eller andre mobile enheder på markedet i dag.
I langt de fleste løsninger håndteres tekst-til-tale behandlingen lokalt på selve enheden. Dette gør tekst-til-tale værdifuld, selvom der ikke er nogen internetforbindelse til stede.
Udover at give folk med synsproblemer mulighed for at få adgang til og forstå skriftligt indhold, er tekst-til-tale også nyttig, fordi tonehøjden og endda tempoet i stemmen kan kontrolleres. Hvis du vil sænke tempoet for bedre at forstå det, kan du det. Ligeledes, hvis du vil fremskynde stemmen for at komme hurtigere igennem indholdet, kan du også gøre det.
Tekst-til-tale stemmer: En nærmere kig
Når det kommer til den faktiske stemme, der bruges af disse tekst-til-tale løsninger, handler det i sidste ende om et koncept kaldet en talesyntetisator.
Hvad er en talesyntetisator?
Talesyntese er en form for output, hvor din computer (eller anden enhed) læser ord højt i en tidligere valgt stemme. Konceptuelt er det ikke så forskelligt fra at læse ordene på en side selv eller endda printe dem ud - du taler stadig om, hvordan computeren leverer den ønskede information. Kun i stedet for at gøre det via tekst alene, gør den det via en stemme, du kan høre gennem dine højttalere eller hovedtelefoner.
Generelt fungerer talesyntese ved, at den løsning, du bruger, følger en række grundlæggende, men vigtige trin. Det første af disse involverer konvertering af tekst på en side til ord.
Trin 1: Forbehandling
I denne del af processen analyserer tekst-til-tale løsninger ordene i det indhold, du vil læse, og tager bogstaverne - som i bund og grund bare er symboler - og konverterer dem til ord. Denne del af processen er vigtig, da det skrevne ord nogle gange kan være mere tvetydigt, end folk er klar over. Visse ord eller endda sætninger kan betyde flere ting. Ligeledes skal computeren kunne "forstå" forskellen mellem ord som "deres," "der" og "de er" - tre ord, der udtales ens, men som kan ændre konteksten af en sætning dramatisk.
Det er her, kunstig intelligens og maskinlæring kommer i spil. Med AI kan tekst-til-tale løsninger "trænes" til at eliminere denne tvetydighed så meget som muligt. Denne fase af tekst-til-tale stemmeprocessen kaldes "forbehandling," da det sker "bag kulisserne," før applikationen i spørgsmålet nogensinde læser noget højt.
Dette er også fasen, hvor tekst-til-tale-løsningen vil skelne mellem ord, der kan staves ens, men lyder forskelligt afhængigt af, hvordan de bruges. "Read" er et perfekt eksempel på dette, fordi det er muligt, at du måske vil læse en bog i aften for at slappe af, selvom du har læst den bog utallige gange før. Mennesker kan nemt skelne mellem disse to ideer givet konteksten - kunstig intelligens anvendes på computersiden for at opnå stort set det samme resultat.
Lige så vanskelige i denne periode er ting som tal, forkortelser, akronymer og mere. Specialtegn som dollartegnet er også sværere at "oversætte" end det skrevne ord alene. Dette er grunden til, at forbehandlingsfasen er så vigtig - den hjælper med at sikre, at alt, der til sidst vil blive læst højt, faktisk giver mening i den kontekst, det var tiltænkt.
Trin 2: Forståelse af Udtale
Når teksten er blevet analyseret, og tekst-til-tale-løsningen "forstår", hvilke ord der skal siges højt, begynder den næste del af processen. Dette er, når disse ord derefter konverteres til fonemer - det handler i bund og grund om at lære, hvordan man korrekt udtaler ordene i den pågældende tekst.
Dette er en del af processen, der har udviklet sig dramatisk gennem årene. Hvis du nogensinde har haft mulighed for at bruge en tekst-til-tale-løsning fra 1990'erne (eller har set en ældre film fra 1970'erne eller 80'erne, der indeholdt en scene med tekst-til-tale), har du sandsynligvis haft med en computergenereret stemme at gøre, der ikke lød naturlig. Det var straks genkendeligt som værende genereret af en computer, og selvom du kunne forstå, hvad der blev sagt, blev de fleste ord sandsynligvis udtalt forkert.
Trin 3: Konverteringen til Tale Begynder
Når disse fonemer er blevet identificeret, går tekst-til-tale-løsningen videre til den sidste del af processen: at konvertere disse oplysninger til lyd, der kan afspilles højt over en enheds højttalere eller hovedtelefoner.
Dette sker på et par forskellige måder afhængigt af den løsning, du bruger. En af dem ser en menneskelig skuespiller eller skuespillerinde læse en liste over fonemer højt, hvorefter disse oplysninger derefter føres tilbage til computeren og selve løsningen. Så, når en specifik tekstblok er blevet scannet af applikationen, kan den matche de fonemer, den finder på siden, med de fonemer, der tidligere er blevet optaget. Den sætter derefter disse to ting sammen for at afspille en lydversion af teksten på en langt mere naturlig måde end nogensinde før.
Nogle løsninger tillader stadig, at computeren selv genererer stemmen. Det fungerer stadig på stort set samme måde, kun "stemmen" er ikke baseret på tidligere optaget lyd, men skabes simpelthen ved at generere specifikke lydfrekvenser i den passende rækkefølge.
I den forbindelse er det ikke helt forskelligt fra den måde, en musiksynthesizer kan tillade en musiker at efterligne lydene af instrumenter ved hjælp af et standardtastatur tilsluttet en computer. De kan spille på tastaturet, som de ville spille på klaveret, selvom hver tast i stedet for klavermusik kan efterligne en anden akkord på en guitar eller lyde fra en tromme. Det er stadig en computer, der "forstår" hensigten med hvert tastetryk og parrer det med den passende lyd, omend i en anden kontekst.
Stemmemuligheder og Mere
En del af grunden til, at der er så mange forskellige stemmemuligheder tilgængelige i disse stemmegenerator tekst-til-tale-løsninger, er fordi de faktisk ikke er så svære at skabe, som mange mennesker antager. De typer fonemer, der er nødvendige for en AI-stemmegenerator at fungere, er faktisk ret almindelige i det menneskelige sprog. Derfor ville det eneste, der kræves, være, at en skuespiller eller skuespillerinde sætter sig foran en mikrofon, læser et kort manuskript, der indeholder alle de nødvendige fonemer, hvorefter disse oplysninger kan føres tilbage til selve løsningen.
AI-taleteknologien vil genkende hver af fonemerne individuelt, i bund og grund "bryde" den optagelse ned til summen af dens dele og bruge de nødvendige til nøjagtigt at generere de tekst-til-tale-stemmer, der er nødvendige, når en bruger forsøger at læse en hjemmeside eller en anden form for indhold.
Selvfølgelig er der mange andre potentielle anvendelser for denne type naturligt lydende stemmegenerator ud over blot at hjælpe dem med synshandicap. I løbet af de sidste par år er offentligheden blevet meget interesseret i AI-tale og stemmegenerering takket være sociale medienetværk som TikTok.
TikTok er faktisk et af de større brands, der har taget AI-stemmegenerering til sig, hvilket giver brugerne mulighed for at optage videoer, tilføje tekst til disse videoer og derefter få tale-syntese til at læse det indhold højt. Det er en sjov måde at tilføje et ekstra lag af fordybelse til indhold, der postes på TikTok, og det er en, der kun vil blive mere populær med tiden.
Fremtiden for Tekst-til-Tale er Ankommet
I sidste ende er stemme-tekst-til-tale et uvurderligt værktøj på grund af, hvad det gør muligt for os at gøre. Det giver folk med synsproblemer mulighed for at nyde og forstå alt det samme indhold, som alle andre gør, helt på deres egne præmisser. Det kan tage ethvert blogindlæg, artikel, dokument, hvidbog eller andet trykt indhold og omdanne det til en let tilgængelig lydoplevelse, så du kan nyde det ikke kun derhjemme, men også på din pendling, mens du er i fitnesscentret osv.
Det gør ikke kun vores liv mere produktivt, men det hjælper også med at løse en række betydelige problemer som dem, der er nævnt ovenfor. Baseret på alt dette er det let at se, hvorfor talesyntese og AI-tale er blevet så populært i de seneste år.
Hvis du vil vide mere om tekst-til-tale-stemmer, eller hvis du bare vil lære mere om, hvordan en sådan løsning kan gavne dit liv, så tøv ikke - prøv Speechify gratis i dag.
Speechify er den højest vurderede app i App Store med den mest naturlige lyd og brugeroplevelse med masser af tilpassede stemmer.
Speechify fås i flere varianter: til enkeltbrugere, grupper, eller API til virksomheder af alle størrelser.
Tyler Weitzman
Tyler Weitzman er medstifter, leder af kunstig intelligens og præsident hos Speechify, verdens førende tekst-til-tale app med over 100.000 5-stjernede anmeldelser. Weitzman er uddannet fra Stanford University, hvor han modtog en bachelor i matematik og en master i datalogi med fokus på kunstig intelligens. Han er blevet udvalgt af Inc. Magazine som en af de 50 bedste iværksættere og har været omtalt i Business Insider, TechCrunch, LifeHacker, CBS og andre publikationer. Weitzmans kandidatforskning fokuserede på kunstig intelligens og tekst-til-tale, hvor hans afsluttende opgave havde titlen: “CloneBot: Personalized Dialogue-Response Predictions.”