Tekst-til-tale-stemmer. Hvordan fungerer det?
Fremhevet i
Hvordan fungerer egentlig tekst-til-tale-stemmer? Vi snakker litt om AI-teknologien som gjør ord om til naturlig klingende stemmer - i sanntid!
Selv om konseptet med tekst-til-tale - altså dataprogramvare som kan lese ordene på en dataskjerm høyt for brukeren - ikke er noe nytt, ser det ut til å gjennomgå en slags revolusjon de siste årene.
Ifølge en nylig studie, ble markedet for tekst-til-tale verdsatt til utrolige 2 milliarder dollar i 2020 - delvis på grunn av virkningen av den fortsatt pågående COVID-19-pandemien. Ikke bare det, men det er estimert å vokse i verdi til 5 milliarder dollar allerede innen 2026 - en imponerende årlig vekstrate på 14,6%.
Mye av dette kan tilskrives måtene tekst-til-tale-løsninger hjelper de med en rekke ulike synshemninger. Ifølge Centers for Disease Control and Prevention har omtrent 12 millioner mennesker over 40 år i USA noen form for problemer med å prosessere visuell informasjon. Av dette antallet er én million helt blinde, og åtte millioner har synsrelaterte problemer på grunn av en eller annen type ukorrigert brytningsfeil. Dette tallet har økt fra 4,2 millioner i 2012.
Alt dette sier at tekst-til-tale-teknologi har mer enn bevist sin verdi gjennom årene. Mange løsninger som Speechify tilbyr til og med flere høykvalitetsstemmer for brukere å velge mellom, avhengig av deres behov. Men hvordan fungerer disse løsningene, og hvordan er det så mange stemmealternativer tilgjengelig? Svarene på slike spørsmål krever at du holder noen viktige ting i tankene.
Hvordan fungerer tekst-til-tale
Før du kommer til de faktiske stemmene bak tekst-til-tale, er det viktig å få en bedre forståelse av hvordan disse løsningene fungerer i utgangspunktet.
Tekst-til-tale bruker kunstig intelligens, maskinlæring og lignende teknologier for å ta de skrevne ordene på en side eller skjerm og konvertere tekst til lydinnhold som deretter kan leses høyt. Dette inkluderer ikke bare innholdet på en nettside eller noe som en artikkel, men også tekst skrevet i applikasjoner som Microsoft Word og andre.
Selve lydinnholdet genereres helt av enheten som brukes. I tillegg til å fungere på stasjonære og bærbare datamaskiner, er tekst-til-tale også tilgjengelig på nesten alle smarttelefoner, nettbrett eller andre mobile enheter som er tilgjengelige på markedet i dag.
I de aller fleste løsninger håndteres tekst-til-tale-prosesseringen lokalt på selve enheten. Dette gjør tekst-til-tale verdifullt selv om det ikke er noen Internett-tilkobling til stede.
I tillegg til å la folk med synsproblemer få tilgang til og forstå skriftlig innhold, er tekst-til-tale også nyttig fordi tonehøyden og til og med tempoet på stemmen kan kontrolleres. Hvis du vil senke tempoet for å forstå bedre, kan du det. På samme måte, hvis du vil øke hastigheten for å komme raskere gjennom innholdet, kan du også gjøre det.
Tekst-til-tale-stemmer: En nærmere titt
Når det gjelder den faktiske stemmen som brukes av disse tekst-til-tale-løsningene, handler det til syvende og sist om et konsept kalt en talesyntetisator.
Hva er en talesyntetisator?
Talesyntese er en form for utdata der datamaskinen (eller en annen enhet) leser ord høyt i en tidligere valgt stemme. Konseptuelt er det ikke så ulikt å lese ordene på en side selv eller til og med skrive dem ut - du snakker fortsatt om hvordan datamaskinen gir ut den forespurte informasjonen. Bare i stedet for å gjøre det via tekst alene, gjør den det via en stemme som du kan høre gjennom høyttalerne eller hodetelefonene dine.
Generelt sett fungerer talesyntese gjennom løsningen du bruker ved å følge en rekke grunnleggende, men viktige trinn. Det første av disse innebærer konvertering av tekst på en side til ord.
Trinn 1: Forbehandling
I denne delen av prosessen analyserer tekst-til-tale-løsninger ordene i innholdet du vil lese og tar bokstavene - som i bunn og grunn bare er symboler - og konverterer dem til ord. Denne delen av prosessen er viktig, da det skrevne ordet noen ganger kan være mer tvetydig enn folk innser. Enkelte ord eller til og med fraser kan bety flere ting. På samme måte må datamaskinen kunne "forstå" forskjellen mellom ord som "deres", "der" og "de er" - tre ord som uttales likt, men som kan endre konteksten i en setning dramatisk.
Dette er hvor kunstig intelligens og maskinlæring kommer inn i bildet. Med AI kan tekst-til-tale-løsninger "trenes" til å eliminere denne tvetydigheten så mye som mulig. Denne fasen av tekst-til-tale-stemmeprosessen kalles "forbehandling", da den skjer "bak kulissene" før applikasjonen i spørsmålet noen gang leser noe høyt.
Dette er også fasen der tekst-til-tale-løsningen vil skille mellom ord som kan staves likt, men som uttales forskjellig avhengig av hvordan de brukes. "Read" er et perfekt eksempel på dette, fordi det er mulig at du vil lese en bok i kveld for å slappe av, selv om du har lest den boken utallige ganger før. Mennesker kan lett skille mellom disse to ideene gitt konteksten - kunstig intelligens brukes på datamaskinsiden for å oppnå mye av det samme resultatet.
Like utfordrende i denne perioden er ting som tall, forkortelser, akronymer og mer. Spesialtegn som dollartegnet er også vanskeligere å "oversette" enn det skrevne ordet alene. Dette er grunnen til at forbehandlingsfasen er så viktig - den hjelper til med å sikre at alt som til slutt skal leses høyt faktisk gir mening i den konteksten det var ment.
Steg 2: Forståelse av Uttale
Når teksten er analysert og tekst-til-tale-løsningen "forstår" hvilke ord som må sies høyt, begynner neste del av prosessen. Dette er når disse ordene deretter konverteres til fonemer - i hovedsak handler det om å lære hvordan man skal uttale ordene i teksten riktig.
Dette er en del av prosessen som har utviklet seg dramatisk gjennom årene. Hvis du noen gang har hatt muligheten til å bruke en tekst-til-tale-løsning fra 1990-tallet (eller har sett en eldre film fra 1970- eller 80-tallet som inneholdt en scene med tekst-til-tale), har du sannsynligvis hatt med en datamaskinstemme å gjøre som ikke hørtes naturlig ut. Det var umiddelbart gjenkjennelig som generert av en datamaskin, og selv om du kunne forstå hva den sa, ble de fleste ordene sannsynligvis uttalt feil.
Steg 3: Konverteringen til Tale Begynner
Når disse fonemene er identifisert, går tekst-til-tale-løsningen videre til den siste delen av prosessen: å konvertere den informasjonen til lyd som kan spilles høyt over enhetens høyttalere eller hodetelefoner.
Dette skjer på noen forskjellige måter avhengig av løsningen du bruker. En av dem ser en menneskelig skuespiller eller skuespillerinne lese en liste med fonemer høyt, hvoretter den informasjonen mates tilbake til datamaskinen og løsningen selv. Deretter, når en spesifikk tekstblokk er skannet av applikasjonen, kan den matche fonemene den finner på siden med fonemene som tidligere er innspilt. Den setter deretter disse to tingene sammen for å spille av en lydversjon av teksten på en langt mer naturlig måte enn noen gang før.
Noen løsninger lar fortsatt datamaskinen generere stemmen selv. Den fungerer fortsatt på mye samme måte, bare "stemmen" er ikke basert på tidligere innspilt lyd, men er rett og slett skapt ved å generere spesifikke lydfrekvenser i riktig rekkefølge.
I den forbindelse er det ikke helt ulikt måten en musikksynthesizer kan la en musiker etterligne lydene av instrumenter ved å bruke et standard tastatur koblet til en datamaskin. De kan spille på tastaturet som de ville gjort med pianoet, selv om i stedet for pianomusikk kan hver tast etterligne en annen akkord på en gitar eller lyder fra en tromme. Det er fortsatt en datamaskin som "forstår" hensikten med hvert tastetrykk og kobler det opp med riktig lyd, om enn i en annen kontekst.
Stemmevalg og Mer
En del av grunnen til at det finnes så mange forskjellige stemmevalg i disse stemmegenerator tekst-til-tale-løsningene er fordi de faktisk ikke er så vanskelige å lage som mange tror. Typene fonemer som trengs for en AI-stemmegenerator å fungere er faktisk ganske vanlige i det menneskelige språket. Derfor vil alt det krever være at en skuespiller eller skuespillerinne sitter foran en mikrofon, leser et kort manus som inneholder alle de nødvendige fonemene, hvorpå den informasjonen kan mates tilbake til løsningen selv.
AI-taleteknologien vil gjenkjenne hvert av fonemene individuelt, i hovedsak "bryte" den innspillingen ned til summen av dens deler og bruke de som er nødvendige for å nøyaktig generere tekst-til-tale-stemmene som er nødvendige når en bruker prøver å lese en nettside eller en annen form for innhold.
Selvfølgelig finnes det mange andre potensielle bruksområder for denne typen naturlig lydende stemmegenerator utover bare å hjelpe de med synshemminger. De siste årene har offentligheten blitt veldig interessert i AI-tale og stemmegenerering takket være sosiale medienettverk som TikTok.
TikTok er faktisk et av de større merkene som har omfavnet AI-stemmegenerering, som lar brukere ta opp videoer, legge tekst over disse videoene og deretter la talesyntese lese det innholdet høyt. Det er en morsom måte å legge til et ekstra lag med innlevelse til innhold som legges ut på TikTok, og det er en som bare vil bli mer populær etter hvert som tiden går.
Fremtiden for Tekst-til-Tale er Her
Til syvende og sist er stemme-tekst-til-tale et uvurderlig verktøy på grunn av hva det gjør mulig for oss å gjøre. Det lar personer med synsproblemer nyte og forstå alt det samme innholdet som alle andre, på sine egne premisser. Det kan ta ethvert blogginnlegg, artikkel, dokument, white paper eller annet trykt innhold og gjøre det om til en lett fordøyelig lydopplevelse, slik at du kan nyte det ikke bare hjemme, men også på pendlingen, mens du er på treningsstudioet, osv.
Det gjør ikke bare livene våre mer produktive, men det hjelper også med å løse en rekke viktige problemer som de nevnt ovenfor. Basert på alt dette, er det lett å forstå hvorfor talesyntese og AI-tale har blitt så populært de siste årene.
Hvis du vil finne ut mer om tekst-til-tale-stemmer, eller hvis du bare vil lære mer om hvordan en slik løsning kan være til nytte for deg, ikke nøl - prøv Speechify gratis i dag.
Speechify er den høyest rangerte appen i App Store med den mest naturlige talen og brukeropplevelsen med mange tilpassede stemmer.
Speechify er tilgjengelig i flere varianter: for enkeltbrukere, grupper, eller API for bedrifter av alle størrelser.
Tyler Weitzman
Tyler Weitzman er medgründer, leder for kunstig intelligens og president i Speechify, verdens ledende tekst-til-tale-app, med over 100 000 femstjerners anmeldelser. Weitzman er utdannet ved Stanford University, hvor han tok en bachelorgrad i matematikk og en mastergrad i informatikk med spesialisering i kunstig intelligens. Han har blitt kåret av Inc. Magazine som en av de 50 beste entreprenørene, og han har blitt omtalt i Business Insider, TechCrunch, LifeHacker, CBS, blant andre publikasjoner. Weitzmans mastergradsforskning fokuserte på kunstig intelligens og tekst-til-tale, hvor hans avsluttende oppgave hadde tittelen: “CloneBot: Personalized Dialogue-Response Predictions.”