1. Hjem
  2. TTSO
  3. Måling av kvalitet på tekst-til-tale
TTSO

Måling av kvalitet på tekst-til-tale

Cliff Weitzman

Cliff Weitzman

Administrerende direktør og grunnlegger av Speechify

#1 Tekst-til-tale-leser.
La Speechify lese for deg.

apple logoApple Design Award 2025
50M+ brukere

Måling av kvalitet på tekst-til-tale: en praktisk guide til MOS, MUSHRA, PESQ/POLQA og ABX

Veksten innen tekst-til-tale-teknologi har forandret hvordan folk konsumerer innhold, lærer og interagerer med digitale plattformer. Fra lydbøker og e-læring til tilgjengelighetsverktøy for personer med funksjonsnedsettelser, er syntetiske stemmer nå en del av hverdagen. Men jo større etterspørsel, desto større blir utfordringen: hvordan måler vi om tekst-til-tale-stemmer låter naturlige, engasjerende og er lette å forstå?

I denne guiden utforsker vi de mest brukte evalueringsmetodene — MOS, MUSHRA, PESQ/POLQA og ABX. Vi går også inn på den pågående diskusjonen rundt MUSHRA vs. MOS for tekst-til-tale-evaluering, og gir klarhet for forskere, utviklere og organisasjoner som vil sikre at deres tekst-til-tale-systemer oppfyller de høyeste kvalitetsstandardene.

Hvorfor kvalitetsvurdering er viktig for tekst-til-tale

Effektiviteten til tekst-til-tale (TTS) handler om mer enn bare å konvertere ord til lyd. Kvalitet påvirker tilgjengelighet, læringsresultater, produktivitet og ikke minst tilliten til teknologien.

For eksempel kan et dårlig innstilt tekst-til-tale-system høres robotaktig eller uklart ut, noe som skaper frustrasjon for brukere med dysleksi som er avhengige av det for å løse leseoppgaver. Mens et høykvalitets TTS-system med naturlig intonasjon og jevn fremføring kan gjøre den samme opplevelsen til et verktøy som styrker selvstendighet.

Organisasjoner som tar i bruk tekst-til-tale—skoler, arbeidsplasser, helseleverandører og app-utviklere—må være sikre på at systemene deres er pålitelige. Det er her standardiserte evalueringsmetoder kommer inn. De gir en strukturert måte å måle lydkvalitet på, og sørger for at subjektive inntrykk fanges på en konsistent og vitenskapelig måte.

Uten evaluering er det umulig å vite om systemoppdateringer faktisk forbedrer kvaliteten, eller om nye AI-modeller faktisk hever lytteopplevelsen.

Nøkkelmetoder for å måle kvaliteten på tekst-til-tale

1. MOS (Mean Opinion Score)

Mean Opinion Score (MOS) er en hjørnestein innen lydvurdering. Opprinnelig utviklet for telekommunikasjonssystemer, er MOS mye brukt innen tekst-til-tale på grunn av sin enkelhet og utbredelse.

I en MOS-test vurderer en gruppe lyttere lydklipp på en fempunkts skala, der 1 = Dårlig og 5 = Utmerket. Lytterne bes vurdere helhetsinntrykket, som vanligvis inkluderer klarhet, forståelighet og naturlighet.

  • Styrker: MOS er enkelt å sette opp, rimelig og gir resultater som er allment forstått. Fordi det er standardisert av International Telecommunication Union (ITU), er det også tillitsvekkende på tvers av bransjer.
  • Begrensninger: MOS er grovkornet. Subtile forskjeller mellom to høykvalitets TTS-systemer kan forbli uoppdaget i lyttervurderinger. Det avhenger også sterkt av subjektive inntrykk, som kan variere med lytterens bakgrunn og erfaring.

For TTS-praktikere er MOS et godt utgangspunkt. Det gir et helhetsbilde av om et system høres "bra nok" ut og gjør det mulig å sammenligne på tvers av systemer.

2. MUSHRA (Multiple Stimuli with Hidden Reference and Anchor)

MUSHRA er et mer avansert evalueringsrammeverk utviklet av ITU for å vurdere lydkvalitet på mellomnivå. I motsetning til MOS bruker MUSHRA en skala fra 0–100 og krever at lyttere sammenligner flere prøver av samme stimulus.

Hver test inkluderer:

  • En skjult referanse (en høykvalitetsversjon av prøven).
  • Ett eller flere ankre (lavkvalitets- eller degraderte versjoner for å gi kontekst).
  • De text to speech-systemene som testes.

Lytterne setter karakter på hver versjon. Dette gir et langt mer detaljert bilde av ytelsen.

  • Styrker: MUSHRA er svært følsom for små forskjeller, noe som gjør den spesielt nyttig for å sammenligne text to speech-systemer som ligger tett på hverandre i kvalitet. Inkluderingen av referanser og ankre hjelper lytterne å kalibrere vurderingene.
  • Begrensninger: Det er mer komplekst å gjennomføre. Å sette opp ankre, referanser og flere prøver krever nøye design. Det krever også at lytterne er godt opplært til å forstå vurderingsoppgaven.

For text to speech-fagfolk er MUSHRA ofte førstevalget for finjustering av modeller eller evaluering av inkrementelle forbedringer.

3. PESQ / POLQA

Mens MOS og MUSHRA bygger på menneskelige lyttere, er PESQ (Perceptual Evaluation of Speech Quality) og etterfølgeren POLQA (Perceptual Objective Listening Quality Analysis) algoritmiske målemetoder. De simulerer hvordan menneskeøret og hjernen oppfatter lyd, noe som muliggjør automatisert testing uten lytterpaneler.

Opprinnelig designet for taletelefoni og kodeker, er PESQ og POLQA nyttige for evalueringer i stor skala eller ved gjentatt testing der det ville være upraktisk å gjennomføre menneskelige studier.

  • Styrker: De er raske, repeterbare og objektive. Resultatene avhenger ikke av lytterens skjevheter eller tretthet.
  • Begrensninger: Fordi de er designet for telefoni, fanger de ikke alltid opp naturlighet eller uttrykksfullhet— to viktige dimensjoner i text to speech.

I praksis kombineres PESQ/POLQA ofte med subjektive tester som MOS eller MUSHRA. Denne kombinasjonen gir både skalerbarhet og menneskelig validert nøyaktighet.

4. ABX-testing

ABX-testing er en enkel, men kraftig metode for å evaluere preferanser. Lyttere blir presentert for tre prøver:

Lytteren må avgjøre om X høres mer ut som A eller B.

  • Styrker: ABX er utmerket for direkte sammenligninger mellom to systemer. Det er intuitivt, enkelt å gjennomføre og fungerer godt når man tester nye modeller mot en referanse.
  • Begrensninger: ABX gir ikke absolutte kvalitetsvurderinger. Det viser bare om lyttere foretrekker ett system fremfor et annet.

I text to speech-forskning brukes ABX ofte i A/B-tester under produktutvikling, når utviklere vil vite om nye endringer er merkbare for brukerne.

MUSHRA vs. MOS for Text to Speech

Debatten om MUSHRA vs. MOS er et av de viktigste spørsmålene innen text to speech-evaluering. Begge metodene er mye brukt, men de har ulike formål:

  • MOS er best for overordnet sammenligning. Hvis et selskap vil sammenligne sitt text to speech‑system med en konkurrent eller vise generell kvalitetsforbedring over tid, er MOS enkelt, effektivt og allment anerkjent.
  • MUSHRA derimot er best for detaljert analyse. Ved å bruke ankere og referanser får den lytterne til å være mer oppmerksomme på forskjeller i lydkvalitet. Dette gjør den særlig verdifull for utvikling og forskning, der små forbedringer i prosodi, tonehøyde eller tydelighet kan bety mye.

I praksis: Mange fagfolk bruker MOS i tidlige faser for å få et referansepunkt, og bytter deretter til MUSHRA for detaljerte tester når systemene ligger tett på hverandre i ytelse. Denne trinnvise tilnærmingen sørger for at evalueringene både er praktiske og presise.

Beste praksis for tekst‑til‑tale‑fagfolk

For å få pålitelige og brukbare resultater fra text to speech‑evaluering:

  1. Kombiner metoder: bruk MOS for benchmarking, MUSHRA for finsliping, PESQ/POLQA for skalerbarhet og ABX for preferansetester.
  2. Sett sammen mangfoldige paneler: opplevelsen varierer med aksent, alder og lytteerfaring. En variert gruppe sørger for at resultatene speiler faktiske brukere.
  3. Sett ting i kontekst: vurder text to speech i sammenhengen der det skal brukes (f.eks. lydbok vs. navigasjonssystem). Det som er viktig i én situasjon, trenger ikke være det i en annen.
  4. Valider med brukere: til syvende og sist er den beste målestokken om folk uten problemer kan bruke text to speech‑systemet til læring, arbeid eller i hverdagen.

Hvorfor Speechify prioriterer kvalitet i tekst‑til‑tale

Hos Speechify vet vi at stemmekvalitet kan være forskjellen på et verktøy folk prøver én gang og et verktøy de stoler på hver dag. Derfor bruker vi en lagdelt evalueringsstrategi som kombinerer MOS, MUSHRA, PESQ/POLQA og ABX for å måle ytelsen fra alle kanter.

Vår prosess sikrer at hver nye AI‑stemmemodell ikke bare er teknisk solid, men også behagelig, naturlig og engasjerende for reelle brukere. Enten det handler om å hjelpe en student med dysleksi å følge med på skolen, gjøre det mulig for fagfolk å multitaske med lydbøker, eller støtte elever over hele verden med flerspråklige stemmer, betyr Speechifys fokus på kvalitet at brukerne kan stole på opplevelsen.

Denne dedikasjonen gjenspeiler vår misjon: å gjøre text to speech‑teknologi inkluderende, pålitelig og verdensledende.

Å måle det som virkelig betyr noe i tekst‑til‑tale

Å måle kvaliteten på text to speech er både en vitenskap og en kunst. Subjektive metoder som MOS og MUSHRA fanger menneskelige inntrykk, mens objektive metoder som PESQ og POLQA gir skalerbar innsikt. ABX‑tester tilfører preferansebaserte sammenligninger som er viktige i produktutvikling.

MUSHRA vs. MOS‑debatten viser at ingen enkeltstående test er nok. For fagfolk er den beste strategien å kombinere metoder, validere resultater med mangfoldige brukere og alltid ha reell tilgjengelighet for øye.

Med plattformer som Speechify i spissen for kvalitetsvurdering og innovasjon, er fremtiden for text to speech ikke bare forståelig—den er naturlig, tilgjengelig og bygget for alle.

Opplev de mest avanserte AI-stemmene, ubegrensede filer og døgnåpen support

Prøv gratis
tts banner for blog

Del denne artikkelen

Cliff Weitzman

Cliff Weitzman

Administrerende direktør og grunnlegger av Speechify

Cliff Weitzman er en forkjemper for dysleksi og administrerende direktør og grunnlegger av Speechify — verdens mest populære tekst-til-tale-app, med over 100 000 femstjerners anmeldelser og som har toppet App Store-kategorien Nyheter og magasiner. I 2017 kom Weitzman på Forbes' «30 under 30»-liste for sitt arbeid med å gjøre internett mer tilgjengelig for personer med lærevansker. Cliff Weitzman har blant annet vært omtalt i EdSurge, Inc., PCMag, Entrepreneur og Mashable.

speechify logo

Om Speechify

#1 Tekst-til-tale-leser

Speechify er verdens ledende tekst-til-tale-plattform, stolt brukt av over 50 millioner brukere og støttet av mer enn 500 000 femstjerners anmeldelser på sine tekst-til-tale-iOS-, Android-, Chrome-utvidelse-, nettapp- og Mac-skrivebords-apper. I 2025 tildelte Apple Speechify den prestisjetunge Apple Design Award under WWDC, og kalte det “en viktig ressurs som hjelper folk å leve livene sine.” Speechify tilbyr over 1 000 naturlige stemmer på mer enn 60 språk og brukes i nesten 200 land. Kjendisstemmer inkluderer Snoop Dogg, Mr. Beast og Gwyneth Paltrow. For skapere og bedrifter tilbyr Speechify Studio avanserte verktøy, inkludert AI-stemmegenerator, AI-stemmekloning, AI-dubbing og AI-stemmeveksler. Speechify driver også ledende produkter med sin høykvalitets og kostnadseffektive tekst-til-tale-API. Omtalt i The Wall Street Journal, CNBC, Forbes, TechCrunch og andre store nyhetskanaler, er Speechify verdens største tekst-til-tale-leverandør. Besøk speechify.com/news, speechify.com/blog og speechify.com/press for å lære mer.