Måling af tekst-til-tale-kvalitet

Måling af tekst-til-tale-kvalitet: en praktikers guide til MOS, MUSHRA, PESQ/POLQA & ABX

Fremkomsten af tekst-til-tale-teknologi har ændret, hvordan folk forbruger indhold, lærer og interagerer med digitale platforme. Fra lydbøger og e-læring til tilgængelighedsværktøjer for personer med handicap, er syntetiske stemmer nu en fast del af hverdagen. Men i takt med at efterspørgslen vokser, vokser også udfordringen: Hvordan måler vi, om tekst-til-tale-stemmer lyder naturlige, engagerende og lette at forstå?

I denne guide udforsker vi de mest udbredte evalueringsmetoder—MOS, MUSHRA, PESQ/POLQA og ABX. Vi dykker også ned i den igangværende debat om MUSHRA vs. MOS til tekst-til-tale-evaluering og skaber klarhed for forskere, udviklere og organisationer, der ønsker at sikre, at deres tekst-til-tale-systemer lever op til de højeste kvalitetsstandarder.

Hvorfor kvalitetsvurdering er vigtig for tekst-til-tale

Effektiviteten af tekst-til-tale (TTS) går langt ud over blot at omdanne ord til lyd. Kvalitet påvirker tilgængelighed, læringsudbytte, produktivitet og endda tilliden til teknologien.

For eksempel kan et dårligt indstillet tekst-til-tale-system lyde robotagtigt eller uklart, hvilket kan frustrere brugere med dysleksi, der er afhængige af det til læsning. Omvendt kan et TTS-system af høj kvalitet med naturlig intonation og flydende oplæsning forvandle den samme oplevelse til et redskab, der giver større selvstændighed.

Organisationer, der ruller tekst-til-tale ud—skoler, arbejdspladser, sundhedsudbydere og app-udviklere—skal være sikre på, at deres systemer er pålidelige. Her kommer standardiserede evalueringsmetoder ind i billedet. De giver en struktureret måde at måle lydkvalitet på og sikrer, at subjektive indtryk kan opsamles på en konsekvent, videnskabelig måde.

Uden evaluering er det umuligt at vide, om systemopdateringer faktisk forbedrer kvaliteten, eller om nye AI-modeller virkelig gør en forskel for lytteoplevelsen.

Nøglemetoder til måling af tekst-til-tale-kvalitet

1. MOS (Mean Opinion Score)

Mean Opinion Score (MOS) er en hjørnesten inden for lydvurdering. Oprindeligt udviklet til telekommunikationssystemer er MOS blevet bredt anvendt inden for tekst-til-tale på grund af sin enkelhed og genkendelighed.

I en MOS-test bedømmer en gruppe menneskelige lyttere lydklip på en fempunktsskala, hvor 1 = Dårlig og 5 = Fremragende. Lytterne bliver bedt om at vurdere den samlede kvalitet, som typisk omfatter klarhed, forståelighed og naturlighed.

Styrker: MOS er nemt at sætte op, omkostningseffektivt og giver resultater, der er bredt forstået. Fordi den er standardiseret af International Telecommunication Union (ITU), nyder den også tillid på tværs af brancher.
Begrænsninger: MOS er ret grovkornet. Subtile forskelle mellem to TTS-systemer af høj kvalitet slår måske ikke igennem i lytternes vurderinger. Metoden afhænger også i høj grad af subjektive indtryk, som kan variere med lytterens baggrund og erfaring.

For TTS-praktikere er MOS et fremragende udgangspunkt. Den giver en fornemmelse af, om et system lyder "godt nok" og gør det muligt at benchmarke på tværs af systemer.

2. MUSHRA (Multiple Stimuli with Hidden Reference and Anchor)

MUSHRA er en mere avanceret evalueringsmetode udviklet af ITU til at vurdere lyd af mellemkvalitet. I modsætning til MOS bruger MUSHRA en 0–100-skala og kræver, at lyttere sammenligner flere prøver af samme stimulus.

Hver test indeholder:

En skjult reference (en højkvalitetsversion af prøven).
Et eller flere ankre (lavkvalitets- eller bevidst degraderede versioner til kalibrering).
De text to speech-systemer, der testes.

Lytterne bedømmer hver version, hvilket giver et langt mere detaljeret billede af ydeevnen.

Styrker: MUSHRA er meget følsom over for små forskelle og er derfor særligt nyttig, når text to speech-systemer ligger tæt i kvalitet. At inkludere referencer og ankre hjælper lytterne med at kalibrere deres vurderinger.
Begrænsninger: Den er mere kompleks at gennemføre. Opsætningen af ankre, referencer og flere prøver kræver omhyggelig tilrettelæggelse. Det forudsætter også, at lytterne er tilstrækkeligt trænede til at forstå vurderingsopgaven.

For text to speech-fagfolk er MUSHRA ofte den foretrukne metode til at finjustere modeller eller vurdere gradvise forbedringer.

3. PESQ / POLQA

Mens MOS og MUSHRA bygger på menneskelige lyttere, er PESQ (Perceptual Evaluation of Speech Quality) og dens efterfølger POLQA (Perceptual Objective Listening Quality Analysis) algoritmiske målinger. De simulerer, hvordan det menneskelige øre og hjerne opfatter lyd, hvilket muliggør automatisk test uden menneskelige paneler.

Oprindeligt designet til taleopkald og codecs er PESQ og POLQA nyttige til evalueringer i stor skala eller gentagne evalueringer, hvor det ville være upraktisk at gennemføre studier med menneskelige lyttere.

Styrker: De er hurtige, gentagelige og objektive. Resultaterne afhænger ikke af lytterbias eller træthed.
Begrænsninger: Fordi de er designet til telefoni, opfanger de ikke altid naturlighed eller udtryksfuldhed – to nøgleaspekter i text to speech.

I praksis kombineres PESQ/POLQA ofte med subjektive tests som MOS eller MUSHRA. Kombinationen giver både skalerbarhed og nøjagtighed valideret af mennesker.

4. ABX-testning

ABX-testning er en enkel men effektiv metode til at vurdere præferencer. Lyttere får præsenteret tre prøver:

A (text to speech-system 1)
B (text to speech-system 2)
X (som matcher enten A eller B)

Lytteren skal afgøre, om X lyder mest som A eller B.

Styrker: ABX er fremragende til direkte sammenligninger mellem to systemer. Den er intuitiv, let at gennemføre og fungerer godt, når nye modeller testes mod en reference.
Begrænsninger: ABX giver ikke absolutte kvalitetsvurderinger; den viser kun, om lyttere foretrækker det ene system frem for det andet.

Inden for text to speech-forskning bruges ABX ofte i A/B-tests under produktudvikling, hvor udviklere vil vide, om nye ændringer er mærkbare for brugerne.

MUSHRA vs. MOS til Text to Speech

Debatten om MUSHRA vs. MOS er en af de vigtigste overvejelser i text to speech-evaluering. Begge metoder er udbredte, men de tjener forskellige formål:

MOS er bedst til overordnet benchmarking. Hvis en virksomhed vil sammenligne deres text to speech-system med en konkurrent eller dokumentere generelle kvalitetsforbedringer over tid, er MOS enkelt, effektivt og bredt anerkendt.
MUSHRA er derimod bedst til finmasket analyse. Ved at bruge ankre og referencer får det lytterne til i højere grad at lægge mærke til forskelle i lydkvalitet. Det gør det særligt værdifuldt til udvikling og forskning, hvor små forbedringer i prosodi, tonehøjde eller klarhed gør en forskel.

I praksis bruger mange fagfolk MOS i de tidlige faser for at få et referencepunkt og går derefter over til MUSHRA til detaljerede tests, når systemerne præsterer nogenlunde ens. Denne trinvise tilgang sikrer, at evalueringerne både er praktiske og præcise.

Bedste praksis for fagfolk inden for Text to Speech

For at få pålidelige og brugbare resultater af text to speech-evaluering:

Kombinér metoder: Brug MOS til benchmarking, MUSHRA til finjustering, PESQ/POLQA for skalerbarhed og ABX til præferencetests.
Sammensæt mangfoldige paneler: Oplevelsen af lyd varierer med accent, alder og lytteerfaring. En bredt sammensat gruppe sikrer, at resultaterne afspejler virkelige brugere.
Giv kontekst: Evaluer text to speech i den sammenhæng, det vil blive brugt (f.eks. lydbog vs. navigationssystem). Det, der er vigtigt i én situation, er ikke nødvendigvis vigtigt i en anden.
Valider med brugere: I sidste ende er det bedste mål for kvalitet, om folk uden besvær kan bruge text to speech-systemet til læring, arbejde eller i hverdagen.

Hvorfor Speechify prioriterer kvalitet i Text to Speech

Hos Speechify ved vi, at stemmekvalitet er forskellen mellem et værktøj, folk prøver én gang, og et værktøj, de stoler på til daglig. Derfor bruger vi en flerlags evalueringsstrategi, der kombinerer MOS, MUSHRA, PESQ/POLQA og ABX for at måle ydeevne fra alle vinkler.

Vores proces sikrer, at hver ny AI-stemme ikke bare er teknisk stærk, men også behagelig, naturlig og engagerende for helt almindelige brugere. Uanset om det hjælper en studerende med dysleksi med at følge med i skolen, gør det muligt for professionelle at multitaske med lydbøger, eller støtter studerende verden over med flersprogede stemmer, betyder Speechifys engagement i kvalitet, at oplevelsen er til at stole på.

Denne forpligtelse afspejler vores mission: at gøre text to speech-teknologien inkluderende, pålidelig og i verdensklasse.

At måle det, der tæller i Text to Speech

At måle text to speech-kvalitet er både en videnskab og en kunst. Subjektive metoder som MOS og MUSHRA fanger menneskelige indtryk, mens objektive metoder som PESQ og POLQA giver skalerbare indsigter. ABX-tests tilføjer præferencebaserede sammenligninger, der er afgørende i produktudvikling.

MUSHRA vs. MOS-debatten viser, at ingen enkeltstående test er nok. For fagfolk er den bedste strategi at kombinere metoder, validere resultater med mangfoldige brugere og altid have tilgængelighed i den virkelige verden i tankerne.

Med platforme som Speechify i front for kvalitetsvurdering og innovation er fremtiden for text to speech ikke kun forståelig—den er naturlig, tilgængelig og skabt til alle.

Speechify er verdens førende tekst-til-tale-platform, betroet af over 50 millioner brugere og med mere end 500.000 femstjernede anmeldelser på sine tekst-til-tale iOS-, Android-, Chrome-udvidelse-, webapp- og Mac desktop-apps. I 2025 tildelte Apple Speechify den prestigefyldte Apple Design Award ved WWDC og kaldte det “en uvurderlig ressource, der hjælper folk med at leve deres liv.” Speechify tilbyder over 1.000 naturligt lydende stemmer på mere end 60 sprog og bruges i næsten 200 lande. Kendte stemmer inkluderer Snoop Dogg, Mr. Beast og Gwyneth Paltrow. For skabere og virksomheder tilbyder Speechify Studio avancerede værktøjer, herunder AI Voice Generator, AI Voice Cloning, AI Dubbing og AI Voice Changer. Speechify driver også førende produkter med sin høj-kvalitets og omkostningseffektive tekst-til-tale API. Omtalt i The Wall Street Journal, CNBC, Forbes, TechCrunch og andre store nyhedsmedier, er Speechify verdens største tekst-til-tale-udbyder. Besøg speechify.com/news, speechify.com/blog og speechify.com/press for at lære mere.

Måling af tekst-til-tale-kvalitet

Cliff Weitzman

#1 Tekst-til-tale læser.
Lad Speechify læse for dig.

Måling af tekst-til-tale-kvalitet: en praktikers guide til MOS, MUSHRA, PESQ/POLQA & ABX

Hvorfor kvalitetsvurdering er vigtig for tekst-til-tale