음성 합성 품질 측정: MOS, MUSHRA, PESQ/POLQA & ABX 실무 가이드
텍스트 투 스피치 기술의 등장은 사람들이 콘텐츠를 소비하고 학습하며 디지털 플랫폼과 상호작용하는 방식을 바꿨습니다. 오디오북과 이러닝에서 접근성 도구에 이르기까지 합성 음성은 이제 일상의 일부가 되었습니다. 하지만 수요가 늘수록 과제도 커집니다. 어떻게 하면 텍스트 투 스피치 음성이 자연스럽고 몰입감 있고 이해하기 쉬운지 측정할 수 있을까요?
이 가이드에서는 널리 사용되는 평가 방법인 MOS, MUSHRA, PESQ/POLQA 및 ABX를 살펴봅니다. 또한 텍스트 투 스피치 평가에서 MUSHRA와 MOS를 둘러싼 논의도 다뤄, 연구자, 개발자 및 조직이 자사 텍스트 투 스피치 시스템이 최고 수준의 품질 기준을 충족하는지 확인할 수 있도록 명확한 길잡이를 제공합니다.
텍스트 투 스피치에서 품질 평가가 중요한 이유
텍스트 투 스피치(TTS)의 효과는 단순히 텍스트를 오디오로 변환하는 것을 넘어섭니다. 품질은 접근성, 학습 성과, 생산성, 나아가 기술에 대한 신뢰도에까지 영향을 미칩니다.
예를 들어, 충분히 다듬어지지 않은 텍스트 투 스피치 시스템은 기계적이거나 또렷하지 않게 들려, 읽기 보조에 의존하는 난독증 사용자에게 큰 좌절을 줄 수 있습니다. 반면, 자연스러운 억양과 매끄러운 전달을 갖춘 고품질 TTS 시스템은 같은 경험을 자립을 돕는 강력한 도구로 바꿔 줄 수 있습니다.
학교, 직장, 의료기관 및 앱 개발자 등 텍스트 투 스피치를 배포하는 조직은 시스템이 신뢰할 만한지 확신할 수 있어야 합니다. 표준화된 평가 방법이 여기서 큰 역할을 합니다. 이 방법들은 오디오 품질을 측정하는 구조화된 방식을 제공해, 주관적 인상을 일관되고 과학적인 방법으로 포착할 수 있게 합니다.
평가 없이는 시스템 업데이트가 실제로 품질을 끌어올렸는지, 새로운 AI 모델이 청취 경험을 진정으로 개선했는지 가늠하기 어렵습니다.
텍스트 투 스피치 품질 측정의 핵심 방법
1. MOS (평균 의견 점수)
평균 의견 점수(MOS)는 오디오 평가의 대표적 기법입니다. 원래 통신 시스템을 위해 개발된 MOS는 그 단순성과 친숙성 덕분에 텍스트 투 스피치에도 폭넓게 쓰입니다.
MOS 테스트에서는 여러 청취자가 오디오 클립을 5점 척도로 평가합니다(1 = 나쁨, 5 = 우수). 청취자는 보통 명료성, 이해도, 자연스러움을 포함한 전반적 품질을 두루 고려해 점수를 매깁니다.
- 강점: MOS는 설정이 쉽고 비용이 적게 들며, 결과 해석이 쉬워 널리 통합니다. 국제전기통신연합(ITU)이 표준화해 업계 전반에서 신뢰받습니다.
- 한계: MOS는 세밀한 차이를 잡아내기 어렵습니다. 두 고품질 TTS 시스템 간의 미묘한 차이는 청취자 평가에 드러나지 않을 수 있습니다. 또한 청취자의 배경과 경험에 따라 주관적 판단이 크게 달라질 수 있습니다.
TTS 실무자에겐 MOS가 훌륭한 출발점입니다. 시스템이 “충분히 좋은지”에 대한 큰 그림을 제공하고, 시스템 간 벤치마킹을 가능하게 합니다.
2. MUSHRA (Multiple Stimuli with Hidden Reference and Anchor)
MUSHRA는 중간 수준의 오디오 품질을 평가하기 위해 ITU가 만든 더 고급 평가 프레임워크입니다. MOS와 달리 MUSHRA는 0–100점 척도를 쓰며, 청취자가 같은 자극에 대한 여러 샘플을 나란히 비교하게 합니다.
각 테스트에는 다음 항목이 포함됩니다:
- 숨겨진 레퍼런스(해당 샘플의 고품질 버전).
- 하나 이상의 앵커(기준을 잡기 위한 저품질 또는 열화된 버전).
- 평가할 text to speech 시스템.
청취자들은 각 버전을 평가해 훨씬 더 세밀한 성능 지표를 얻을 수 있습니다.
- 강점: MUSHRA는 작은 차이에도 민감해 품질 차이가 근소한 text to speech 시스템을 비교할 때 특히 유용합니다. 레퍼런스와 앵커를 함께 제시하면 청취자가 판단 기준을 보정하는 데 도움이 됩니다.
- 제한점: 실행이 더 복잡합니다. 앵커, 레퍼런스, 다수의 샘플을 갖춰야 하므로 신중한 설계가 필요하고, 청취자가 평가 과제를 제대로 이해하도록 충분한 훈련이 전제됩니다.
text to speech 실무자들 사이에서는 MUSHRA가 모델을 미세 조정하거나 점진적 개선을 평가할 때 즐겨 쓰이는 방법입니다.
3. PESQ / POLQA
MOS와 MUSHRA가 인간 청취자에 의존하는 반면, PESQ(Perceptual Evaluation of Speech Quality)와 그 후속인 POLQA(Perceptual Objective Listening Quality Analysis)는 알고리즘 기반 측정입니다. 인간의 귀와 뇌가 오디오를 인지하는 방식을 시뮬레이션해 청취자 패널 없이도 자동화된 테스트가 가능합니다.
원래 음성 통화와 코덱용으로 설계된 PESQ와 POLQA는 대규모나 반복 평가에서 인간 청취 실험을 진행하기 어려울 때 유용합니다.
- 강점: 빠르고 반복 가능하며 객관적입니다. 결과가 청취자 편향이나 피로도에 좌우되지 않습니다.
- 제한점: 통신 환경을 염두에 두고 설계되었기 때문에, 자연스러움이나 표현력 같은 text to speech의 핵심적인 측면을 항상 잘 포착하지는 못합니다.
현업에서는 PESQ/POLQA를 MOS나 MUSHRA 같은 주관적 테스트와 함께 쓰는 경우가 많습니다. 이 조합은 확장성과 인간 검증에 기반한 정확성을 모두 제공합니다.
4. ABX Testing
ABX 테스트는 선호도를 평가하는 단순하지만 강력한 방법입니다. 청취자에게 세 가지 샘플이 제시됩니다:
- A (text to speech 시스템 1)
- B (text to speech 시스템 2)
- X (A 또는 B와 일치하는 샘플)
청취자는 X가 A에 더 가까운지, B에 더 가까운지 결정해야 합니다.
- 강점: ABX는 두 시스템 간 직접 비교에 탁월합니다. 직관적이고 실행이 쉬우며, 새 모델을 베이스라인과 견줄 때 유용합니다.
- 제한점: ABX는 절대적인 품질 점수를 제공하지 않습니다. 그저 청취자가 한 시스템을 다른 시스템보다 선호하는지만 보여줍니다.
text to speech 연구에서는 ABX가 제품 개발 과정의 A/B 테스트에서 자주 쓰이며, 개발자가 변경 사항이 사용자에게 감지되는지 확인하고자 할 때 활용됩니다.
MUSHRA vs. MOS for Text to Speech
MUSHRA와 MOS 중 무엇을 쓸지는 text to speech 평가에서 가장 중요한 고려 사항 중 하나입니다. 두 방법 모두 널리 쓰이지만 목적이 다릅니다:
- MOS는 고급 벤치마킹에 가장 적합합니다. 기업이 자사 text to speech 시스템을 경쟁사와 견주거나 시간 경과에 따른 전반적 품질 개선을 보여주려면, MOS는 간단하고 효율적이며 널리 쓰이는 방법입니다.
- 반면 MUSHRA는 정밀 분석에 적합합니다. 앵커와 레퍼런스를 사용해 청취자가 미묘한 음질 차이에 더 집중하게 해 주므로, 운율(prosody), 피치 또는 명료도에서의 아주 작은 개선이 중요한 개발 및 연구 상황에서 특히 빛을 발합니다.
현업에선 많은 실무자가 초기 단계에서 기준선을 얻기 위해 MOS를 쓰고, 시스템 성능이 비슷해지면 정밀 테스트를 위해 MUSHRA로 전환합니다. 이런 계층적 접근은 평가를 실용적이면서도 정밀하게 만듭니다.
텍스트 투 스피치 실무자를 위한 모범 사례
신뢰도 높고 실전에 통하는 결과를 얻으려면 text to speech 평가할 때 다음을 권합니다:
- 방법 조합: 벤치마킹에는 MOS, 미세조정에는 MUSHRA, 확장성 평가는 PESQ/POLQA, 선호도 테스트에는 ABX를 사용하세요.
- 다양한 패널 구성: 억양, 연령, 청취 경험에 따라 인지가 달라집니다. 다양한 집단을 모집해야 실제 사용자층을 제대로 반영한 결과를 얻을 수 있습니다.
- 맥락 제공: text to speech 를 실제 쓰일 맥락(예: 오디오북 vs 내비게이션 시스템)에서 평가하세요. 한 상황에서 중요한 요소가 다른 상황에선 덜 중요할 수 있습니다.
- 사용자 검증: 결국 품질을 가늠하는 최고의 잣대는 사람들이 학습, 업무 또는 일상에서 text to speech 시스템을 편하게 쓸 수 있느냐입니다.
왜 Speechify는 텍스트 투 스피치 품질을 최우선으로 할까요
Speechify에선 음성 품질이 한 번 써보고 마는 도구와 매일 찾게 되는 도구를 가르는 결정적 요소라고 믿습니다. 그래서 우리는 MOS, MUSHRA, PESQ/POLQA, ABX를 결합한 다층 평가 전략으로 다각도로 성능을 측정합니다.
우리의 프로세스는 모든 신규 AI 음성 모델이 기술적으로 우수할 뿐만 아니라 실제 사용자에게 편안하고 자연스럽고 매력적이도록 보장합니다. 난독증(dyslexia)이 있는 학생이 수업을 따라갈 수 있도록 돕거나, 전문가가 audiobooks로 멀티태스킹을 하거나, 다국어 음성으로 전 세계 학습자를 지원하든, Speechify의 품질에 대한 약속은 사용자가 그 경험을 신뢰할 수 있음을 뜻합니다.
이러한 헌신은 우리의 미션을 반영합니다: text to speech 기술을 포용적이고 신뢰할 수 있으며 세계적 수준으로 만드는 것.
텍스트 투 스피치에서 진짜 중요한 것을 측정하기
품질 측정은 과학이자 예술입니다. 주관적 방법인 MOS와 MUSHRA는 인간의 인상을 포착하고, PESQ와 POLQA 같은 객관적 방법은 확장 가능한 인사이트를 제공합니다. ABX 테스트는 제품 개발에서 중요한 선호도 기반 비교까지 더해줍니다.
MUSHRA와 MOS 논쟁은 단일 테스트만으로는 충분하지 않음을 보여줍니다. 실무자에게 가장 좋은 전략은 방법을 조합하고, 다양한 사용자층으로 결과를 검증하며, 언제나 실제 접근성(accessibility)을 염두에 두는 것입니다.
Speechify와 같은 플랫폼이 품질 평가 및 혁신을 선도하면서, text to speech 의 미래는 그저 알아듣는 수준을 넘어 자연스럽고 접근 가능하며 모두를 위한 기술로 발전하고 있습니다.

