Mengukur Kualiti Teks ke Ucapan: Panduan Praktikal untuk MOS, MUSHRA, PESQ/POLQA & ABX
Kemajuan teknologi teks ke ucapan telah mengubah cara orang mengakses kandungan, belajar dan berinteraksi dengan platform digital. Daripada audiobook dan pembelajaran digital hinggalah ke alat kebolehcapaian untuk orang kurang upaya, suara sintetik kini sebahagian rutin harian. Namun, dengan permintaan meningkat, cabaran juga bertambah: bagaimana kita mengukur sama ada suara teks ke ucapan kedengaran semula jadi, menarik dan mudah difahami?
Dalam panduan ini, kami jelaskan kaedah penilaian paling biasa—MOS, MUSHRA, PESQ/POLQA dan ABX. Kami juga akan huraikan perbandingan MUSHRA vs. MOS untuk penilaian teks ke ucapan, membantu penyelidik, pembangun dan organisasi memastikan sistem teks ke ucapan mereka mencapai standard kualiti tertinggi.
Mengapa Penilaian Kualiti Penting Untuk Teks ke Ucapan
Keberkesanan teks ke ucapan (TTS) bukan sekadar menukar perkataan kepada audio. Kualiti memberi kesan kepada kebolehcapaian, hasil pembelajaran, produktiviti dan juga tahap kepercayaan terhadap teknologi ini.
Sebagai contoh, sistem teks ke ucapan yang lemah akan kedengaran robotik atau tidak jelas, menyukarkan pengguna dengan disleksia yang bergantung kepadanya untuk membaca. Sebaliknya, sistem TTS berkualiti tinggi dengan intonasi semula jadi mampu menjadi alat pemberdayaan.
Organisasi yang menggunakan teks ke ucapan—sekolah, tempat kerja, pengamal kesihatan dan pembangun aplikasi—perlu yakin sistem mereka boleh diharap. Di sinilah kaedah penilaian piawai diperlukan. Ia memberikan cara terstruktur untuk mengukur kualiti audio secara saintifik dan konsisten.
Tanpa penilaian, mustahil untuk tahu jika kemas kini sistem benar-benar menambah baik kualiti atau model AI baharu lebih menyenangkan untuk didengar oleh pengguna.
Kaedah Utama Mengukur Kualiti Teks ke Ucapan
1. MOS (Mean Opinion Score)
Mean Opinion Score (MOS) ialah kaedah asas penilaian audio. Asalnya untuk sistem telekomunikasi, MOS kini digunakan secara meluas dalam teks ke ucapan kerana ia mudah dan sudah diterima ramai.
Ujian MOS melibatkan sekumpulan pendengar manusia yang menilai audio pada skala lima mata, 1 = Buruk dan 5 = Cemerlang. Pendengar akan menilai kualiti keseluruhan termasuk kejelasan, kefahaman dan keaslian.
- Kelebihan: MOS senang dilaksana, kos rendah, dan hasilnya mudah difahami. Ia juga dipiawai oleh International Telecommunication Union (ITU), jadi dipercayai di pelbagai industri.
- Kekurangan: Skala MOS agak kasar. Perbezaan kecil antara dua sistem TTS berkualiti tinggi mungkin tak ketara dalam penilaian. Ia juga sangat subjektif, bergantung pada latar belakang pendengar.
Untuk pengamal TTS, MOS sesuai sebagai langkah permulaan. Ia memberi gambaran sama ada sistem sudah cukup baik untuk digunakan dan membolehkan perbandingan antara sistem.
2. MUSHRA (Multiple Stimuli with Hidden Reference and Anchor)
MUSHRA ialah rangka kerja penilaian yang lebih canggih oleh ITU untuk menilai kualiti audio perantaraan. Berbeza dengan MOS, MUSHRA menggunakan skala 0–100 dan memerlukan pendengar membandingkan beberapa sampel rangsangan yang sama.
Setiap ujian mengandungi:
- Rujukan tersembunyi (versi berkualiti tinggi sampel).
- Satu atau lebih 'anchor' (versi kualiti rendah sebagai konteks).
- Sistem teks ke ucapan yang diuji.
Pendengar memberi skor pada setiap versi. Hasilnya, prestasi sistem dapat dinilai dengan lebih terperinci.
- Kelebihan: MUSHRA sensitif terhadap perbezaan kecil, sangat berguna untuk membandingkan sistem teks ke ucapan yang hampir setara kualitinya. Rujukan dan anchor membantu pendengar melaras skor.
- Kekurangan: Lebih rumit dilaksanakan. Reka bentuk ujian mesti teliti dan terancang. Memerlukan pendengar yang terlatih memahami tugas penilaian.
Bagi pengamal teks ke ucapan, MUSHRA sering menjadi pilihan untuk menghalusi model atau menilai penambahbaikan kecil.
3. PESQ / POLQA
MOS dan MUSHRA memerlukan pendengar manusia. PESQ (Perceptual Evaluation of Speech Quality) dan POLQA (Perceptual Objective Listening Quality Analysis) pula berasaskan algoritma. Ia meniru cara telinga dan otak manusia memproses audio, jadi ujian boleh dibuat secara automatik tanpa panel manusia.
Dibangunkan untuk panggilan telefon dan codec, PESQ dan POLQA sangat berguna untuk penilaian berskala besar atau ujian berulang, apabila kajian manusia tidak praktikal.
- Kelebihan: Pantas, konsisten dan objektif. Tidak dipengaruhi bias pendengar.
- Kekurangan: Disebabkan dibangunkan untuk telefon, kadangkala ia tidak menangkap keaslian atau ekspresi—dua aspek utama dalam teks ke ucapan.
Selalunya, PESQ/POLQA digabungkan dengan ujian subjektif seperti MOS atau MUSHRA. Kombinasi ini menghasilkan penilaian yang berskala dan disahkan manusia.
4. Ujian ABX
ABX ialah kaedah mudah tetapi berkesan untuk menilai pilihan pendengar. Mereka diberikan tiga sampel:
- A (sistem teks ke ucapan 1)
- B (sistem teks ke ucapan 2)
- X (sama dengan A atau B)
Pendengar mesti menentukan X lebih mirip A atau B.
- Kelebihan: ABX terbaik untuk perbandingan terus dua sistem. Mudah difahami, senang dijalankan dan sesuai untuk membandingkan model baharu dengan model asas.
- Kekurangan: ABX tidak memberikan skor mutlak. Ia hanya menunjukkan pilihan pengguna antara dua sistem.
Dalam kajian teks ke ucapan, ABX sering digunakan semasa pembangunan produk, apabila pembangun mahu tahu sama ada perubahan mudah dikesan pengguna.
MUSHRA vs. MOS untuk Teks ke Ucapan
Perdebatan MUSHRA vs. MOS adalah pertimbangan utama dalam penilaian teks ke ucapan. Kedua-duanya digunakan secara meluas, tetapi tujuannya berbeza:
- MOS paling sesuai untuk perbandingan umum. Jika syarikat mahu membandingkan sistem mereka dengan pesaing atau menunjukkan peningkatan kualiti, MOS ringkas dan diterima ramai.
- MUSHRA pula paling bagus untuk analisis terperinci. Dengan anchor dan rujukan, pendengar lebih peka terhadap perbezaan kualiti. Ini penting untuk pembangunan dan penyelidikan di mana perubahan kecil pada prosodi, nada atau kejelasan diberi keutamaan.
Kebiasaannya: MOS digunakan pada peringkat awal sebagai penanda aras, kemudian MUSHRA untuk ujian terperinci apabila sistem sudah hampir sepadan. Pendekatan berlapis ini memastikan penilaian kekal praktikal dan tepat.
Amalan Terbaik untuk Pengamal Teks ke Ucapan
Untuk hasil penilaian teks ke ucapan yang benar-benar boleh diambil tindakan:
- Gabungkan kaedah: Guna MOS untuk perbandingan, MUSHRA untuk penalaan, PESQ/POLQA untuk skala besar dan ABX untuk ujian pilihan.
- Rekrut panel beragam: Persepsi berbeza mengikut loghat, umur dan pengalaman. Kepelbagaian menghasilkan penilaian yang lebih menyeluruh.
- Berikan konteks: Uji teks ke ucapan mengikut kegunaan (cth. audiobook vs. sistem navigasi). Kriteria setiap aplikasi mungkin berbeza.
- Sahkan dengan pengguna: Akhirnya, ukuran terbaik ialah sama ada orang benar-benar boleh guna sistem teks ke ucapan untuk belajar, bekerja atau kegunaan harian.
Kenapa Speechify Utamakan Kualiti dalam Teks ke Ucapan
Di Speechify, kami faham kualiti suara membezakan antara alat yang sekadar dicuba dan alat yang dipercayai setiap hari. Sebab itu kami guna strategi penilaian berlapis, menggabungkan MOS, MUSHRA, PESQ/POLQA dan ABX untuk menguji prestasi dari semua sudut.
Setiap model suara AI baharu melalui proses supaya bukan sekadar mantap secara teknikal, tetapi juga selesa, semula jadi dan sedap didengar untuk pengguna sebenar. Sama ada pelajar disleksia di sekolah, profesional multitugas dengan audiobook atau pembelajar seluruh dunia dengan suara pelbagai bahasa, komitmen Speechify terhadap kualiti memberikan keyakinan kepada pengguna.
Komitmen ini mencerminkan misi kami: menjadikan teknologi teks ke ucapan lebih inklusif, boleh diharap dan bertaraf dunia.
Mengukur Yang Penting dalam Teks ke Ucapan
Mengukur kualiti teks ke ucapan adalah gabungan sains dan seni. Kaedah subjektif seperti MOS, MUSHRA menangkap persepsi manusia, manakala kaedah objektif seperti PESQ dan POLQA pula memberi penilaian berskala. Ujian ABX menambah dimensi perbandingan berasaskan pilihan.
Perdebatan MUSHRA vs. MOS menunjukkan tiada satu ujian yang memadai. Bagi pengamal, strategi terbaik ialah menggabungkan pelbagai kaedah, mengesahkannya dengan panel yang pelbagai dan sentiasa menitikberatkan kebolehcapaian dunia sebenar.
Dengan platform seperti Speechify yang mengutamakan penilaian kualiti dan inovasi, masa depan teks ke ucapan bukan sekadar jelas—ia juga semula jadi, mudah diakses dan untuk semua.

