1. Laman Utama
  2. Sintesis Ucapan
  3. Apakah Itu Kadar Ralat Perkataan (WER)?
Diterbitkan pada Sintesis Ucapan

Apakah Itu Kadar Ralat Perkataan (WER)?

Cliff Weitzman

Cliff Weitzman

CEO/Pengasas Speechify

apple logoAnugerah Reka Bentuk Apple 2025
50J+ Pengguna

Memahami WER

WER ialah metrik yang berasaskan jarak Levenshtein, satu algoritma yang digunakan untuk mengukur perbezaan antara dua jujukan. Dalam konteks ASR, jujukan ini ialah transkripsi yang dihasilkan sistem pengecaman pertuturan ("hipotesis") dan teks sebenar yang dituturkan ("rujukan" atau "ground truth").

Pengiraan WER melibatkan pengiraan jumlah sisipan, penghapusan dan penggantian yang diperlukan untuk menukar hipotesis kepada transkrip rujukan. Formula WER adalah seperti berikut:

\[ \text{WER} = \frac{\text{Bilangan Penggantian} + \text{Bilangan Penghapusan} + \text{Bilangan Sisipan}}{\text{Jumlah Perkataan Dalam Transkrip Rujukan}} \]

Kepentingan Dalam Aplikasi Dunia Sebenar

WER sangat penting dalam aplikasi dunia sebenar secara langsung, di mana sistem pengecaman pertuturan perlu berfungsi dalam pelbagai keadaan termasuk bunyi latar dan loghat yang berbeza. WER yang rendah menandakan transkripsi lebih tepat dan sistem lebih baik dalam memahami pertuturan.

Faktor Yang Menyumbang Kepada WER

Pelbagai faktor boleh mempengaruhi WER bagi sistem ASR. Antaranya kerumitan bahasa, kehadiran istilah teknikal atau kata nama yang jarang digunakan, serta kejelasan input suara. Bunyi latar dan kualiti audio juga memainkan peranan besar. Contohnya, ASR yang dilatih dengan kepelbagaian loghat dan gaya pertuturan biasanya lebih tahan lasak dan mencapai WER yang lebih rendah.

Peranan Pembelajaran Mendalam dan Rangkaian Neural

Kemunculan pembelajaran mendalam dan rangkaian neural telah banyak mengubah bidang ASR. Model generatif dan model bahasa besar (LLM) yang menggunakan data latihan berskala besar meningkatkan pemahaman terhadap corak bahasa yang kompleks serta ketepatan transkripsi. Kemajuan ini penting untuk membangunkan sistem ASR yang lebih tepat dan mudah disesuaikan dengan pelbagai bahasa dan dialek.

Kes Penggunaan Praktikal dan Penilaian Sistem ASR

Sistem ASR dinilai menggunakan WER bagi memastikan ia memenuhi keperluan kes penggunaan tertentu seperti pembantu suara atau khidmat pelanggan automatik. Misalnya, ASR di kilang yang bising akan memberi tumpuan kepada WER rendah dengan teknik penormalan bunyi yang mantap. Sebaliknya, sistem transkripsi kuliah mengutamakan ketepatan bahasa dan keupayaan meliputi pelbagai topik serta kosa kata.

Syarikat sering menggunakan WER sebagai sebahagian daripada jaminan kualiti produk pengecaman suara mereka. Dengan menganalisis jenis ralat—sama ada penghapusan, penggantian atau sisipan—pembangun boleh mengenal pasti bahagian yang perlu diperbaiki. Misalnya, terlalu banyak penggantian mungkin menandakan sistem sukar menangani nuansa fonetik atau bahasa, manakala sisipan menunjukkan masalah dalam mengendalikan jeda atau pertindihan pertuturan.

Perkembangan Berterusan dan Cabaran

Usaha mengurangkan WER sentiasa dijalankan melalui penambahbaikan algoritma pembelajaran mesin, set latihan yang lebih baik, serta kaedah penormalan yang lebih canggih. Penggunaan dalam dunia sebenar sering membawa cabaran baharu yang tidak dijangka, sekali gus memerlukan pelarasan dan pembelajaran berterusan.

Arah Tujuan Masa Depan

Pada masa hadapan, integrasi ASR dengan komponen kecerdasan buatan lain seperti pemahaman bahasa semula jadi dan pengkomputeran peka konteks akan terus meningkatkan keberkesanan sistem pengecaman pertuturan. Inovasi dalam seni bina rangkaian neural serta penggunaan model generatif dan diskriminatif dijangka memacu kemajuan teknologi ASR.

Kadar Ralat Perkataan ialah metrik utama untuk menilai prestasi sistem pengecaman pertuturan automatik. Ia menjadi penanda aras sejauh mana berkesannya sistem menukar percakapan menjadi teks bertulis. Dengan teknologi yang terus berkembang, peluang untuk menurunkan WER dan memperhalusi kefahaman bahasa semakin meluas—membentuk masa depan interaksi manusia-mesin.

Soalan Lazim

Kadar ralat perkataan (WER) ialah metrik untuk menilai ketepatan sistem pengecaman pertuturan automatik dengan membandingkan teks transkripsi dengan teks asal yang dituturkan.

WER yang baik bergantung pada aplikasi; semakin rendah (hampir 0%) semakin baik, manakala kadar di bawah 10% biasanya dianggap berkualiti tinggi.

Dalam teks, WER bermaksud Kadar Ralat Perkataan, iaitu ukuran peratusan ralat transkripsi ASR berbanding pertuturan asal.

CER (Kadar Ralat Aksara) mengukur ralat pada peringkat aksara, manakala WER (Kadar Ralat Perkataan) mengukur bilangan ralat pada peringkat perkataan.

Nikmati suara AI tercanggih, fail tanpa had, dan sokongan 24/7

Cuba Percuma
tts banner for blog

Kongsi Artikel Ini

Cliff Weitzman

Cliff Weitzman

CEO/Pengasas Speechify

Cliff Weitzman ialah pejuang hak disleksia serta CEO dan pengasas Speechify, aplikasi teks ke ucapan #1 di dunia dengan lebih 100,000 ulasan 5 bintang dan menduduki tempat pertama di App Store dalam kategori Berita & Majalah. Pada tahun 2017, Weitzman tersenarai dalam Forbes 30 Under 30 atas usahanya menjadikan internet lebih mesra untuk individu dengan keperluan pembelajaran. Cliff Weitzman pernah dipaparkan di EdSurge, Inc., PC Mag, Entrepreneur, Mashable dan pelbagai saluran media utama yang lain.

speechify logo

Tentang Speechify

Pembaca Teks ke Ucapan #1

Speechify ialah platform teks ke ucapan terkemuka dunia, dipercayai oleh lebih 50 juta pengguna dan disokong oleh lebih daripada 500,000 ulasan lima bintang merentasi aplikasi teks ke ucapannya iOS, Android, Pemalam Chrome, aplikasi web, dan aplikasi desktop Mac. Pada tahun 2025, Apple telah menganugerahkan Speechify dengan Anugerah Reka Bentuk Apple yang berprestij di WWDC, menyifatkannya sebagai “sumber penting yang membantu orang menjalani hidup mereka.” Speechify menawarkan lebih 1,000 suara semula jadi dalam lebih 60 bahasa dan digunakan di hampir 200 negara. Suara selebriti termasuk Snoop Dogg dan Gwyneth Paltrow. Untuk pencipta dan perniagaan, Speechify Studio menyediakan alat canggih termasuk Penjana Suara AI, Penduaan Suara AI, Alih Suara AI, dan Penukar Suara AI. Speechify juga memacu produk terkemuka dengan API teks ke ucapan berkualiti tinggi dan kos efektif. Pernah dipaparkan dalam The Wall Street Journal, CNBC, Forbes, TechCrunch, dan media utama lain, Speechify ialah penyedia teks ke ucapan terbesar di dunia. Lawati speechify.com/news, speechify.com/blog, dan speechify.com/press untuk maklumat lanjut.