1. หน้าแรก
  2. การสังเคราะห์เสียงพูด
  3. Word Error Rate (WER) คืออะไร?

Word Error Rate (WER) คืออะไร?

Cliff Weitzman

คลิฟ ไวซ์แมน

ซีอีโอ/ผู้ก่อตั้ง Speechify

#1 โปรแกรมอ่าน Text to Speech.
ให้ Speechify อ่านให้คุณฟัง

apple logoรางวัลออกแบบยอดเยี่ยมจาก Apple ปี 2025
ผู้ใช้กว่า 50 ล้านคน
ฟังบทความนี้ด้วย Speechify!
speechify logo

ทำความเข้าใจ WER

WER เป็นตัวชี้วัดที่ได้มาจากระยะทาง Levenshtein ซึ่งเป็นอัลกอริทึมที่ใช้วัดความแตกต่างระหว่างสองลำดับ ในบริบทของ ASR ลำดับเหล่านี้คือการถอดเสียงที่ผลิตโดยระบบรู้จำเสียงพูด ("สมมติฐาน") และข้อความจริงที่ถูกพูด ("อ้างอิง" หรือ "ความจริงพื้นฐาน")

การคำนวณ WER เกี่ยวข้องกับการนับจำนวนการแทรก การลบ และการแทนที่ที่จำเป็นในการเปลี่ยนสมมติฐานให้เป็นการถอดเสียงอ้างอิง สูตรสำหรับ WER คือ:

\[ \text{WER} = \frac{\text{จำนวนการแทนที่} + \text{จำนวนการลบ} + \text{จำนวนการแทรก}}{\text{จำนวนคำทั้งหมดในการถอดเสียงอ้างอิง}} \]

ความสำคัญในแอปพลิเคชันในโลกจริง

WER มีความสำคัญอย่างยิ่งในแอปพลิเคชันในโลกจริงที่ระบบรู้จำเสียงพูดต้องทำงานภายใต้เงื่อนไขต่างๆ รวมถึงเสียงรบกวนพื้นหลังและสำเนียงที่แตกต่างกัน WER ที่ต่ำกว่าบ่งบอกถึงการถอดเสียงที่แม่นยำยิ่งขึ้น สะท้อนถึงความสามารถของระบบในการเข้าใจภาษาพูดได้อย่างมีประสิทธิภาพ

ปัจจัยที่มีผลต่อ WER

มีหลายปัจจัยที่สามารถส่งผลต่อ WER ของระบบ ASR ซึ่งรวมถึงความซับซ้อนทางภาษาของภาษา การมีอยู่ของศัพท์เทคนิคหรือคำนามที่ไม่คุ้นเคย และความชัดเจนของการป้อนเสียง เสียงรบกวนพื้นหลังและคุณภาพของการป้อนเสียงก็มีบทบาทสำคัญเช่นกัน ตัวอย่างเช่น ระบบ ASR ที่ได้รับการฝึกอบรมจากชุดข้อมูลที่มีสำเนียงและรูปแบบการพูดที่หลากหลายมักจะมีความทนทานมากกว่าและให้ WER ที่ต่ำกว่า

บทบาทของการเรียนรู้เชิงลึกและเครือข่ายประสาทเทียม

การมาถึงของการเรียนรู้เชิงลึกและเครือข่ายประสาทเทียมได้พัฒนาสาขา ASR อย่างมาก โมเดลการสร้างและโมเดลภาษาขนาดใหญ่ (LLMs) ที่ใช้ข้อมูลการฝึกอบรมจำนวนมากได้ปรับปรุงความเข้าใจในรูปแบบภาษาที่ซับซ้อนและเพิ่มความแม่นยำในการถอดเสียง ความก้าวหน้าเหล่านี้มีความสำคัญต่อการพัฒนาระบบ ASR ที่ไม่เพียงแต่แม่นยำเท่านั้น แต่ยังปรับให้เข้ากับภาษาต่างๆ และภาษาถิ่นได้อีกด้วย

กรณีการใช้งานจริงและการประเมินระบบ ASR

ระบบ ASR ได้รับการประเมินโดยใช้ WER เพื่อให้แน่ใจว่าตรงตามความต้องการเฉพาะของกรณีการใช้งานต่างๆ ตั้งแต่ผู้ช่วยที่เปิดใช้งานด้วยเสียงไปจนถึงโซลูชันบริการลูกค้าอัตโนมัติ ตัวอย่างเช่น ระบบ ASR ที่ใช้ในสภาพแวดล้อมโรงงานที่มีเสียงดังจะมุ่งเน้นไปที่การบรรลุ WER ที่ต่ำกว่าด้วยเทคนิคการทำให้เสียงรบกวนเป็นปกติที่แข็งแกร่ง ในทางกลับกัน ระบบที่ออกแบบมาสำหรับบริการถอดเสียงบรรยายจะให้ความสำคัญกับความแม่นยำทางภาษาและความสามารถในการจัดการหัวข้อและคำศัพท์ที่หลากหลาย

บริษัทต่างๆ มักใช้ WER เป็นส่วนหนึ่งของการประกันคุณภาพสำหรับผลิตภัณฑ์รู้จำเสียงพูด โดยการวิเคราะห์ประเภทของข้อผิดพลาด—ไม่ว่าจะเป็นการลบ การแทนที่ หรือการแทรก—นักพัฒนาสามารถระบุพื้นที่เฉพาะสำหรับการปรับปรุงได้ ตัวอย่างเช่น การแทนที่จำนวนมากอาจบ่งชี้ว่าระบบมีปัญหากับความแตกต่างทางสัทศาสตร์หรือภาษาศาสตร์บางอย่าง ในขณะที่การแทรกอาจบ่งบอกถึงปัญหาในการจัดการการหยุดพูดหรือการพูดซ้อนของระบบ

การพัฒนาอย่างต่อเนื่องและความท้าทาย

การแสวงหาเพื่อลด WER ยังคงดำเนินต่อไป เนื่องจากเกี่ยวข้องกับการปรับปรุงอัลกอริทึมการเรียนรู้ของเครื่องอย่างต่อเนื่อง ชุดข้อมูลการฝึกอบรมที่ดีขึ้น และเทคนิคการทำให้เป็นปกติที่ซับซ้อนยิ่งขึ้น การปรับใช้ในโลกแห่งความเป็นจริงมักจะนำเสนอความท้าทายใหม่ๆ ที่ไม่ได้คาดการณ์ไว้อย่างเต็มที่ในระหว่างขั้นตอนการฝึกอบรมเริ่มต้นของระบบ ซึ่งจำเป็นต้องมีการปรับเปลี่ยนและการเรียนรู้อย่างต่อเนื่อง

ทิศทางในอนาคต

ในอนาคต การผสานรวม ASR กับแง่มุมอื่นๆ ของปัญญาประดิษฐ์ เช่น การทำความเข้าใจภาษาธรรมชาติและการคำนวณที่ตระหนักถึงบริบท สัญญาว่าจะเพิ่มประสิทธิภาพการใช้งานจริงของระบบรู้จำเสียงพูดให้ดียิ่งขึ้น นวัตกรรมในสถาปัตยกรรมเครือข่ายประสาทเทียมและการใช้โมเดลการสร้างและการจำแนกที่เพิ่มขึ้นในการฝึกอบรมคาดว่าจะขับเคลื่อนความก้าวหน้าในเทคโนโลยี ASR

Word Error Rate เป็นตัวชี้วัดที่สำคัญสำหรับการประเมินประสิทธิภาพของระบบรู้จำเสียงอัตโนมัติ มันทำหน้าที่เป็นเกณฑ์มาตรฐานที่สะท้อนถึงความสามารถของระบบในการเข้าใจและถอดความภาษาพูดเป็นข้อความเขียน เมื่อเทคโนโลยีพัฒนาและเครื่องมือที่ซับซ้อนมากขึ้นพร้อมใช้งาน ศักยภาพในการบรรลุ WER ที่ต่ำลงและความเข้าใจภาษาที่ละเอียดอ่อนมากขึ้นยังคงเติบโตอย่างต่อเนื่อง กำหนดอนาคตของวิธีที่เรามีปฏิสัมพันธ์กับเครื่องจักร

คำถามที่พบบ่อย

อัตราความผิดพลาดของคำ (WER) เป็นตัวชี้วัดที่ใช้ประเมินความแม่นยำของระบบรู้จำเสียงอัตโนมัติโดยการเปรียบเทียบข้อความที่ถอดเสียงกับข้อความที่พูดต้นฉบับ

อัตรา WER ที่ดีจะแตกต่างกันไปตามการใช้งาน แต่โดยทั่วไปแล้ว อัตราที่ต่ำกว่า (ใกล้ 0%) บ่งบอกถึงความแม่นยำในการถอดเสียงที่ดีกว่า โดยอัตราต่ำกว่า 10% มักถือว่าเป็นคุณภาพสูง

ในข้อความ WER ย่อมาจาก Word Error Rate ซึ่งวัดเปอร์เซ็นต์ของข้อผิดพลาดในการถอดเสียงของระบบรู้จำเสียงเมื่อเทียบกับคำพูดต้นฉบับ

CER (Character Error Rate) วัดจำนวนข้อผิดพลาดในระดับตัวอักษรในการถอดเสียง ในขณะที่ WER (Word Error Rate) วัดจำนวนข้อผิดพลาดในระดับคำ

เพลิดเพลินกับเสียง AI ที่ล้ำสมัยที่สุด ไฟล์ไม่จำกัด และการสนับสนุนตลอด 24/7

ทดลองฟรี
tts banner for blog

แชร์บทความนี้

Cliff Weitzman

คลิฟ ไวซ์แมน

ซีอีโอ/ผู้ก่อตั้ง Speechify

คลิฟ ไวซ์แมน เป็นผู้สนับสนุนผู้มีภาวะดิสเล็กเซียและซีอีโอผู้ก่อตั้ง Speechify แอปพลิเคชันแปลงข้อความเป็นเสียงอันดับหนึ่งของโลก ซึ่งได้รับรีวิว 5 ดาวมากกว่า 100,000 ครั้ง และครองอันดับหนึ่งในหมวดข่าวและนิตยสารบน App Store ในปี 2017 ไวซ์แมนได้รับการยกย่องในรายชื่อ Forbes 30 under 30 จากผลงานของเขาที่ทำให้อินเทอร์เน็ตเข้าถึงได้มากขึ้นสำหรับผู้ที่มีความบกพร่องในการเรียนรู้ คลิฟ ไวซ์แมน ได้รับการนำเสนอในสื่อชั้นนำต่างๆ เช่น EdSurge, Inc., PC Mag, Entrepreneur, Mashable เป็นต้น

speechify logo

เกี่ยวกับ Speechify

#1 โปรแกรมอ่าน Text to Speech

Speechify เป็นแพลตฟอร์ม แปลงข้อความเป็นเสียง ชั้นนำของโลกที่มีผู้ใช้มากกว่า 50 ล้านคนและได้รับรีวิวระดับห้าดาวมากกว่า 500,000 รีวิวในแอปพลิเคชัน iOS, Android, Chrome Extension, เว็บแอป และ แอปบน Mac ในปี 2025 Apple ได้มอบรางวัล Apple Design Award ให้กับ Speechify ที่ WWDC โดยเรียกมันว่า “ทรัพยากรสำคัญที่ช่วยให้ผู้คนใช้ชีวิตได้ดีขึ้น” Speechify มีเสียงที่ฟังดูเป็นธรรมชาติกว่า 1,000 เสียงในกว่า 60 ภาษาและถูกใช้ในเกือบ 200 ประเทศ เสียงของคนดังที่มีให้เลือกได้แก่ Snoop Dogg, Mr. Beast และ Gwyneth Paltrow สำหรับผู้สร้างและธุรกิจ Speechify Studio มีเครื่องมือขั้นสูงรวมถึง AI Voice Generator, AI Voice Cloning, AI Dubbing และ AI Voice Changer Speechify ยังสนับสนุนผลิตภัณฑ์ชั้นนำด้วย text to speech API ที่มีคุณภาพสูงและคุ้มค่า ได้รับการนำเสนอใน The Wall Street Journal, CNBC, Forbes, TechCrunch และสื่อข่าวใหญ่ๆ อื่นๆ Speechify เป็นผู้ให้บริการแปลงข้อความเป็นเสียงที่ใหญ่ที่สุดในโลก เยี่ยมชม speechify.com/news, speechify.com/blog และ speechify.com/press เพื่อเรียนรู้เพิ่มเติม