1. หน้าแรก
  2. การสังเคราะห์เสียงพูด
  3. Word Error Rate (WER) คืออะไร?

Word Error Rate (WER) คืออะไร?

ในโลกของการประมวลผลภาษาธรรมชาติและการรู้จำเสียงอัตโนมัติ (ASR) การวัดความแม่นยำของระบบแปลงเสียงเป็นข้อความเป็นสิ่งสำคัญ หนึ่งในตัวชี้วัดที่ใช้บ่อยสำหรับวัตถุประสงค์นี้คือ Word Error Rate (WER) ซึ่งให้ข้อมูลเชิงลึกเกี่ยวกับความสามารถของระบบในการแปลงภาษาพูดเป็นข้อความ ตัวชี้วัดนี้มีความสำคัญในการพัฒนาและปรับปรุงเทคโนโลยี ASR โดยบริษัทต่างๆ เช่น Microsoft, IBM และ Amazon ซึ่งเป็นผู้นำในนวัตกรรมระบบรู้จำเสียงพูด

Cliff Weitzman

คลิฟ ไวซ์แมน

ผู้สนับสนุนด้านดิสเล็กเซียและการเข้าถึง, CEO/ผู้ก่อตั้ง Speechify

post cover
ฟังบทความนี้ด้วย Speechify!
Speechify

ทำความเข้าใจ WER

WER เป็นตัวชี้วัดที่ได้มาจากระยะทาง Levenshtein ซึ่งเป็นอัลกอริทึมที่ใช้วัดความแตกต่างระหว่างสองลำดับ ในบริบทของ ASR ลำดับเหล่านี้คือการถอดเสียงที่ผลิตโดยระบบรู้จำเสียงพูด ("สมมติฐาน") และข้อความจริงที่ถูกพูด ("อ้างอิง" หรือ "ความจริงพื้นฐาน")

การคำนวณ WER เกี่ยวข้องกับการนับจำนวนการแทรก การลบ และการแทนที่ที่จำเป็นในการเปลี่ยนสมมติฐานให้เป็นการถอดเสียงอ้างอิง สูตรสำหรับ WER คือ:

\[ \text{WER} = \frac{\text{จำนวนการแทนที่} + \text{จำนวนการลบ} + \text{จำนวนการแทรก}}{\text{จำนวนคำทั้งหมดในการถอดเสียงอ้างอิง}} \]

ความสำคัญในแอปพลิเคชันในโลกจริง

WER มีความสำคัญอย่างยิ่งในแอปพลิเคชันในโลกจริงที่ระบบรู้จำเสียงพูดต้องทำงานภายใต้เงื่อนไขต่างๆ รวมถึงเสียงรบกวนพื้นหลังและสำเนียงที่แตกต่างกัน WER ที่ต่ำกว่าบ่งบอกถึงการถอดเสียงที่แม่นยำยิ่งขึ้น สะท้อนถึงความสามารถของระบบในการเข้าใจภาษาพูดได้อย่างมีประสิทธิภาพ

ปัจจัยที่มีผลต่อ WER

มีหลายปัจจัยที่สามารถส่งผลต่อ WER ของระบบ ASR ซึ่งรวมถึงความซับซ้อนทางภาษาของภาษา การมีอยู่ของศัพท์เทคนิคหรือคำนามที่ไม่คุ้นเคย และความชัดเจนของการป้อนเสียง เสียงรบกวนพื้นหลังและคุณภาพของการป้อนเสียงก็มีบทบาทสำคัญเช่นกัน ตัวอย่างเช่น ระบบ ASR ที่ได้รับการฝึกอบรมจากชุดข้อมูลที่มีสำเนียงและรูปแบบการพูดที่หลากหลายมักจะมีความทนทานมากกว่าและให้ WER ที่ต่ำกว่า

บทบาทของการเรียนรู้เชิงลึกและเครือข่ายประสาทเทียม

การมาถึงของการเรียนรู้เชิงลึกและเครือข่ายประสาทเทียมได้พัฒนาสาขา ASR อย่างมาก โมเดลการสร้างและโมเดลภาษาขนาดใหญ่ (LLMs) ที่ใช้ข้อมูลการฝึกอบรมจำนวนมากได้ปรับปรุงความเข้าใจในรูปแบบภาษาที่ซับซ้อนและเพิ่มความแม่นยำในการถอดเสียง ความก้าวหน้าเหล่านี้มีความสำคัญต่อการพัฒนาระบบ ASR ที่ไม่เพียงแต่แม่นยำเท่านั้น แต่ยังปรับให้เข้ากับภาษาต่างๆ และภาษาถิ่นได้อีกด้วย

กรณีการใช้งานจริงและการประเมินระบบ ASR

ระบบ ASR ได้รับการประเมินโดยใช้ WER เพื่อให้แน่ใจว่าตรงตามความต้องการเฉพาะของกรณีการใช้งานต่างๆ ตั้งแต่ผู้ช่วยที่เปิดใช้งานด้วยเสียงไปจนถึงโซลูชันบริการลูกค้าอัตโนมัติ ตัวอย่างเช่น ระบบ ASR ที่ใช้ในสภาพแวดล้อมโรงงานที่มีเสียงดังจะมุ่งเน้นไปที่การบรรลุ WER ที่ต่ำกว่าด้วยเทคนิคการทำให้เสียงรบกวนเป็นปกติที่แข็งแกร่ง ในทางกลับกัน ระบบที่ออกแบบมาสำหรับบริการถอดเสียงบรรยายจะให้ความสำคัญกับความแม่นยำทางภาษาและความสามารถในการจัดการหัวข้อและคำศัพท์ที่หลากหลาย

บริษัทต่างๆ มักใช้ WER เป็นส่วนหนึ่งของการประกันคุณภาพสำหรับผลิตภัณฑ์รู้จำเสียงพูด โดยการวิเคราะห์ประเภทของข้อผิดพลาด—ไม่ว่าจะเป็นการลบ การแทนที่ หรือการแทรก—นักพัฒนาสามารถระบุพื้นที่เฉพาะสำหรับการปรับปรุงได้ ตัวอย่างเช่น การแทนที่จำนวนมากอาจบ่งชี้ว่าระบบมีปัญหากับความแตกต่างทางสัทศาสตร์หรือภาษาศาสตร์บางอย่าง ในขณะที่การแทรกอาจบ่งบอกถึงปัญหาในการจัดการการหยุดพูดหรือการพูดซ้อนของระบบ

การพัฒนาอย่างต่อเนื่องและความท้าทาย

การแสวงหาเพื่อลด WER ยังคงดำเนินต่อไป เนื่องจากเกี่ยวข้องกับการปรับปรุงอัลกอริทึมการเรียนรู้ของเครื่องอย่างต่อเนื่อง ชุดข้อมูลการฝึกอบรมที่ดีขึ้น และเทคนิคการทำให้เป็นปกติที่ซับซ้อนยิ่งขึ้น การปรับใช้ในโลกแห่งความเป็นจริงมักจะนำเสนอความท้าทายใหม่ๆ ที่ไม่ได้คาดการณ์ไว้อย่างเต็มที่ในระหว่างขั้นตอนการฝึกอบรมเริ่มต้นของระบบ ซึ่งจำเป็นต้องมีการปรับเปลี่ยนและการเรียนรู้อย่างต่อเนื่อง

ทิศทางในอนาคต

ในอนาคต การผสานรวม ASR กับแง่มุมอื่นๆ ของปัญญาประดิษฐ์ เช่น การทำความเข้าใจภาษาธรรมชาติและการคำนวณที่ตระหนักถึงบริบท สัญญาว่าจะเพิ่มประสิทธิภาพการใช้งานจริงของระบบรู้จำเสียงพูดให้ดียิ่งขึ้น นวัตกรรมในสถาปัตยกรรมเครือข่ายประสาทเทียมและการใช้โมเดลการสร้างและการจำแนกที่เพิ่มขึ้นในการฝึกอบรมคาดว่าจะขับเคลื่อนความก้าวหน้าในเทคโนโลยี ASR

Word Error Rate เป็นตัวชี้วัดที่สำคัญสำหรับการประเมินประสิทธิภาพของระบบรู้จำเสียงอัตโนมัติ มันทำหน้าที่เป็นเกณฑ์มาตรฐานที่สะท้อนถึงความสามารถของระบบในการเข้าใจและถอดความภาษาพูดเป็นข้อความเขียน เมื่อเทคโนโลยีพัฒนาและเครื่องมือที่ซับซ้อนมากขึ้นพร้อมใช้งาน ศักยภาพในการบรรลุ WER ที่ต่ำลงและความเข้าใจภาษาที่ละเอียดอ่อนมากขึ้นยังคงเติบโตอย่างต่อเนื่อง กำหนดอนาคตของวิธีที่เรามีปฏิสัมพันธ์กับเครื่องจักร

คำถามที่พบบ่อย

อัตราความผิดพลาดของคำ (WER) เป็นตัวชี้วัดที่ใช้ประเมินความแม่นยำของระบบรู้จำเสียงอัตโนมัติโดยการเปรียบเทียบข้อความที่ถอดเสียงกับข้อความที่พูดต้นฉบับ

อัตรา WER ที่ดีจะแตกต่างกันไปตามการใช้งาน แต่โดยทั่วไปแล้ว อัตราที่ต่ำกว่า (ใกล้ 0%) บ่งบอกถึงความแม่นยำในการถอดเสียงที่ดีกว่า โดยอัตราต่ำกว่า 10% มักถือว่าเป็นคุณภาพสูง

ในข้อความ WER ย่อมาจาก Word Error Rate ซึ่งวัดเปอร์เซ็นต์ของข้อผิดพลาดในการถอดเสียงของระบบรู้จำเสียงเมื่อเทียบกับคำพูดต้นฉบับ

CER (Character Error Rate) วัดจำนวนข้อผิดพลาดในระดับตัวอักษรในการถอดเสียง ในขณะที่ WER (Word Error Rate) วัดจำนวนข้อผิดพลาดในระดับคำ

เพลิดเพลินกับเสียง AI ที่ล้ำสมัยที่สุด ไฟล์ไม่จำกัด และการสนับสนุนตลอด 24/7

ลองใช้ฟรี
tts banner for blog

แชร์บทความนี้