Social Proof

Microsoft VALL-E คืออะไร?

Speechify เป็นโปรแกรมอ่านเสียงอันดับ 1 ของโลก อ่านหนังสือ เอกสาร บทความ PDF อีเมล - ทุกอย่างที่คุณอ่าน - ได้เร็วขึ้น

แนะนำใน

forbes logocbs logotime magazine logonew york times logowall street logo
ฟังบทความนี้ด้วย Speechify!
Speechify

Microsoft VALL-E เป็นเทคโนโลยีล่าสุดที่สามารถสร้างเสียงพูดที่ฟังดูเป็นธรรมชาติอย่างสมบูรณ์แบบ นี่คือการวิเคราะห์รายละเอียดของเทคโนโลยีนี้

เทคโนโลยีแปลงข้อความเป็นเสียงได้ก้าวหน้าอย่างมากในช่วงไม่กี่ปีที่ผ่านมา ด้วยการพัฒนาของปัญญาประดิษฐ์ TTS ในปัจจุบันสามารถสร้างเสียงที่มีคุณภาพสูงเลียนแบบการพูดของมนุษย์ได้

VALL-E ของ Microsoft เป็นโซลูชันเทคโนโลยีล่าสุดที่อาจทำให้การแปลงข้อความเป็นเสียงฟังดูน่าทึ่ง มันเป็นโมเดลภาษารหัสประสาทที่ใช้การเรียนรู้ของเครื่องแบบ zero-shot

ถ้าประโยคสุดท้ายฟังดูเหมือนเทคโนโลยีในนิยายวิทยาศาสตร์ ไม่ต้องกังวล เราจะอธิบายแนวคิดที่ซับซ้อนเบื้องหลัง VALL-E ในบทความด้านล่าง

อธิบาย Microsoft VALL-E

โมเดล AI กำลังเติบโตอย่างรวดเร็ว ทุกคนรู้จัก ChatGPT ของ OpenAI ซึ่งอาจเป็น AI ที่ใกล้เคียงกับมนุษย์มากที่สุด และคุณอาจเคยเห็นงานศิลปะที่สร้างโดย AI จากเครื่องยนต์ DALL-E

นอกจากสตาร์ทอัพอย่าง OpenAI แล้ว บริษัทระดับโลกอย่าง Microsoft ก็เป็นผู้เล่นสำคัญในวงการ AI

นักวิจัยของ Microsoft ได้ทำงานเกี่ยวกับการพัฒนาเทคโนโลยีแปลงข้อความเป็นเสียง VALL-E เป็นตัวแทนของการพัฒนานั้น

AI ใหม่นี้อาจเปลี่ยนแปลงวงการ TTS เพราะสามารถสร้างเสียงที่ฟังดูเหมือนมนุษย์จากตัวอย่างเสียงขนาดเล็กเพียงสามวินาที VALL-E สามารถจับรูปแบบการพูดของผู้พูดได้จากตัวอย่างเสียงสั้นๆ

หลังจากได้รับตัวอย่างเสียง AI สามารถเลียนเสียงของมนุษย์และจำลองโทนอารมณ์ของพวกเขาได้อย่างน่าประทับใจ VALL-E ยังสามารถรักษาสภาพแวดล้อมเสียงของผู้พูดที่ไม่เคยเห็นได้

พูดง่ายๆ โมเดล VALL-E โดดเด่นในเรื่องความคล้ายคลึงของเสียงผู้พูด คุณสามารถฟังการทำงานของมันได้บน GitHub ที่ Microsoft ได้แชร์ตัวอย่างเสียงพร้อมคำอธิบายรายละเอียดของ AI

แน่นอนว่าเทคโนโลยีนี้มีการใช้งานที่หลากหลาย เช่น การสร้างพอดแคสต์และหนังสือเสียง โอกาสอาจเติบโตขึ้นเมื่อ VALL-E รวมกับโมเดลการสร้างเช่น GPT-3

แต่เทคโนโลยีอย่าง VALL-E อาจถูกใช้ในทางที่ไม่ดีได้เช่นกัน

เนื่องจาก VALL-E สามารถฟังดูเหมือนคนจริงๆ ได้อย่างน่ากลัว จึงไม่ยากที่จะเห็นว่าผู้ไม่หวังดีอาจใช้เทคโนโลยีนี้ในการหลอกลวง เช่น deepfake ที่เป็นอันตราย Microsoft จึงได้ออกแถลงการณ์ด้านจริยธรรม

ในแถลงการณ์ บริษัทสนับสนุนโมเดลการแก้ไขเสียงที่เฉพาะเจาะจงซึ่งจะรับรองการยินยอมจากผู้พูดต้นฉบับ

แต่ข้อโต้แย้งเกี่ยวกับการใช้งาน VALL-E ในอนาคตยังคงเป็นเรื่องที่ต้องพิจารณา สำหรับตอนนี้มีคำถามที่น่าตื่นเต้นมากกว่า:

AI ทำซ้ำรูปแบบที่ซับซ้อนได้อย่างไรด้วยตัวอย่างเสียงเพียงสามวินาที?

ไม่น่าแปลกใจที่คำตอบค่อนข้างซับซ้อน

VALL-E ได้รับการฝึกฝนด้วยข้อมูลจำนวนมาก ประกอบด้วยชั่วโมงการพูดภาษาอังกฤษหลายพันชั่วโมง ซึ่งเตรียม AI ให้พร้อมสำหรับการจำลองเสียงภาษาอังกฤษอย่างไร้รอยต่อ อย่างไรก็ตาม VALL-E ไม่ใช่ระบบ TTS ทั่วไป มันขับเคลื่อนด้วยเทคโนโลยีการเรียนรู้ของเครื่องที่ล้ำสมัย

เราได้กล่าวถึงชื่อเทคโนโลยีนี้แล้ว: โมเดลภาษารหัสประสาทแบบ zero-shot มาดูกันว่าคำเหล่านี้หมายถึงอะไรในทางปฏิบัติ

ทำความเข้าใจโมเดลภาษารหัสประสาทแบบ zero-shot

เริ่มจากคำที่เข้าใจง่ายกว่า “zero-shot” หมายถึงเทคโนโลยีเฉพาะสำหรับเครื่องแปลงข้อความเป็นเสียง มันช่วยให้ AI สร้างเสียงจากข้อมูลที่ไม่เคยรู้จักมาก่อน กล่าวอีกนัยหนึ่งคือคอมพิวเตอร์สามารถอ่านออกเสียงข้อความที่ไม่เคย “เห็น” มาก่อนได้

ที่น่าประทับใจยิ่งกว่านั้น เทคโนโลยี zero-shot ช่วยให้เครื่องสามารถสร้างเสียงได้โดยไม่ต้องฝึกฝนเพิ่มเติม ซึ่งคล้ายกับวิธีที่มนุษย์สามารถอ่านข้อความที่ไม่คุ้นเคยในภาษาที่พวกเขารู้จักอยู่แล้ว

มาถึงส่วนที่ซับซ้อนกว่า “โมเดลภาษารหัสประสาท” ต้องการการอธิบายเพิ่มเติม

เครื่องแปลงข้อความเป็นเสียงพึ่งพารหัสเสียงในการสร้างคลื่นเสียงจากข้อความที่เขียน รหัสช่วยให้ AI แปลตัวอักษร คำ และประโยคที่เขียนเป็นเสียงที่สอดคล้องกัน รหัสประสาททำหน้าที่เดียวกันแต่ใช้เครือข่ายประสาทที่แข็งแกร่ง

แน่นอนว่านี่ทำให้เกิดคำถามเพิ่มเติม: เครือข่ายประสาทคืออะไร?

เราจะอธิบายที่นี่ในภาพรวมโดยไม่ลงลึก เครือข่ายประสาทพยายามเลียนแบบการทำงานของสมองมนุษย์ เครือข่ายประกอบด้วยเซลล์ประสาทเทียมที่เรียกว่าโหนด ซึ่งเชื่อมต่อและจัดเรียงเป็นชั้นๆ

โครงสร้างที่ซับซ้อนนี้ทำให้เกิดการเรียนรู้เชิงลึก ทำให้เครื่องมีความสามารถในการพัฒนาและปรับตัวกับรูปแบบที่ไม่คุ้นเคย

โค้ดประสาทเป็นพลังให้กับโมเดลภาษา ซึ่งเป็นส่วนหนึ่งของสมการ แปลงข้อความเป็นเสียง นี้

โมเดลภาษาดึงข้อมูลจากชุดข้อมูลเพื่อทำความเข้าใจข้อความใด ๆ ในบริบทของภาษาจริง กล่าวอีกนัยหนึ่ง นี่คือวิธีที่เครื่อง "เข้าใจ" ข้อความ

ในกรณีของ VALL-E, LibriLight ซึ่งเป็นห้องสมุดเสียงที่รวบรวมโดย Meta ของ Facebook ทำหน้าที่เป็นพื้นฐานของโมเดลภาษา AI

ฟังเทคโนโลยี TTS ล้ำสมัยในการทำงานกับ Speechify

แม้ว่า VALL-E จะยังไม่เปิดให้สาธารณชนใช้งาน แต่คุณสามารถฟังเสียงของเครื่อง แปลงข้อความเป็นเสียง ขั้นสูงได้กับ Speechify ซึ่งเป็นบริการ TTS ที่สามารถอ่านออกเสียงข้อความจากแหล่งใดก็ได้

ไม่ว่าคุณจะให้ข้อความที่เขียน เนื้อหาเว็บ หรือหน้าที่สแกนมา Speechify จะอ่านให้คุณทันที ยิ่งไปกว่านั้น เครื่องยังมีเสียงบรรยายที่ฟังดูเป็นธรรมชาติ ไม่เหมือนกับเครื่อง TTS ทั่วไปที่ฟังดูเหมือนหุ่นยนต์ Speechify ฟังดูเหมือนมนุษย์มากกว่าเครื่องจักร

นอกจากนี้ คุณยังสามารถปรับแต่งวิธีการอ่านของ Speechify ได้ เลือกภาษาที่คุณต้องการ ผู้บรรยาย และความเร็วในการอ่าน แล้วฟังข้อความใด ๆ ได้ตามที่คุณต้องการ

หากทั้งหมดนี้ฟังดูน่าสนใจ คุณสามารถ ลองใช้ Speechify ฟรี ได้วันนี้

คำถามที่พบบ่อย

คนทั่วไปสามารถใช้ Vall-E ได้หรือไม่?

มีความกังวลมากมายเกี่ยวกับการที่ VALL-E อาจถูกนำไปใช้ในทางที่ผิด การขโมยข้อมูลส่วนตัวเป็นสิ่งที่น่ากังวลเป็นพิเศษ ด้วยเหตุนี้ Microsoft จึงเลือกที่จะไม่เปิดให้ VALL-E ใช้งานได้สาธารณะ

Microsoft AI คืออะไร?

Microsoft AI ไม่ใช่ผลิตภัณฑ์เฉพาะ แต่เป็นกรอบการพัฒนา AI ของบริษัท ซึ่งรวมถึงโซลูชันด้านวิทยาศาสตร์ข้อมูล AI สำหรับการสนทนา หุ่นยนต์ การเรียนรู้ของเครื่อง และความก้าวหน้าอื่น ๆ ในอุตสาหกรรม

อินเทอร์เฟซที่ขับเคลื่อนด้วยเสียงคืออะไร?

อินเทอร์เฟซที่ขับเคลื่อนด้วยเสียงคือสิ่งที่คุณสามารถโต้ตอบได้ผ่านคำสั่งเสียง เทคโนโลยีนี้เป็นที่แพร่หลายในอุปกรณ์อัจฉริยะ เช่น Alexa ของ Amazon, Siri ของ Apple, Cortana ของ Microsoft หรือ Assistant ของ Google

หุ่นยนต์คืออะไร?

คำว่า “หุ่นยนต์” หมายถึงเครื่องจักรใด ๆ ที่ทำงานโดยอัตโนมัติ เครื่องจักรเหล่านี้ถูกออกแบบมาเพื่อทดแทนแรงงานมนุษย์ แม้ว่าจะมีการนำเสนอในสื่อยอดนิยมว่าเป็นมนุษย์ แต่หุ่นยนต์ส่วนใหญ่ไม่ได้มีลักษณะเหมือนมนุษย์เลย ในความเป็นจริง พวกมันอาจไม่มีรูปร่างทางกายภาพด้วยซ้ำ ตัวอย่างเช่น ผู้ช่วยเสมือนที่ได้รับความนิยมในปัจจุบันก็ถือเป็นหุ่นยนต์เช่นกัน

Cliff Weitzman

คลิฟ ไวซ์แมน

คลิฟ ไวซ์แมน เป็นผู้สนับสนุนด้านดิสเล็กเซียและเป็น CEO และผู้ก่อตั้ง Speechify แอปพลิเคชันแปลงข้อความเป็นเสียงอันดับ 1 ของโลก ที่มีรีวิว 5 ดาวมากกว่า 100,000 รีวิว และครองอันดับหนึ่งใน App Store ในหมวดข่าวและนิตยสาร ในปี 2017 ไวซ์แมนได้รับการยกย่องในรายชื่อ Forbes 30 under 30 จากผลงานของเขาในการทำให้อินเทอร์เน็ตเข้าถึงได้มากขึ้นสำหรับผู้ที่มีความบกพร่องในการเรียนรู้ คลิฟ ไวซ์แมน ได้รับการนำเสนอใน EdSurge, Inc., PC Mag, Entrepreneur, Mashable และสื่อชั้นนำอื่น ๆ