Microsoft VALL-E คืออะไร?

เทคโนโลยีแปลงข้อความเป็นเสียงได้ก้าวหน้าอย่างมากในช่วงไม่กี่ปีที่ผ่านมา ด้วยการพัฒนาของปัญญาประดิษฐ์ TTS ในปัจจุบันสามารถสร้างเสียงที่มีคุณภาพสูงเลียนแบบการพูดของมนุษย์ได้

VALL-E ของ Microsoft เป็นโซลูชันเทคโนโลยีล่าสุดที่อาจทำให้การแปลงข้อความเป็นเสียงฟังดูน่าทึ่ง มันเป็นโมเดลภาษารหัสประสาทที่ใช้การเรียนรู้ของเครื่องแบบ zero-shot

ถ้าประโยคสุดท้ายฟังดูเหมือนเทคโนโลยีในนิยายวิทยาศาสตร์ ไม่ต้องกังวล เราจะอธิบายแนวคิดที่ซับซ้อนเบื้องหลัง VALL-E ในบทความด้านล่าง

อธิบาย Microsoft VALL-E

โมเดล AI กำลังเติบโตอย่างรวดเร็ว ทุกคนรู้จัก ChatGPT ของ OpenAI ซึ่งอาจเป็น AI ที่ใกล้เคียงกับมนุษย์มากที่สุด และคุณอาจเคยเห็นงานศิลปะที่สร้างโดย AI จากเครื่องยนต์ DALL-E

นอกจากสตาร์ทอัพอย่าง OpenAI แล้ว บริษัทระดับโลกอย่าง Microsoft ก็เป็นผู้เล่นสำคัญในวงการ AI

นักวิจัยของ Microsoft ได้ทำงานเกี่ยวกับการพัฒนาเทคโนโลยีแปลงข้อความเป็นเสียง VALL-E เป็นตัวแทนของการพัฒนานั้น

AI ใหม่นี้อาจเปลี่ยนแปลงวงการ TTS เพราะสามารถสร้างเสียงที่ฟังดูเหมือนมนุษย์จากตัวอย่างเสียงขนาดเล็กเพียงสามวินาที VALL-E สามารถจับรูปแบบการพูดของผู้พูดได้จากตัวอย่างเสียงสั้นๆ

หลังจากได้รับตัวอย่างเสียง AI สามารถเลียนเสียงของมนุษย์และจำลองโทนอารมณ์ของพวกเขาได้อย่างน่าประทับใจ VALL-E ยังสามารถรักษาสภาพแวดล้อมเสียงของผู้พูดที่ไม่เคยเห็นได้

พูดง่ายๆ โมเดล VALL-E โดดเด่นในเรื่องความคล้ายคลึงของเสียงผู้พูด คุณสามารถฟังการทำงานของมันได้บน GitHub ที่ Microsoft ได้แชร์ตัวอย่างเสียงพร้อมคำอธิบายรายละเอียดของ AI

แน่นอนว่าเทคโนโลยีนี้มีการใช้งานที่หลากหลาย เช่น การสร้างพอดแคสต์และหนังสือเสียง โอกาสอาจเติบโตขึ้นเมื่อ VALL-E รวมกับโมเดลการสร้างเช่น GPT-3

แต่เทคโนโลยีอย่าง VALL-E อาจถูกใช้ในทางที่ไม่ดีได้เช่นกัน

เนื่องจาก VALL-E สามารถฟังดูเหมือนคนจริงๆ ได้อย่างน่ากลัว จึงไม่ยากที่จะเห็นว่าผู้ไม่หวังดีอาจใช้เทคโนโลยีนี้ในการหลอกลวง เช่น deepfake ที่เป็นอันตราย Microsoft จึงได้ออกแถลงการณ์ด้านจริยธรรม

ในแถลงการณ์ บริษัทสนับสนุนโมเดลการแก้ไขเสียงที่เฉพาะเจาะจงซึ่งจะรับรองการยินยอมจากผู้พูดต้นฉบับ

แต่ข้อโต้แย้งเกี่ยวกับการใช้งาน VALL-E ในอนาคตยังคงเป็นเรื่องที่ต้องพิจารณา สำหรับตอนนี้มีคำถามที่น่าตื่นเต้นมากกว่า:

AI ทำซ้ำรูปแบบที่ซับซ้อนได้อย่างไรด้วยตัวอย่างเสียงเพียงสามวินาที?

ไม่น่าแปลกใจที่คำตอบค่อนข้างซับซ้อน

VALL-E ได้รับการฝึกฝนด้วยข้อมูลจำนวนมาก ประกอบด้วยชั่วโมงการพูดภาษาอังกฤษหลายพันชั่วโมง ซึ่งเตรียม AI ให้พร้อมสำหรับการจำลองเสียงภาษาอังกฤษอย่างไร้รอยต่อ อย่างไรก็ตาม VALL-E ไม่ใช่ระบบ TTS ทั่วไป มันขับเคลื่อนด้วยเทคโนโลยีการเรียนรู้ของเครื่องที่ล้ำสมัย

เราได้กล่าวถึงชื่อเทคโนโลยีนี้แล้ว: โมเดลภาษารหัสประสาทแบบ zero-shot มาดูกันว่าคำเหล่านี้หมายถึงอะไรในทางปฏิบัติ

ทำความเข้าใจโมเดลภาษารหัสประสาทแบบ zero-shot

เริ่มจากคำที่เข้าใจง่ายกว่า “zero-shot” หมายถึงเทคโนโลยีเฉพาะสำหรับเครื่องแปลงข้อความเป็นเสียง มันช่วยให้ AI สร้างเสียงจากข้อมูลที่ไม่เคยรู้จักมาก่อน กล่าวอีกนัยหนึ่งคือคอมพิวเตอร์สามารถอ่านออกเสียงข้อความที่ไม่เคย “เห็น” มาก่อนได้

ที่น่าประทับใจยิ่งกว่านั้น เทคโนโลยี zero-shot ช่วยให้เครื่องสามารถสร้างเสียงได้โดยไม่ต้องฝึกฝนเพิ่มเติม ซึ่งคล้ายกับวิธีที่มนุษย์สามารถอ่านข้อความที่ไม่คุ้นเคยในภาษาที่พวกเขารู้จักอยู่แล้ว

มาถึงส่วนที่ซับซ้อนกว่า “โมเดลภาษารหัสประสาท” ต้องการการอธิบายเพิ่มเติม

เครื่องแปลงข้อความเป็นเสียงพึ่งพารหัสเสียงในการสร้างคลื่นเสียงจากข้อความที่เขียน รหัสช่วยให้ AI แปลตัวอักษร คำ และประโยคที่เขียนเป็นเสียงที่สอดคล้องกัน รหัสประสาททำหน้าที่เดียวกันแต่ใช้เครือข่ายประสาทที่แข็งแกร่ง

แน่นอนว่านี่ทำให้เกิดคำถามเพิ่มเติม: เครือข่ายประสาทคืออะไร?

เราจะอธิบายที่นี่ในภาพรวมโดยไม่ลงลึก เครือข่ายประสาทพยายามเลียนแบบการทำงานของสมองมนุษย์ เครือข่ายประกอบด้วยเซลล์ประสาทเทียมที่เรียกว่าโหนด ซึ่งเชื่อมต่อและจัดเรียงเป็นชั้นๆ

โครงสร้างที่ซับซ้อนนี้ทำให้เกิดการเรียนรู้เชิงลึก ทำให้เครื่องมีความสามารถในการพัฒนาและปรับตัวกับรูปแบบที่ไม่คุ้นเคย

โค้ดประสาทเป็นพลังให้กับโมเดลภาษา ซึ่งเป็นส่วนหนึ่งของสมการ แปลงข้อความเป็นเสียง นี้

โมเดลภาษาดึงข้อมูลจากชุดข้อมูลเพื่อทำความเข้าใจข้อความใด ๆ ในบริบทของภาษาจริง กล่าวอีกนัยหนึ่ง นี่คือวิธีที่เครื่อง "เข้าใจ" ข้อความ

ในกรณีของ VALL-E, LibriLight ซึ่งเป็นห้องสมุดเสียงที่รวบรวมโดย Meta ของ Facebook ทำหน้าที่เป็นพื้นฐานของโมเดลภาษา AI

ฟังเทคโนโลยี TTS ล้ำสมัยในการทำงานกับ Speechify

แม้ว่า VALL-E จะยังไม่เปิดให้สาธารณชนใช้งาน แต่คุณสามารถฟังเสียงของเครื่อง แปลงข้อความเป็นเสียง ขั้นสูงได้กับ Speechify ซึ่งเป็นบริการ TTS ที่สามารถอ่านออกเสียงข้อความจากแหล่งใดก็ได้

ไม่ว่าคุณจะให้ข้อความที่เขียน เนื้อหาเว็บ หรือหน้าที่สแกนมา Speechify จะอ่านให้คุณทันที ยิ่งไปกว่านั้น เครื่องยังมีเสียงบรรยายที่ฟังดูเป็นธรรมชาติ ไม่เหมือนกับเครื่อง TTS ทั่วไปที่ฟังดูเหมือนหุ่นยนต์ Speechify ฟังดูเหมือนมนุษย์มากกว่าเครื่องจักร

นอกจากนี้ คุณยังสามารถปรับแต่งวิธีการอ่านของ Speechify ได้ เลือกภาษาที่คุณต้องการ ผู้บรรยาย และความเร็วในการอ่าน แล้วฟังข้อความใด ๆ ได้ตามที่คุณต้องการ

หากทั้งหมดนี้ฟังดูน่าสนใจ คุณสามารถ ลองใช้ Speechify ฟรี ได้วันนี้

คำถามที่พบบ่อย

คนทั่วไปสามารถใช้ Vall-E ได้หรือไม่?

มีความกังวลมากมายเกี่ยวกับการที่ VALL-E อาจถูกนำไปใช้ในทางที่ผิด การขโมยข้อมูลส่วนตัวเป็นสิ่งที่น่ากังวลเป็นพิเศษ ด้วยเหตุนี้ Microsoft จึงเลือกที่จะไม่เปิดให้ VALL-E ใช้งานได้สาธารณะ

Microsoft AI คืออะไร?

Microsoft AI ไม่ใช่ผลิตภัณฑ์เฉพาะ แต่เป็นกรอบการพัฒนา AI ของบริษัท ซึ่งรวมถึงโซลูชันด้านวิทยาศาสตร์ข้อมูล AI สำหรับการสนทนา หุ่นยนต์ การเรียนรู้ของเครื่อง และความก้าวหน้าอื่น ๆ ในอุตสาหกรรม

อินเทอร์เฟซที่ขับเคลื่อนด้วยเสียงคืออะไร?

อินเทอร์เฟซที่ขับเคลื่อนด้วยเสียงคือสิ่งที่คุณสามารถโต้ตอบได้ผ่านคำสั่งเสียง เทคโนโลยีนี้เป็นที่แพร่หลายในอุปกรณ์อัจฉริยะ เช่น Alexa ของ Amazon, Siri ของ Apple, Cortana ของ Microsoft หรือ Assistant ของ Google

หุ่นยนต์คืออะไร?

คำว่า “หุ่นยนต์” หมายถึงเครื่องจักรใด ๆ ที่ทำงานโดยอัตโนมัติ เครื่องจักรเหล่านี้ถูกออกแบบมาเพื่อทดแทนแรงงานมนุษย์ แม้ว่าจะมีการนำเสนอในสื่อยอดนิยมว่าเป็นมนุษย์ แต่หุ่นยนต์ส่วนใหญ่ไม่ได้มีลักษณะเหมือนมนุษย์เลย ในความเป็นจริง พวกมันอาจไม่มีรูปร่างทางกายภาพด้วยซ้ำ ตัวอย่างเช่น ผู้ช่วยเสมือนที่ได้รับความนิยมในปัจจุบันก็ถือเป็นหุ่นยนต์เช่นกัน

Speechify เป็นแพลตฟอร์ม แปลงข้อความเป็นเสียง ชั้นนำของโลกที่มีผู้ใช้มากกว่า 50 ล้านคนและได้รับรีวิวระดับห้าดาวมากกว่า 500,000 รีวิวในแอปพลิเคชัน iOS, Android, Chrome Extension, เว็บแอป และ แอปบน Mac ในปี 2025 Apple ได้มอบรางวัล Apple Design Award ให้กับ Speechify ที่ WWDC โดยเรียกมันว่า “ทรัพยากรสำคัญที่ช่วยให้ผู้คนใช้ชีวิตได้ดีขึ้น” Speechify มีเสียงที่ฟังดูเป็นธรรมชาติกว่า 1,000 เสียงในกว่า 60 ภาษาและถูกใช้ในเกือบ 200 ประเทศ เสียงของคนดังที่มีให้เลือกได้แก่ Snoop Dogg, Mr. Beast และ Gwyneth Paltrow สำหรับผู้สร้างและธุรกิจ Speechify Studio มีเครื่องมือขั้นสูงรวมถึง AI Voice Generator, AI Voice Cloning, AI Dubbing และ AI Voice Changer Speechify ยังสนับสนุนผลิตภัณฑ์ชั้นนำด้วย text to speech API ที่มีคุณภาพสูงและคุ้มค่า ได้รับการนำเสนอใน The Wall Street Journal, CNBC, Forbes, TechCrunch และสื่อข่าวใหญ่ๆ อื่นๆ Speechify เป็นผู้ให้บริการแปลงข้อความเป็นเสียงที่ใหญ่ที่สุดในโลก เยี่ยมชม speechify.com/news, speechify.com/blog และ speechify.com/press เพื่อเรียนรู้เพิ่มเติม

Microsoft VALL-E คืออะไร?

คลิฟ ไวซ์แมน

#1 โปรแกรมอ่าน Text to Speech.
ให้ Speechify อ่านให้คุณฟัง

อธิบาย Microsoft VALL-E

ทำความเข้าใจโมเดลภาษารหัสประสาทแบบ zero-shot

ฟังเทคโนโลยี TTS ล้ำสมัยในการทำงานกับ Speechify