Speechify ประกาศในวันนี้ว่า Vikentii Pankov นักวิจัยจาก Speechify AI Research Lab เป็นผู้เขียนงานวิจัย “PFluxTTS: Hybrid Flow Matching TTS with Robust Cross Lingual Voice Cloning and Inference Time Model Fusion” ที่ได้รับการตอบรับให้นำเสนอในงานประชุม IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2026
ผลงานนี้นำเสนอ PFluxTTS ซึ่งเป็นระบบ แปลงข้อความเป็นเสียง แบบไฮบริดที่ออกแบบมาเพื่อยกระดับความพร้อมใช้งานสำหรับการโคลนเสียงและการสั่งงานหลายภาษา งานวิจัยอธิบายแนวทางที่มุ่งแก้ 3 ความท้าทายหลักในการสร้างเสียงด้วย flow matching ได้แก่ การต้องเลือกระหว่างเสถียรภาพหรือความเป็นธรรมชาติ, ความยากในการรักษาบุคลิกเสียงผู้พูดข้ามภาษา และข้อจำกัดในการสร้างคลื่นเสียงความละเอียดสูงเมื่อแปลงจากฟีเจอร์เสียงความละเอียดต่ำ
preprint ของงานวิจัยนี้ถูกเผยแพร่สู่สาธารณะบน arXiv พร้อมเดโมเสียงที่สามารถฟังได้บนเว็บไซต์ของโปรเจกต์
การตอบรับผลงานที่ ICASSP 2026 สะท้อนทิศทางวิจัยของ Speechify อย่างไร?
ICASSP เป็นหนึ่งในงานประชุมชั้นนำด้านการวิจัยเสียงและการประมวลผลสัญญาณอะคูสติก การได้รับการตอบรับสะท้อนถึงการยอมรับในผลงานวิจัยเชิงเทคนิคที่ขับเคลื่อนความก้าวหน้าระดับแนวหน้า ในเชิงกลยุทธ์ขององค์กร Speechify ผลงานนี้ช่วยตอกย้ำภาพลักษณ์ของ Speechify ในฐานะบริษัท AI ที่โฟกัสด้านเสียงและลงทุนกับงานวิจัยเชิงพื้นฐาน ไม่ได้หยุดแค่การพัฒนาฟีเจอร์สินค้า
Speechify พัฒนาเทคโนโลยีเสียงตั้งแต่ แปลงข้อความเป็นเสียง, แปลงเสียงเป็นข้อความ ไปจนถึงกระบวนการเสียงต่อเสียงที่ต่อยอดสู่ประสบการณ์ผู้ใช้จริง เช่น การฟังระยะยาว, เล่นเสียงความเร็วสูง, การพิมพ์ด้วยเสียง และการโต้ตอบกับเอกสารผ่านเสียง เมื่อ Speechify ตีพิมพ์งานวิจัยที่ได้รับการตอบรับในงานประชุมระดับนานาชาติ ยิ่งช่วยชี้ให้เห็นชัดว่า Speechify อยู่ในแนวหน้าของงานวิจัยที่กำหนดทิศทางระบบเสียงแห่งอนาคต
PFluxTTS คืออะไรและแก้ปัญหาอะไร?
PFluxTTS ถูกอธิบายว่าเป็นระบบ flow matching แปลงข้อความเป็นเสียงแบบไฮบริดที่ผสานโมเดลสองแบบไว้ในครั้งประมวลผลเดียว ตามเนื้อหางานวิจัย หนึ่งเส้นทางจะใช้การควบคุมระยะเวลาซึ่งช่วยเพิ่มเสถียรภาพในการจัดวางและลดปัญหาอย่างเช่นการข้ามคำ อีกเส้นทางเป็นแบบไม่ต้องจัดวางซึ่งช่วยเพิ่มความลื่นไหลและความเป็นธรรมชาติ PFluxTTS ผสานสองแนวทางนี้ผ่านการรวมเวกเตอร์ฟิลด์ในขณะใช้งานจริง หมายความว่าระบบจะผสมแนวคิดของทั้งสองโมเดลในกระบวนการสร้างเสียง แทนที่จะต้องเลือกใช้แบบใดแบบหนึ่งเพียงอย่างเดียว
ประเด็นนี้สำคัญเพราะหลายทีมที่พัฒนาเสียงพบว่า แม้โมเดลจะฟังดูดีในเดโมสั้นๆ แต่อาจล้มเหลวในสถานการณ์จริง โดยเฉพาะเมื่อข้อความนำเข้าเป็นคนละภาษา มีความวุ่นวาย หรือเป็นบทสนทนา ระบบเสียงที่ใช้จริงต้องฟังชัดเจน, รักษาเอกลักษณ์เสียง และควบคุมจังหวะเวลาได้อย่างเสถียรภายใต้เนื้อหาและสภาพแวดล้อมที่หลากหลาย
PFluxTTS ปรับปรุงความน่าเชื่อถือของ voice cloning ข้ามภาษาอย่างไร?
การโคลนเสียงข้ามภาษานั้นยากเพราะเอกลักษณ์ผู้พูดไม่ใช่เวกเตอร์คงที่ คุณลักษณะเสียงจริงๆ ของผู้พูดแปรผันไปตามเวลาและสภาพแวดล้อมของแต่ละคำพูด งานวิจัยชี้ว่าการฝังเสียงแบบเวกเตอร์คงที่อาจทิ้งรายละเอียดเฉพาะตัวที่เปลี่ยนแปลงตามเวลา ซึ่งสำคัญมากเมื่อภาษาในข้อความกับภาษาปลายทางต่างกัน
PFluxTTS แก้โจทย์นี้โดยใช้ embedding ของชุดคำสั่งเสียงต่อเนื่องในดีโคเดอร์แบบ FLUX ซึ่งออกแบบมาให้รักษาเอกลักษณ์เสียงของผู้พูดข้ามภาษาได้ดีขึ้นโดยไม่ต้องพึ่งข้อความถอดเสียงจาก prompt
ผลลัพธ์คือระบบที่ออกแบบมาให้คงบุคลิกเสียงผู้พูด แม้จะใช้ข้อความนำเข้าคนละภาษากับข้อความปลายทาง หรือแม้แต่เมื่อบันทึกเสียงตัวอย่างในสภาพแวดล้อมจริงแทนสตูดิโอ
“Inference time model fusion” คืออะไร แบบเข้าใจง่าย?
ส่วนใหญ่ระบบเสียงจะเลือกโมเดลแบบใดแบบหนึ่งแล้วรับข้อจำกัดที่ตามมา แต่ PFluxTTS ใช้แนวทางไฮบริดขณะสร้างเสียงจริง งานวิจัยอธิบายการรวมเวกเตอร์ฟิลด์ที่ฝึกมาแยกกันเข้าด้วยกันระหว่างการคำนวณ ODE เดียว ทำให้ระบบใช้เส้นทางที่ควบคุมระยะเวลาช่วยเสถียรภาพในช่วงต้น แล้วให้เส้นทางไร้การควบคุมระยะเวลามาช่วยเติมความเป็นธรรมชาติและความลื่นไหลในช่วงหลัง
สรุปง่ายๆ คือ ระบบเริ่มต้นด้วยความปลอดภัยและเสถียรสูง แล้วจบด้วยความเป็นธรรมชาติและการแสดงออกสูง ซึ่งช่วยลดปัญหา “ต้องเลือกเอาเสถียรภาพหรือความเป็นธรรมชาติ” ให้กับทีมที่ต้องพัฒนาระบบเสียงขนาดใหญ่
PFluxTTS แก้ปัญหาคุณภาพเสียงและการสร้างเสียง 48 kHz อย่างไร?
หลายกระบวนการ TTS สร้าง mel spectrogram ที่มีความละเอียดไม่พอจะถ่ายทอดความถี่สูงได้ครบถ้วน แล้วจึงใช้ vocoder แปลงเป็นเสียง งานวิจัยนี้นำเสนอ PeriodWave vocoder เวอร์ชันใหม่ที่ใช้เทคนิค super resolution เพื่อสร้างเสียง 48 kHz จาก mel ความละเอียดต่ำ
สำหรับผู้ใช้และนักพัฒนา การสร้างเสียงความละเอียดสูงหมายถึงได้เสียง sibilant ที่ชัดกว่า, transient ที่ใสกว่า และรายละเอียดความถี่สูงที่สมจริงขึ้น เหมาะกับการบรรยายมืออาชีพหรือการฟังงานเสียงระยะยาวที่ต้องการลดสิ่งรบกวนในเสียงให้เหลือน้อยที่สุด
งานวิจัยนี้รายงานสมรรถนะอะไรบ้าง?
บทคัดย่อบน arXiv รายงานว่า PFluxTTS ผ่านการทดสอบกับข้อมูลข้ามภาษาในสภาพแวดล้อมจริงและมีสมรรถนะเหนือกว่า baseline แบบ open source หลายตัวที่ยกมาในบทคัดย่อ สามารถให้ผลลัพธ์ด้านความเป็นธรรมชาติเทียบเท่า baseline ชั้นนำ พร้อมยกระดับคะแนนความชัดเจนของคำพูด และมีความใกล้เคียงเสียงผู้พูดต้นฉบับเหนือกว่าอ้างอิงเชิงพาณิชย์หลักภายใต้เงื่อนไขการทดสอบ
Speechify สนับสนุนนักวิจัย นักพัฒนา และพันธมิตรให้เข้ามาตรวจสอบงานนี้ด้วยตัวเองผ่าน preprint สาธารณะและเดโมเสียง ซึ่งออกแบบมาเพื่อให้ทุกคนได้ยินผลลัพธ์จริงในสภาพการสั่งงานข้ามภาษา
ผู้อ่านจะค้นหางานวิจัยและเดโมเพื่ออ้างอิงได้ที่ไหน?
preprint ของ PFluxTTS มีให้บริการบน arXiv ภายใต้รหัส 2602.04160 โดยเว็บไซต์โปรเจกต์จะรวบรวมทั้งสรุปงานและตัวอย่างเสียงไว้ด้วย
ทำไมงานนี้จึงสำคัญกับอนาคตของ Voice AI จาก Speechify?
Voice AI กำลังก้าวจากเดโมเพื่อความแปลกใหม่ไปสู่บทบาทเป็นโครงสร้างพื้นฐานในชีวิตประจำวัน มาตรฐานการใช้งานจึงสูงขึ้น ระบบต้องมีเสถียรภาพติดต่อกันหลายชั่วโมง, รองรับการสั่งงานข้ามภาษา, รักษาเอกลักษณ์เสียงผู้พูด และให้เสียงชัด หน่วงต่ำ ในสภาพแวดล้อมจริง
Speechify ให้ความสำคัญกับงานวิจัยที่ตอบโจทย์การใช้งานจริง งานอย่าง PFluxTTS สะท้อนทิศทางวิจัยเสียงสมัยใหม่ เช่น โครงสร้างไฮบริดที่ลดช่องว่างระหว่างเสถียรภาพกับความเป็นธรรมชาติ, การโคลนเสียงข้ามภาษาที่ทนทาน และระบบที่ยกระดับคุณภาพเสียงสำเร็จรูป ไม่ใช่แค่เพิ่มฟีเจอร์ระหว่างทาง
Speechify จะเดินหน้าลงทุนในงานวิจัยที่ผลักดัน Voice AI เชิงปฏิบัติ เผยแพร่งานในเวทีชั้นนำ และแปลงองค์ความรู้นั้นให้กลายเป็นคุณภาพสินค้าสำหรับผู้ใช้ รวมถึงเป็นโครงสร้างพื้นฐานเสียงที่เชื่อถือได้สำหรับนักพัฒนาที่สร้างประสบการณ์แบบ voice-first
เกี่ยวกับ Speechify
Speechify คือบริษัท AI ที่เน้นเทคโนโลยีเสียงเพื่อช่วยให้ผู้คนอ่าน เขียน และเข้าใจข้อมูลผ่านเสียง ได้รับความไว้วางใจจากผู้ใช้กว่า 50 ล้านคนทั่วโลก Speechify ขับเคลื่อนการอ่านด้วย AI, การเขียนด้วย AI, พอดแคสต์ AI, การจดโน้ตด้วย AI, การประชุมด้วย AI และ AI สำหรับการ เพิ่มประสิทธิภาพ ทั้งในตลาดผู้บริโภคและองค์กร งานวิจัยและโมเดลเสียงเฉพาะตัวของ Speechify รองรับเสียงเสมือนจริงมากกว่า 60 ภาษา และถูกใช้อย่างกว้างขวางในงานด้านองค์ความรู้และ การเข้าถึงสำหรับคนพิการ ทั่วโลก