- หน้าแรก
- เพิ่มประสิทธิภาพ
- ก้าวเข้าสู่โลกของซอฟต์แวร์สังเคราะห์เสียงแบบโอเพ่นซอร์ส: รีวิวที่ครอบคลุม
ก้าวเข้าสู่โลกของซอฟต์แวร์สังเคราะห์เสียงแบบโอเพ่นซอร์ส: รีวิวที่ครอบคลุม
แนะนำใน
การสังเคราะห์เสียง หรือที่รู้จักกันในชื่อการสังเคราะห์ข้อความเป็นเสียง (TTS) เป็นเทคโนโลยีที่แปลงข้อความที่เขียนเป็นคำพูด เทคโนโลยีนี้มีการใช้งานหลากหลาย...
การสังเคราะห์เสียง หรือที่รู้จักกันในชื่อการสังเคราะห์ข้อความเป็นเสียง (TTS) เป็นเทคโนโลยีที่แปลงข้อความที่เขียนเป็นคำพูด เทคโนโลยีนี้มีการใช้งานหลากหลาย เช่น ช่วยเหลือผู้ที่มีความบกพร่องทางร่างกาย การเรียนรู้ภาษา การนำทาง GPS และอื่นๆ อีกมากมาย ด้วยการมาของโอเพ่นซอร์ส เครื่องมือสังเคราะห์ข้อความเป็นเสียงจำนวนมากได้เกิดขึ้น บทความนี้จะพาคุณสำรวจโลกของซอฟต์แวร์สังเคราะห์เสียงแบบโอเพ่นซอร์ส
ก่อนอื่นต้องทราบว่าไม่ใช่ทุกเครื่องมือสังเคราะห์เสียงจะเป็นโอเพ่นซอร์ส ตัวอย่างเช่น Google Text-to-Speech (TTS) มี API ที่ทรงพลังสำหรับนักพัฒนา แต่ไม่ใช่โอเพ่นซอร์ส เช่นเดียวกับ Amazon Polly ที่มีชื่อเสียงในเรื่องเสียงที่เหมือนจริง ก็ไม่ใช่โอเพ่นซอร์สเช่นกัน
ในทางกลับกัน Coqui AI ซึ่งเป็นชุดเครื่องมือ TTS คุณภาพสูง เป็นโครงการโอเพ่นซอร์สที่มีอยู่บน GitHub มันเกิดจากโครงการ TTS ของ Mozilla และมีอินเทอร์เฟซบรรทัดคำสั่งที่แข็งแกร่งสำหรับการสังเคราะห์เสียง Coqui AI มี "เสียง" ของตัวเอง โดยใช้ Tacotron2 ในการสร้างเสียงด้วยการเน้นการสร้างเสียงใหม่โดยใช้วิธีการเรียนรู้เชิงลึก
แพลตฟอร์มสังเคราะห์เสียงของ Microsoft รวมถึงความสามารถในการสังเคราะห์ข้อความเป็นเสียงก็ไม่ใช่โอเพ่นซอร์สเช่นกัน อย่างไรก็ตาม Speech API (SAPI5) มีให้สำหรับนักพัฒนาบนแพลตฟอร์ม Windows
ในด้านที่สดใส โดเมนโอเพ่นซอร์สไม่ได้ขาดแคลนเครื่องมือจดจำเสียง ตัวอย่างที่ดีคือ CMU Sphinx ซึ่งเป็นกลุ่มระบบจดจำเสียงที่พัฒนาที่มหาวิทยาลัย Carnegie Mellon
เมื่อพูดถึงเครื่องมือโอเพ่นซอร์สคุณภาพสูงสำหรับการสังเคราะห์เสียง ซอฟต์แวร์หลายตัวโดดเด่น:
- eSpeak: ซอฟต์แวร์สังเคราะห์เสียงขนาดกะทัดรัดแบบโอเพ่นซอร์สสำหรับภาษาอังกฤษและภาษาอื่นๆ ทำงานบน Windows, Linux และเหมาะสำหรับแอปพลิเคชันหุ่นยนต์ขนาดเล็กมาก
- Mycroft: ผู้ช่วยเสียงแบบโอเพ่นซอร์สที่ใช้การเรียนรู้ของเครื่องเพื่อให้บริการสังเคราะห์ข้อความเป็นเสียงและการจดจำเสียง
- MaryTTS: แพลตฟอร์มสังเคราะห์ข้อความเป็นเสียงแบบโอเพ่นซอร์สที่ยืดหยุ่นและรองรับหลายภาษา เขียนด้วยภาษา Java
- Mozilla TTS: เครื่องยนต์สังเคราะห์ข้อความเป็นเสียงที่ใช้การเรียนรู้เชิงลึก ซึ่งเป็นส่วนหนึ่งของโครงการ Common Voice มุ่งเน้นการสร้างชุดข้อมูลสำหรับการฝึกอบรมแอปพลิเคชันที่ใช้เสียง
- Festival Speech Synthesis System: พัฒนาโดย The Centre for Speech Technology Research ในสหราชอาณาจักร มันมีกรอบงานทั่วไปสำหรับการสร้างระบบสังเคราะห์เสียงและมีเสียงหลากหลาย
- Flite (Festival-lite): เครื่องยนต์สังเคราะห์เสียงน้ำหนักเบาที่พัฒนาจาก Festival เหมาะสำหรับระบบฝังตัวและเซิร์ฟเวอร์เสียงปริมาณสูง
- HTS: ระบบสังเคราะห์เสียงที่ใช้ HMM (HTS) เป็นระบบสำหรับการฝึกอบรมและสังเคราะห์เสียงจากข้อความ ใช้กันอย่างแพร่หลายสำหรับความสามารถในการสังเคราะห์เสียงคุณภาพสูง
- Docker: แม้ว่า Docker จะไม่ใช่เครื่องมือสังเคราะห์ข้อความเป็นเสียง แต่ก็ควรสังเกตว่าเครื่องมือ TTS หลายตัวเช่น Coqui สามารถใช้ภายใน Docker ทำให้สามารถพกพาข้ามแพลตฟอร์มได้
แต่ละเครื่องมือมีข้อดีและข้อเสียของตัวเอง ซอฟต์แวร์สังเคราะห์เสียงแบบโอเพ่นซอร์สให้แพลตฟอร์มที่ฟรี ปรับแต่งได้ และได้รับการสนับสนุนจากชุมชนสำหรับนักพัฒนาและผู้ใช้ปลายทาง พวกเขามักมาพร้อมกับโมเดลที่ผ่านการฝึกอบรมล่วงหน้า ซึ่งช่วยให้นักพัฒนาสามารถใช้เทคนิคการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึกได้ อย่างไรก็ตาม อาจต้องการความรู้ทางเทคนิคในการตั้งค่าและใช้งาน นอกจากนี้ บางตัวอาจขาดคุณภาพ ความสม่ำเสมอ หรือการสนับสนุนภาษาของเครื่องมือเชิงพาณิชย์
เมื่อโอเพ่นซอร์สยังคงเปลี่ยนแปลงโลกเทคโนโลยี ซอฟต์แวร์สังเคราะห์เสียงและระบบ TTS จะยังคงพัฒนาไปเรื่อยๆ พวกเขามีศักยภาพมหาศาลสำหรับการใช้งานแบบเรียลไทม์และการพัฒนาในอนาคตของการเรียนรู้ของเครื่อง การเรียนรู้เชิงลึก และ AI ในระบบจดจำเสียงและการสังเคราะห์เสียง
คลิฟ ไวซ์แมน
คลิฟ ไวซ์แมน เป็นผู้สนับสนุนด้านดิสเล็กเซียและเป็น CEO และผู้ก่อตั้ง Speechify แอปพลิเคชันแปลงข้อความเป็นเสียงอันดับ 1 ของโลก ที่มีรีวิว 5 ดาวมากกว่า 100,000 รีวิว และครองอันดับหนึ่งใน App Store ในหมวดข่าวและนิตยสาร ในปี 2017 ไวซ์แมนได้รับการยกย่องในรายชื่อ Forbes 30 under 30 จากผลงานของเขาในการทำให้อินเทอร์เน็ตเข้าถึงได้มากขึ้นสำหรับผู้ที่มีความบกพร่องในการเรียนรู้ คลิฟ ไวซ์แมน ได้รับการนำเสนอใน EdSurge, Inc., PC Mag, Entrepreneur, Mashable และสื่อชั้นนำอื่น ๆ