Google WaveNet คืออะไร
แนะนำใน
WaveNet เป็นเครือข่ายประสาทเทียมที่ออกแบบมาเพื่อสร้างเสียงดิบ นี่คือวิธีที่เทคโนโลยีนี้ - หนึ่งในเครื่องมือแปลงข้อความเป็นเสียงที่มีอยู่มากมาย - กำลังพัฒนาความสามารถของเราในการได้ยินและประมวลผลคำรอบตัวเรา
หลายคนใช้ บริการแปลงข้อความเป็นเสียง ในชีวิตประจำวัน รวมถึงผู้ช่วยเสมือน แต่สิ่งที่พวกเขาอาจไม่รู้คือทั้งสองมีคุณสมบัติที่คล้ายกันมากในวิธีการทำงาน เมื่อเทคโนโลยีพัฒนาขึ้น คุณภาพของแอปที่เราใช้ในชีวิตประจำวันก็พัฒนาขึ้นด้วย
สิ่งเดียวกันนี้ใช้กับแอป TTS และผู้ช่วยเสมือน มีบริษัทไม่กี่แห่งที่แสดงผลลัพธ์ที่ยอดเยี่ยมในด้านนี้ และหนึ่งในนั้นคือ Google กับเทคโนโลยี WaveNet ของพวกเขา
Google WaveNet คืออะไร?
WaveNet เป็นเครือข่ายประสาทเทียมที่ออกแบบมาเพื่อสร้างเสียงดิบ ทีมที่อยู่เบื้องหลังคือ DeepMind ซึ่งเป็นบริษัทจากลอนดอนที่มุ่งเน้นด้านปัญญาประดิษฐ์ การเปิดตัวเทคโนโลยีนี้ทำให้เกิดการเปลี่ยนแปลงอย่างมากสำหรับแพลตฟอร์ม Google Cloud และยกระดับทุกอย่างไปอีกขั้น
หนึ่งในข้อได้เปรียบหลักที่ DeepMind ของ Google นำเสนอเมื่อเทียบกับระบบแปลงข้อความเป็นเสียงก่อนหน้านี้คือเสียงที่ฟังดูดีกว่า เมื่อเปิดตัวในปี 2016 ระบบ TTS ไม่สามารถสร้างเสียงที่ฟังดูเป็นธรรมชาติได้
WaveNet แปลงข้อความเป็นเสียงได้ดีกว่าในทุกด้าน แนวคิดเบื้องหลังเทคโนโลยีนี้ค่อนข้างง่าย ซอฟต์แวร์สามารถใช้ไฟล์เสียงดิบเช่น WAV เป็นข้อมูลนำเข้าและได้รับประโยชน์จากการเชื่อมต่อกับ API ของ Google และคีย์ API
วันนี้เรามีวิธีการมากมายในการใช้เทคโนโลยีนี้ ขอบคุณความสามารถของเราในการใช้ประโยชน์จากอัลกอริธึมที่ซับซ้อนเหล่านี้ บริษัทหลายแห่งทั่วโลกกำลังแข่งขันกันเพื่อส่งมอบผลิตภัณฑ์ที่ดีที่สุด และนี่เป็นสิ่งที่ดี สำหรับผู้ใช้ปลายทาง หมายถึงตัวเลือกที่มากขึ้นที่ทำให้การค้นหาโปรแกรมที่เหมาะสมกับความต้องการของพวกเขาง่ายขึ้น
WaveNet ทำงานอย่างไร
WaveNet เป็นเวอร์ชันของ FNN หรือเครือข่ายประสาทแบบฟีดฟอร์เวิร์ดที่รู้จักกันในชื่อเครือข่ายประสาทแบบคอนโวลูชันลึก CNN รับสัญญาณดิบจากข้อมูลนำเข้าและสามารถสังเคราะห์ผลลัพธ์ทีละตัวอย่าง
แน่นอนว่าพื้นฐานเบื้องหลังทุกอย่างคือการเรียนรู้ของเครื่อง การประมวลผลภาษาธรรมชาติ การเรียนรู้เชิงลึก และปัญญาประดิษฐ์ ในการทำซ้ำแอปแปลงข้อความเป็นเสียงก่อนหน้านี้ แนวคิดคือการสร้างฐานข้อมูลของโฟนีม และแอปจะเลือกโฟนีมที่ถูกต้อง หรืออย่างน้อยที่สุดคือโฟนีมที่ใกล้เคียงที่สุดกับเสียงที่ต้องการ
แต่การสร้างปริศนาประเภทนี้ไม่ใช่เรื่องง่าย ซอฟต์แวร์จำเป็นต้องเข้าใจว่าภาษาทำงานอย่างไร รวมถึงจังหวะและพลวัตของมัน มิฉะนั้นเสียงที่ออกมาจากลำโพงของคุณจะฟังดูปลอม
เช่นเดียวกับโปรแกรมแปลงข้อความเป็นเสียงส่วนใหญ่ WaveNet ยังใช้รูปคลื่นเสียงจริง - คิดถึงพาราเมตริกหรือการเชื่อมต่อเป็นตัวอย่าง วิธีนี้ซอฟต์แวร์สามารถวิเคราะห์กฎของภาษา (หรือเสียง) และวิธีการเปลี่ยนแปลงตามเวลา
สิ่งนี้ทำให้โปรแกรมสามารถสร้างรูปแบบที่ฟังดูเหมือนการพูดของมนุษย์ตามตัวอย่างการพูด สิ่งที่น่าประทับใจคือซอฟต์แวร์จะสร้างผลลัพธ์ตามข้อมูลที่ป้อนให้กับซอฟต์แวร์
นี่คือสิ่งที่หมายถึงในโลกแห่งความเป็นจริง: หากคุณพูดภาษาอิตาลี ตัวอย่างเช่น โปรแกรมสามารถช่วยคุณสร้างการพูดภาษาอิตาลีได้ สิ่งนี้เป็นการเปลี่ยนแปลงครั้งใหญ่ในเวลานั้นและเปิดทางให้กับ API แปลงข้อความเป็นเสียงอื่น ๆ
ตัวอย่างการใช้งาน WaveNet
เมื่อ Google เปิดตัวซอฟต์แวร์นี้ มันต้องการพลังการประมวลผลมากเกินไปที่จะใช้ในชีวิตจริง แต่ทั้งหมดนี้เปลี่ยนไปในปีต่อ ๆ มา API นี้ช่วยให้เสียงของ Google Assistant ทำงานได้ ซึ่งบริษัทนำเสนอในหลายแพลตฟอร์ม
WaveNet ยังเป็นเครื่องมือที่ยอดเยี่ยมหากคุณกำลังมองหาซอฟต์แวร์ TTS เสียงฟังดูสมจริงมากขึ้น ซึ่งทำให้ประสบการณ์ทั้งหมดน่าสนุกยิ่งขึ้น คุณสามารถใช้มันเพื่อฟังข่าวล่าสุด บทถอดเสียงของพอดแคสต์ หรืออะไรก็ตามที่คุณจินตนาการได้
นั่นเป็นเพียงจุดเริ่มต้น แนวคิดทั้งหมดเบื้องหลังกระบวนการนี้ยังสามารถช่วยให้ผู้ที่มีปัญหาด้านการพูดได้เสียงของพวกเขากลับคืนมา การสังเคราะห์เสียงเป็นคำที่ใช้สำหรับการเลียนเสียง และศักยภาพของมันน่าทึ่ง ตัวอย่างเช่น ผู้ที่มีปัญหาด้านการพูดสามารถใช้ตัวอย่างเสียงของพวกเขาและรวมเข้ากับเครื่องมือแปลงข้อความเป็นเสียงได้ ซึ่งสามารถให้เสียงของพวกเขากลับคืนมา
เรายังไม่รู้ว่าทั้งหมดที่อนาคตจะมีให้สำหรับโปรแกรม TTS แต่เราสามารถคาดเดาได้ว่ามันจะยอดเยี่ยม หนึ่งในสิ่งที่ดีที่สุดเกี่ยวกับนวัตกรรมในด้านนี้คือมีบริษัทหลายแห่งที่ทำงานเกี่ยวกับผลิตภัณฑ์ TTS
เมื่อทุกคนทำงานไปในทิศทางเดียวกัน มีแนวโน้มว่าเราจะได้เห็นผลลัพธ์ที่น่าทึ่ง
Speechify - การสังเคราะห์เสียงพูด
หนึ่งในโปรแกรมที่คุณควรลองใช้ทันทีคือ Speechify ซึ่งเป็นแอปพลิเคชันแปลงข้อความเป็นเสียงที่สามารถใช้ได้บนเกือบทุกอุปกรณ์ มีให้บริการสำหรับ iOS, Android, Mac และยังมีเป็นส่วนขยายสำหรับ Google Chrome.
Speechify สามารถทำงานกับเนื้อหาทุกประเภท มันสามารถอ่าน PDFs, เอกสาร, อีเมล หรืออะไรก็ตามที่คุณมีในอุปกรณ์ของคุณ หนึ่งในข้อดีหลักของแอปนี้คือความหลากหลายและความสามารถในการปรับแต่งได้
คุณสามารถเปลี่ยนความเร็วในการอ่าน เลือกเสียงพูดที่แตกต่าง ปรับระดับเสียง และอื่นๆ นอกจากนี้ยังมีฟังก์ชัน OCR ซึ่งหมายความว่าคุณสามารถ ถ่ายภาพ หนังสือของคุณ และแอปจะอ่านให้คุณฟัง
แอปนี้ออกแบบมาเฉพาะสำหรับผู้ที่มี ดิสเล็กเซีย, ADD, ผู้ที่กำลังเรียนรู้ภาษาใหม่ หรือใครก็ตามที่ต้องการเพิ่มประสิทธิภาพในการอ่านหนังสือ มันเป็นแอปที่ครบวงจรที่จะเปลี่ยนความรู้สึกของคุณเกี่ยวกับการอ่าน
Speechify ใช้งานง่าย และคุณไม่จำเป็นต้องมีคู่มือการใช้งานที่ซับซ้อนเพื่อทำความเข้าใจ
คำถามที่พบบ่อย
WaveNet ใช้ทำอะไร?
มันเป็นเครือข่ายประสาทลึกที่สามารถสร้างเสียงดิบได้ เป็นการสังเคราะห์ข้อความเป็นเสียงที่ให้เสียง WaveNet ที่สมจริง และสามารถฝึกฝนโดยใช้การบันทึกเสียงจริงได้ ผลลัพธ์คือมันสามารถทำงานได้ดีกว่า Google Cloud text-to-speech
ปัจจุบันซอฟต์แวร์นี้ใช้สำหรับเสียงของ Google Assistant
โมเดล WaveNet คืออะไร?
โมเดลนี้อิงจากสถาปัตยกรรม PixelCNN เพื่อจัดการกับการพึ่งพาระยะยาวที่จำเป็นในการสร้างผลลัพธ์ดิบ สถาปัตยกรรมนี้ใช้การคอนโวลูชันเชิงสาเหตุที่ขยายออก
การเพิ่ม CNNS ที่ขยายออกช่วยให้การฝึกฝนง่ายและเร็วขึ้น และสามารถย้อนกลับไปได้ถึงพันชั้นในเวลา นอกจากนี้ยังสามารถทำงานได้เร็วกว่าเวลาจริงถึง 20 เท่า
ความแตกต่างระหว่าง WaveNet และ Convolutional Neural Networks คืออะไร?
ซอฟต์แวร์นี้อิงจากเครือข่ายประสาทคอนโวลูชันลึกหรือ CNN ซึ่งหมายความว่า WaveNet เป็นเพียงหนึ่งในแอปพลิเคชันของ CNN เทคโนโลยีที่คล้ายกันนี้ถูกใช้โดยบริษัทอื่นๆ เช่น Microsoft หรือ Amazon (พร้อมกับ SSML) และให้คุณภาพสูงและผลลัพธ์ที่ยอดเยี่ยม
เมื่อมองหาแอปแปลงข้อความเป็นเสียงที่ดีที่สุด ให้เลือก Speechify แม้ว่าแพลตฟอร์มอื่นจะมีข้อดีบางประการ แต่ Speechify ใช้งานได้อย่างราบรื่น ไม่มีปัญหา และเข้าใจง่าย สำหรับผู้ใช้ที่ต้องการแปลงข้อความเป็นคำพูด
ไทเลอร์ ไวซ์แมน
ไทเลอร์ ไวซ์แมน เป็นผู้ร่วมก่อตั้ง หัวหน้าฝ่ายปัญญาประดิษฐ์ และประธานของ Speechify แอปพลิเคชันแปลงข้อความเป็นเสียงอันดับหนึ่งของโลก ที่มีรีวิว 5 ดาวมากกว่า 100,000 รีวิว ไวซ์แมนจบการศึกษาจากมหาวิทยาลัยสแตนฟอร์ด โดยได้รับปริญญาตรีด้านคณิตศาสตร์และปริญญาโทด้านวิทยาการคอมพิวเตอร์ในสาขาปัญญาประดิษฐ์ เขาได้รับการคัดเลือกจากนิตยสาร Inc. ให้เป็นหนึ่งใน 50 ผู้ประกอบการยอดเยี่ยม และได้รับการนำเสนอในสื่อหลายแห่ง เช่น Business Insider, TechCrunch, LifeHacker, CBS งานวิจัยปริญญาโทของไวซ์แมนมุ่งเน้นไปที่ปัญญาประดิษฐ์และการแปลงข้อความเป็นเสียง โดยมีบทความสุดท้ายชื่อว่า “CloneBot: Personalized Dialogue-Response Predictions.”