ประวัติของเทคโนโลยีแปลงข้อความเป็นเสียงและการสังเคราะห์เสียงคืออะไร?
แนะนำใน
ประวัติของเทคโนโลยีแปลงข้อความเป็นเสียงและการสังเคราะห์เสียงคืออะไร? ค้นพบช่วงเวลาสำคัญและบุคคลสำคัญที่อยู่เบื้องหลังเทคโนโลยีนี้
เทคโนโลยีแปลงข้อความเป็นเสียง (TTS) และการสังเคราะห์เสียงอาจดูเหมือนเป็นเทคโนโลยีใหม่ แต่จริงๆ แล้วมีประวัติที่ยาวนานหลายศตวรรษ
จากความพยายามแรกเริ่มในการเลียนแบบเสียงมนุษย์ด้วยอุปกรณ์กลไก จนถึงปัญญาประดิษฐ์และโมเดลการเรียนรู้เชิงลึกที่ล้ำสมัยในปัจจุบัน การพัฒนา TTS เป็นการเดินทางที่น่าทึ่ง
ในบทความนี้ เราจะเจาะลึกประวัติของเทคโนโลยีแปลงข้อความเป็นเสียงและการสังเคราะห์เสียง และสำรวจความเป็นไปได้ที่น่าตื่นเต้นในอนาคต
เทคโนโลยีแปลงข้อความเป็นเสียงและการสังเคราะห์เสียง: จากการพัฒนาแรกเริ่มสู่การใช้งานในปัจจุบัน
ศตวรรษที่ 18 และ 19
ประวัติของเทคโนโลยีแปลงข้อความเป็นเสียงและการสังเคราะห์เสียงสามารถย้อนกลับไปถึงศตวรรษที่ 18 และ 19 ในช่วงเวลานี้มีความพยายามแรกเริ่มในการสังเคราะห์เสียงโดยใช้อุปกรณ์กลไก ในปี 1770 Wolfgang von Kempelen นักประดิษฐ์ชาวฮังการีได้พัฒนาอุปกรณ์กลไกที่เรียกว่าเครื่องเสียงกลไกเพื่อจำลองทางเดินเสียงของมนุษย์ อุปกรณ์นี้ใช้ลม, ลิ้น, และท่อเพื่อสร้างเสียงสระและพยัญชนะ
ในช่วงปลายศตวรรษที่ 18 นักฟิสิกส์ชาวอังกฤษ Charles Wheatstone ได้ประดิษฐ์เครื่องเสียงกลไกที่มีความซับซ้อนมากขึ้นจากเครื่องของ Kempelen ซึ่งเขาเรียกว่า "เครื่องพูด" อุปกรณ์นี้สามารถสร้างเสียงของเครื่องดนตรีต่างๆ แม้ว่าอุปกรณ์ของ Wheatstone จะไม่ได้ออกแบบมาเพื่อการสังเคราะห์เสียงโดยเฉพาะ แต่ก็เสริมแนวคิดในการใช้อุปกรณ์กลไกเพื่อสร้างเสียง
ในศตวรรษที่ 19 มีการพัฒนาอุปกรณ์อื่นๆ อีกหลายชนิด รวมถึงเครื่อง "เสียงเทียม" ของ Faber อุปกรณ์เหล่านี้ใช้ระบบกลไกและนิวแมติกในการสร้างเสียงพูด
ต้นศตวรรษที่ 20 และการสังเคราะห์เสียงไฟฟ้าเต็มรูปแบบครั้งแรก
ในต้นศตวรรษที่ 20 เทคโนโลยีการสังเคราะห์เสียงมีความซับซ้อนมากขึ้นด้วยการประดิษฐ์ระบบสังเคราะห์เสียงไฟฟ้าเต็มรูปแบบครั้งแรก – vocoder โดย Homer Dudley ระบบนี้พัฒนาขึ้นที่ Bell Laboratories (Bell Labs) ในรัฐนิวเจอร์ซีย์
vocoder ของ Dudley ใช้ชุดของตัวกรองและตัวสะท้อนในการสร้างเสียงสังเคราะห์ ผู้เชี่ยวชาญได้แสดง vocoder ที่เรียกว่า Voder ในงาน World's Fair ปี 1939-1940 ที่ Flushing Meadows, New York โดยใช้แป้นพิมพ์และแป้นเหยียบในการสร้างเสียงพูด
ต้นทศวรรษ 1950 ถึงปลายทศวรรษ 1970 – การเพิ่มขึ้นของเครื่องสังเคราะห์เสียง
ในปี 1951 งานของ Dudley ได้เป็นแรงบันดาลใจในการพัฒนา pattern playback โดย Dr. Franklin S. Cooper ที่ Haskins Laboratories ระบบนี้ทำงานโดยการวิเคราะห์เสียงที่บันทึกไว้ เช่น คำพูดหรือวลี และแยกออกเป็นคลื่นเสียงหรือ "รูปแบบสเปกโตรกราฟิก" รูปแบบเหล่านี้ถูกเก็บไว้ในเทปแม่เหล็กและเล่นกลับเพื่อสร้างเสียงสังเคราะห์ของเสียงต้นฉบับ
ในปี 1976 ระบบแปลงข้อความเป็นเสียงที่ประสบความสำเร็จทางการค้าเป็นครั้งแรกถูกนำเสนอโดย Kurzweil Reading Machine ระบบนี้ใช้เทคนิคการสังเคราะห์แบบ concatenative โดยรวมเสียงพยางค์และคำที่บันทึกไว้ล่วงหน้าเพื่อสร้างเสียงสังเคราะห์ อุปกรณ์นี้ออกแบบมาเพื่อช่วยเหลือผู้ที่มีความบกพร่องทางการอ่าน แต่ก็ได้รับความนิยมอย่างรวดเร็วในฐานะเครื่องมือช่วยอ่าน
เริ่มตั้งแต่ปี 1978 Texas Instruments ได้เริ่มทำงานบนชิปสังเคราะห์เสียงที่สามารถใช้ในวิดีโอเกมและแอปพลิเคชันคอมพิวเตอร์อื่นๆ ชิปนี้ใช้การสังเคราะห์แบบ concatenative ซึ่งรวมเสียงพูดที่บันทึกไว้ล่วงหน้า หรือ diphones เพื่อสร้างเสียงพูดที่คล้ายมนุษย์ เทคโนโลยีนี้ถูกใช้ใน DECtalk ซึ่งเป็นระบบแปลงข้อความเป็นเสียงที่ให้เสียงสังเคราะห์คุณภาพสูงสำหรับผู้ที่มีความบกพร่อง
ระบบแปลงข้อความเป็นเสียงสมัยใหม่
หนึ่งในนวัตกรรมสำคัญในช่วงไม่กี่ปีที่ผ่านมาคือการใช้เครือข่ายประสาทเทียมในการสร้างเสียงสังเคราะห์ บริษัทอย่าง Google และ Microsoft ได้พัฒนาระบบ TTS คุณภาพสูงที่ใช้อัลกอริทึมการเรียนรู้เชิงลึกในการวิเคราะห์ชุดข้อมูลขนาดใหญ่ของเสียงมนุษย์และสร้างเสียงพูดที่ฟังดูเป็นธรรมชาติ
อีกหนึ่งการพัฒนาที่สำคัญใน TTS ในฐานะเทคโนโลยีช่วยเหลือคือการใช้เทคนิคการเลือกหน่วยและการสังเคราะห์แบบ concatenative วิธีการเหล่านี้ช่วยให้ได้ผลลัพธ์ที่สมจริงมากขึ้นโดยการรวมหน่วยเสียงที่บันทึกไว้ล่วงหน้า เช่น diphones หรือแม้แต่คำทั้งคำ เพื่อสร้างประโยคใหม่ เทคนิคเหล่านี้ถูกใช้ในแอป TTS ยอดนิยมเช่น Speechify, Siri ของ Apple, และ Alexa ของ Amazon รวมถึงเครื่องมือเก่าๆ อย่าง IBM ViaVoice
เทคโนโลยีการรู้จำเสียงพูดก็ได้พัฒนาขึ้นอย่างมากในช่วงไม่กี่ปีที่ผ่านมา ซึ่งทำให้ระบบ TTS มีความซับซ้อนมากขึ้น การใช้การรู้จำเสียงพูดในการถอดเสียงมนุษย์เป็นข้อความ ระบบ TTS สามารถสร้างการเปลี่ยนแปลงที่เป็นธรรมชาติในเสียงสังเคราะห์ได้
ในช่วงไม่กี่ปีที่ผ่านมา เรายังได้เห็นการรวม prosody และ intonation ซึ่งช่วยให้เสียงพูดฟังดูเป็นธรรมชาติมากขึ้น ด้วยการหยุดพักที่เหมาะสม การเน้นเสียง และโทนเสียง Prosody มีความสำคัญอย่างยิ่งสำหรับภาษาที่มีการเน้นเสียงและ intonation เช่น ภาษาอังกฤษ ซึ่งสามารถส่งผลต่อความหมายของประโยคได้อย่างมาก
การเรียนรู้เชิงลึกและอนาคตของเทคโนโลยี
อนาคตของเทคโนโลยี TTS น่าตื่นเต้นและเต็มไปด้วยความหวัง ด้วยการเพิ่มขึ้นของปัญญาประดิษฐ์และการเรียนรู้เชิงลึก เราสามารถคาดหวังเสียงที่ฟังดูเป็นธรรมชาติมากขึ้นที่สามารถเลียนแบบความละเอียดอ่อนและความซับซ้อนของการพูดของมนุษย์ได้
หนึ่งในพื้นที่ที่เทคโนโลยีนี้จะมีประโยชน์อย่างยิ่งคือการพัฒนาผู้ช่วยเสมือนและแชทบอท ระบบเหล่านี้จะมีการสนทนามากขึ้น และผู้ใช้จะสามารถโต้ตอบกับพวกเขาได้อย่างเป็นธรรมชาติมากขึ้น
นอกจากนี้ เรายังคาดหวังความก้าวหน้าในด้านการถอดเสียงตามเสียงพูด หรือที่เรียกว่าการแปลงข้อความเป็นเสียงพูด เมื่อเครื่องจักรมีความสามารถในการจดจำและตีความการพูดของมนุษย์ได้ดีขึ้น ความแม่นยำและประสิทธิภาพของระบบแปลงเสียงเป็นข้อความจะยังคงพัฒนาต่อไป
สุดท้ายนี้ เราคาดว่าเทคโนโลยีแปลงข้อความเป็นเสียงจะมีการใช้งานอย่างแพร่หลายมากขึ้นและถูกรวมเข้ากับชีวิตประจำวันของเรามากขึ้น เมื่ออุปกรณ์ต่างๆ เชื่อมต่อกับอินเทอร์เน็ตของสรรพสิ่งมากขึ้น เราจะสามารถควบคุมพวกมันด้วยเสียงของเราแบบเรียลไทม์ ทำให้ชีวิตของเราสะดวกและมีประสิทธิภาพมากขึ้น
เข้าร่วมการปฏิวัติแปลงข้อความเป็นเสียงกับ Speechify
หากคุณกำลังมองหาบริการ แปลงข้อความเป็นเสียง ที่ทรงพลังซึ่งสามารถผลิตการบรรยายที่เป็นธรรมชาติและมีคุณภาพสูง ไม่ต้องมองหาที่ไหนไกลกว่า Speechify
ด้วยเทคโนโลยีการสังเคราะห์เสียงขั้นสูง Speechify สร้างเสียงที่สมจริงและฟังดูเป็นธรรมชาติ แตกต่างจากเสียงหุ่นยนต์ในอดีต แม้แต่นักเขียนชื่อดังอย่าง Stephen Hawking ที่เคยลองใช้เทคโนโลยีแปลงข้อความเป็นเสียงก็จะต้องประทับใจกับความสามารถของ Speechify
การใช้ Speechify นั้นง่ายมาก – เพียงแค่เยี่ยมชม เว็บไซต์ อย่างเป็นทางการหรือดาวน์โหลดแอปมือถือและป้อนข้อความที่คุณต้องการ จากนั้นเลือกเสียงที่เหมาะกับความต้องการของคุณ ปรับความเร็วและระดับเสียงตามต้องการ และเสร็จสิ้น! Speechify จะสร้างการบรรยายที่ยอดเยี่ยมและฟังดูเป็นธรรมชาติ เหมาะสำหรับโมดูลการเรียนรู้ออนไลน์ วิดีโออธิบาย พอดแคสต์ และ การนำเสนอ คุณยังสามารถสร้าง เสียงที่กำหนดเอง ของคุณเองสำหรับใช้บน YouTube และช่องทางโซเชียลมีเดียอื่นๆ
อย่าพอใจกับบริการ TTS ที่ด้อยกว่า – ลองใช้ Speechify วันนี้และสัมผัสอนาคตของเทคโนโลยีแปลงข้อความเป็นเสียง
คำถามที่พบบ่อย
ใครเป็นผู้พัฒนาตัวสังเคราะห์เสียงพูดตัวแรกของโลก?
Homer Dudley ออกแบบตัวสังเคราะห์เสียงพูดตัวแรกของโลกในช่วงต้นทศวรรษ 1930 ที่ Bell Laboratories ในนิวยอร์ก
วัตถุประสงค์ของการสังเคราะห์เสียงพูดคืออะไร?
การสังเคราะห์เสียงพูดมีเป้าหมายเพื่อสร้างเสียงพูดเทียมจากการป้อนข้อความโดยใช้การประมวลผลภาษาและการวิเคราะห์ความถี่พื้นฐาน
มีวิธีการใช้งาน TTS อย่างไรบ้าง?
TTS สามารถใช้เพื่อการเข้าถึง ความบันเทิง การเรียนรู้ภาษา และการทำงานอัตโนมัติของบริการที่ใช้เสียง
ข้อดีของการแปลงข้อความเป็นเสียงมีอะไรบ้าง?
การแปลงข้อความเป็นเสียงสามารถปรับปรุงการเข้าถึง เพิ่มการเรียนรู้ และเพิ่มประสิทธิภาพการทำงานโดยให้ผู้ใช้สามารถบริโภคเนื้อหาที่เขียนในรูปแบบเสียงได้
ช่วงเวลาที่น่าประหลาดใจที่สุดในการพัฒนาเทคโนโลยีแปลงข้อความเป็นเสียงคืออะไร?
หนึ่งในช่วงเวลาที่น่าประหลาดใจที่สุดในการพัฒนาเทคโนโลยีแปลงข้อความเป็นเสียงคือการประดิษฐ์ตัวสังเคราะห์เสียงพูดเชิงกลของ Charles Wheatstone
คลิฟ ไวซ์แมน
คลิฟ ไวซ์แมน เป็นผู้สนับสนุนด้านดิสเล็กเซียและเป็น CEO และผู้ก่อตั้ง Speechify แอปพลิเคชันแปลงข้อความเป็นเสียงอันดับ 1 ของโลก ที่มีรีวิว 5 ดาวมากกว่า 100,000 รีวิว และครองอันดับหนึ่งใน App Store ในหมวดข่าวและนิตยสาร ในปี 2017 ไวซ์แมนได้รับการยกย่องในรายชื่อ Forbes 30 under 30 จากผลงานของเขาในการทำให้อินเทอร์เน็ตเข้าถึงได้มากขึ้นสำหรับผู้ที่มีความบกพร่องในการเรียนรู้ คลิฟ ไวซ์แมน ได้รับการนำเสนอใน EdSurge, Inc., PC Mag, Entrepreneur, Mashable และสื่อชั้นนำอื่น ๆ