Social Proof

ประวัติของเทคโนโลยีแปลงข้อความเป็นเสียงและการสังเคราะห์เสียงคืออะไร?

Speechify เป็นโปรแกรมอ่านเสียงอันดับ 1 ของโลก อ่านหนังสือ เอกสาร บทความ PDF อีเมล - ทุกอย่างที่คุณอ่าน - ได้เร็วขึ้น

แนะนำใน

forbes logocbs logotime magazine logonew york times logowall street logo

ฟังบทความนี้ด้วย Speechify!
Speechify

ประวัติของเทคโนโลยีแปลงข้อความเป็นเสียงและการสังเคราะห์เสียงคืออะไร? ค้นพบช่วงเวลาสำคัญและบุคคลสำคัญที่อยู่เบื้องหลังเทคโนโลยีนี้

เทคโนโลยีแปลงข้อความเป็นเสียง (TTS) และการสังเคราะห์เสียงอาจดูเหมือนเป็นเทคโนโลยีใหม่ แต่จริงๆ แล้วมีประวัติที่ยาวนานหลายศตวรรษ

จากความพยายามแรกเริ่มในการเลียนแบบเสียงมนุษย์ด้วยอุปกรณ์กลไก จนถึงปัญญาประดิษฐ์และโมเดลการเรียนรู้เชิงลึกที่ล้ำสมัยในปัจจุบัน การพัฒนา TTS เป็นการเดินทางที่น่าทึ่ง

ในบทความนี้ เราจะเจาะลึกประวัติของเทคโนโลยีแปลงข้อความเป็นเสียงและการสังเคราะห์เสียง และสำรวจความเป็นไปได้ที่น่าตื่นเต้นในอนาคต

เทคโนโลยีแปลงข้อความเป็นเสียงและการสังเคราะห์เสียง: จากการพัฒนาแรกเริ่มสู่การใช้งานในปัจจุบัน

ศตวรรษที่ 18 และ 19

ประวัติของเทคโนโลยีแปลงข้อความเป็นเสียงและการสังเคราะห์เสียงสามารถย้อนกลับไปถึงศตวรรษที่ 18 และ 19 ในช่วงเวลานี้มีความพยายามแรกเริ่มในการสังเคราะห์เสียงโดยใช้อุปกรณ์กลไก ในปี 1770 Wolfgang von Kempelen นักประดิษฐ์ชาวฮังการีได้พัฒนาอุปกรณ์กลไกที่เรียกว่าเครื่องเสียงกลไกเพื่อจำลองทางเดินเสียงของมนุษย์ อุปกรณ์นี้ใช้ลม, ลิ้น, และท่อเพื่อสร้างเสียงสระและพยัญชนะ

ในช่วงปลายศตวรรษที่ 18 นักฟิสิกส์ชาวอังกฤษ Charles Wheatstone ได้ประดิษฐ์เครื่องเสียงกลไกที่มีความซับซ้อนมากขึ้นจากเครื่องของ Kempelen ซึ่งเขาเรียกว่า "เครื่องพูด" อุปกรณ์นี้สามารถสร้างเสียงของเครื่องดนตรีต่างๆ แม้ว่าอุปกรณ์ของ Wheatstone จะไม่ได้ออกแบบมาเพื่อการสังเคราะห์เสียงโดยเฉพาะ แต่ก็เสริมแนวคิดในการใช้อุปกรณ์กลไกเพื่อสร้างเสียง

ในศตวรรษที่ 19 มีการพัฒนาอุปกรณ์อื่นๆ อีกหลายชนิด รวมถึงเครื่อง "เสียงเทียม" ของ Faber อุปกรณ์เหล่านี้ใช้ระบบกลไกและนิวแมติกในการสร้างเสียงพูด

ต้นศตวรรษที่ 20 และการสังเคราะห์เสียงไฟฟ้าเต็มรูปแบบครั้งแรก

ในต้นศตวรรษที่ 20 เทคโนโลยีการสังเคราะห์เสียงมีความซับซ้อนมากขึ้นด้วยการประดิษฐ์ระบบสังเคราะห์เสียงไฟฟ้าเต็มรูปแบบครั้งแรก – vocoder โดย Homer Dudley ระบบนี้พัฒนาขึ้นที่ Bell Laboratories (Bell Labs) ในรัฐนิวเจอร์ซีย์

vocoder ของ Dudley ใช้ชุดของตัวกรองและตัวสะท้อนในการสร้างเสียงสังเคราะห์ ผู้เชี่ยวชาญได้แสดง vocoder ที่เรียกว่า Voder ในงาน World's Fair ปี 1939-1940 ที่ Flushing Meadows, New York โดยใช้แป้นพิมพ์และแป้นเหยียบในการสร้างเสียงพูด

ต้นทศวรรษ 1950 ถึงปลายทศวรรษ 1970 – การเพิ่มขึ้นของเครื่องสังเคราะห์เสียง

ในปี 1951 งานของ Dudley ได้เป็นแรงบันดาลใจในการพัฒนา pattern playback โดย Dr. Franklin S. Cooper ที่ Haskins Laboratories ระบบนี้ทำงานโดยการวิเคราะห์เสียงที่บันทึกไว้ เช่น คำพูดหรือวลี และแยกออกเป็นคลื่นเสียงหรือ "รูปแบบสเปกโตรกราฟิก" รูปแบบเหล่านี้ถูกเก็บไว้ในเทปแม่เหล็กและเล่นกลับเพื่อสร้างเสียงสังเคราะห์ของเสียงต้นฉบับ

ในปี 1976 ระบบแปลงข้อความเป็นเสียงที่ประสบความสำเร็จทางการค้าเป็นครั้งแรกถูกนำเสนอโดย Kurzweil Reading Machine ระบบนี้ใช้เทคนิคการสังเคราะห์แบบ concatenative โดยรวมเสียงพยางค์และคำที่บันทึกไว้ล่วงหน้าเพื่อสร้างเสียงสังเคราะห์ อุปกรณ์นี้ออกแบบมาเพื่อช่วยเหลือผู้ที่มีความบกพร่องทางการอ่าน แต่ก็ได้รับความนิยมอย่างรวดเร็วในฐานะเครื่องมือช่วยอ่าน

เริ่มตั้งแต่ปี 1978 Texas Instruments ได้เริ่มทำงานบนชิปสังเคราะห์เสียงที่สามารถใช้ในวิดีโอเกมและแอปพลิเคชันคอมพิวเตอร์อื่นๆ ชิปนี้ใช้การสังเคราะห์แบบ concatenative ซึ่งรวมเสียงพูดที่บันทึกไว้ล่วงหน้า หรือ diphones เพื่อสร้างเสียงพูดที่คล้ายมนุษย์ เทคโนโลยีนี้ถูกใช้ใน DECtalk ซึ่งเป็นระบบแปลงข้อความเป็นเสียงที่ให้เสียงสังเคราะห์คุณภาพสูงสำหรับผู้ที่มีความบกพร่อง

ระบบแปลงข้อความเป็นเสียงสมัยใหม่

หนึ่งในนวัตกรรมสำคัญในช่วงไม่กี่ปีที่ผ่านมาคือการใช้เครือข่ายประสาทเทียมในการสร้างเสียงสังเคราะห์ บริษัทอย่าง Google และ Microsoft ได้พัฒนาระบบ TTS คุณภาพสูงที่ใช้อัลกอริทึมการเรียนรู้เชิงลึกในการวิเคราะห์ชุดข้อมูลขนาดใหญ่ของเสียงมนุษย์และสร้างเสียงพูดที่ฟังดูเป็นธรรมชาติ

อีกหนึ่งการพัฒนาที่สำคัญใน TTS ในฐานะเทคโนโลยีช่วยเหลือคือการใช้เทคนิคการเลือกหน่วยและการสังเคราะห์แบบ concatenative วิธีการเหล่านี้ช่วยให้ได้ผลลัพธ์ที่สมจริงมากขึ้นโดยการรวมหน่วยเสียงที่บันทึกไว้ล่วงหน้า เช่น diphones หรือแม้แต่คำทั้งคำ เพื่อสร้างประโยคใหม่ เทคนิคเหล่านี้ถูกใช้ในแอป TTS ยอดนิยมเช่น Speechify, Siri ของ Apple, และ Alexa ของ Amazon รวมถึงเครื่องมือเก่าๆ อย่าง IBM ViaVoice

เทคโนโลยีการรู้จำเสียงพูดก็ได้พัฒนาขึ้นอย่างมากในช่วงไม่กี่ปีที่ผ่านมา ซึ่งทำให้ระบบ TTS มีความซับซ้อนมากขึ้น การใช้การรู้จำเสียงพูดในการถอดเสียงมนุษย์เป็นข้อความ ระบบ TTS สามารถสร้างการเปลี่ยนแปลงที่เป็นธรรมชาติในเสียงสังเคราะห์ได้

ในช่วงไม่กี่ปีที่ผ่านมา เรายังได้เห็นการรวม prosody และ intonation ซึ่งช่วยให้เสียงพูดฟังดูเป็นธรรมชาติมากขึ้น ด้วยการหยุดพักที่เหมาะสม การเน้นเสียง และโทนเสียง Prosody มีความสำคัญอย่างยิ่งสำหรับภาษาที่มีการเน้นเสียงและ intonation เช่น ภาษาอังกฤษ ซึ่งสามารถส่งผลต่อความหมายของประโยคได้อย่างมาก

การเรียนรู้เชิงลึกและอนาคตของเทคโนโลยี

อนาคตของเทคโนโลยี TTS น่าตื่นเต้นและเต็มไปด้วยความหวัง ด้วยการเพิ่มขึ้นของปัญญาประดิษฐ์และการเรียนรู้เชิงลึก เราสามารถคาดหวังเสียงที่ฟังดูเป็นธรรมชาติมากขึ้นที่สามารถเลียนแบบความละเอียดอ่อนและความซับซ้อนของการพูดของมนุษย์ได้

หนึ่งในพื้นที่ที่เทคโนโลยีนี้จะมีประโยชน์อย่างยิ่งคือการพัฒนาผู้ช่วยเสมือนและแชทบอท ระบบเหล่านี้จะมีการสนทนามากขึ้น และผู้ใช้จะสามารถโต้ตอบกับพวกเขาได้อย่างเป็นธรรมชาติมากขึ้น

นอกจากนี้ เรายังคาดหวังความก้าวหน้าในด้านการถอดเสียงตามเสียงพูด หรือที่เรียกว่าการแปลงข้อความเป็นเสียงพูด เมื่อเครื่องจักรมีความสามารถในการจดจำและตีความการพูดของมนุษย์ได้ดีขึ้น ความแม่นยำและประสิทธิภาพของระบบแปลงเสียงเป็นข้อความจะยังคงพัฒนาต่อไป

สุดท้ายนี้ เราคาดว่าเทคโนโลยีแปลงข้อความเป็นเสียงจะมีการใช้งานอย่างแพร่หลายมากขึ้นและถูกรวมเข้ากับชีวิตประจำวันของเรามากขึ้น เมื่ออุปกรณ์ต่างๆ เชื่อมต่อกับอินเทอร์เน็ตของสรรพสิ่งมากขึ้น เราจะสามารถควบคุมพวกมันด้วยเสียงของเราแบบเรียลไทม์ ทำให้ชีวิตของเราสะดวกและมีประสิทธิภาพมากขึ้น

เข้าร่วมการปฏิวัติแปลงข้อความเป็นเสียงกับ Speechify

หากคุณกำลังมองหาบริการ แปลงข้อความเป็นเสียง ที่ทรงพลังซึ่งสามารถผลิตการบรรยายที่เป็นธรรมชาติและมีคุณภาพสูง ไม่ต้องมองหาที่ไหนไกลกว่า Speechify

ด้วยเทคโนโลยีการสังเคราะห์เสียงขั้นสูง Speechify สร้างเสียงที่สมจริงและฟังดูเป็นธรรมชาติ แตกต่างจากเสียงหุ่นยนต์ในอดีต แม้แต่นักเขียนชื่อดังอย่าง Stephen Hawking ที่เคยลองใช้เทคโนโลยีแปลงข้อความเป็นเสียงก็จะต้องประทับใจกับความสามารถของ Speechify

การใช้ Speechify นั้นง่ายมาก – เพียงแค่เยี่ยมชม เว็บไซต์ อย่างเป็นทางการหรือดาวน์โหลดแอปมือถือและป้อนข้อความที่คุณต้องการ จากนั้นเลือกเสียงที่เหมาะกับความต้องการของคุณ ปรับความเร็วและระดับเสียงตามต้องการ และเสร็จสิ้น! Speechify จะสร้างการบรรยายที่ยอดเยี่ยมและฟังดูเป็นธรรมชาติ เหมาะสำหรับโมดูลการเรียนรู้ออนไลน์ วิดีโออธิบาย พอดแคสต์ และ การนำเสนอ คุณยังสามารถสร้าง เสียงที่กำหนดเอง ของคุณเองสำหรับใช้บน YouTube และช่องทางโซเชียลมีเดียอื่นๆ

อย่าพอใจกับบริการ TTS ที่ด้อยกว่า – ลองใช้ Speechify วันนี้และสัมผัสอนาคตของเทคโนโลยีแปลงข้อความเป็นเสียง

คำถามที่พบบ่อย

ใครเป็นผู้พัฒนาตัวสังเคราะห์เสียงพูดตัวแรกของโลก?

Homer Dudley ออกแบบตัวสังเคราะห์เสียงพูดตัวแรกของโลกในช่วงต้นทศวรรษ 1930 ที่ Bell Laboratories ในนิวยอร์ก

วัตถุประสงค์ของการสังเคราะห์เสียงพูดคืออะไร?

การสังเคราะห์เสียงพูดมีเป้าหมายเพื่อสร้างเสียงพูดเทียมจากการป้อนข้อความโดยใช้การประมวลผลภาษาและการวิเคราะห์ความถี่พื้นฐาน

มีวิธีการใช้งาน TTS อย่างไรบ้าง?

TTS สามารถใช้เพื่อการเข้าถึง ความบันเทิง การเรียนรู้ภาษา และการทำงานอัตโนมัติของบริการที่ใช้เสียง

ข้อดีของการแปลงข้อความเป็นเสียงมีอะไรบ้าง?

การแปลงข้อความเป็นเสียงสามารถปรับปรุงการเข้าถึง เพิ่มการเรียนรู้ และเพิ่มประสิทธิภาพการทำงานโดยให้ผู้ใช้สามารถบริโภคเนื้อหาที่เขียนในรูปแบบเสียงได้

ช่วงเวลาที่น่าประหลาดใจที่สุดในการพัฒนาเทคโนโลยีแปลงข้อความเป็นเสียงคืออะไร?

หนึ่งในช่วงเวลาที่น่าประหลาดใจที่สุดในการพัฒนาเทคโนโลยีแปลงข้อความเป็นเสียงคือการประดิษฐ์ตัวสังเคราะห์เสียงพูดเชิงกลของ Charles Wheatstone

Cliff Weitzman

คลิฟ ไวซ์แมน

คลิฟ ไวซ์แมน เป็นผู้สนับสนุนด้านดิสเล็กเซียและเป็น CEO และผู้ก่อตั้ง Speechify แอปพลิเคชันแปลงข้อความเป็นเสียงอันดับ 1 ของโลก ที่มีรีวิว 5 ดาวมากกว่า 100,000 รีวิว และครองอันดับหนึ่งใน App Store ในหมวดข่าวและนิตยสาร ในปี 2017 ไวซ์แมนได้รับการยกย่องในรายชื่อ Forbes 30 under 30 จากผลงานของเขาในการทำให้อินเทอร์เน็ตเข้าถึงได้มากขึ้นสำหรับผู้ที่มีความบกพร่องในการเรียนรู้ คลิฟ ไวซ์แมน ได้รับการนำเสนอใน EdSurge, Inc., PC Mag, Entrepreneur, Mashable และสื่อชั้นนำอื่น ๆ