ประวัติย่อของเทคโนโลยีแปลงข้อความเป็นเสียง
แนะนำใน
เทคโนโลยีสังเคราะห์เสียง หรือที่รู้จักกันทั่วไปว่าแปลงข้อความเป็นเสียง ได้พัฒนาอย่างรวดเร็วในช่วงหลายปีที่ผ่านมา เรียนรู้เพิ่มเติมเกี่ยวกับประวัติของเทคโนโลยีนี้
การสังเคราะห์เสียง หรือการผลิตเสียงมนุษย์ด้วยวิธีการเทียม ได้พัฒนามาไกลในช่วง 70 ปีที่ผ่านมา ไม่ว่าคุณจะใช้บริการ แปลงข้อความเป็นเสียง เพื่อฟังหนังสือ ศึกษา หรือพิสูจน์อักษรงานเขียนของคุณเอง ไม่มีข้อสงสัยเลยว่าบริการแปลงข้อความเป็นเสียงได้ทำให้ชีวิตง่ายขึ้นสำหรับคนในหลากหลายอาชีพ
ที่นี่ เราจะมาดูว่าการประมวลผลแปลงข้อความเป็นเสียงทำงานอย่างไร และเทคโนโลยีช่วยเหลือได้เปลี่ยนแปลงไปอย่างไรบ้างในช่วงเวลาต่างๆ
บทนำ
ในปี 1700s ศาสตราจารย์ชาวรัสเซีย Christian Kratzenstein ได้สร้างตัวสะท้อนเสียงที่เลียนแบบเสียงมนุษย์ สองทศวรรษต่อมา VODER (Voice Operating Demonstrator) ได้รับความสนใจอย่างมากที่งาน New York World’s Fair เมื่อผู้สร้าง Homer Dudley แสดงให้เห็นว่าการสร้างเสียงมนุษย์ด้วยวิธีการเทียมทำได้อย่างไร อุปกรณ์นี้เล่นยากมาก–Dudley ต้องควบคุมความถี่พื้นฐานด้วยการใช้แป้นเหยียบ
ในช่วงต้นปี 1800s Charles Wheatstone ได้พัฒนาเครื่องสังเคราะห์เสียงเชิงกลเครื่องแรก ซึ่งเป็นจุดเริ่มต้นของการพัฒนาเครื่องมือและเทคโนโลยีสังเคราะห์เสียงที่รวดเร็ว
การระบุว่าโปรแกรมแปลงข้อความเป็นเสียงที่ดีคืออะไรอาจเป็นเรื่องยาก แต่เหมือนหลายสิ่งในชีวิต คุณจะรู้เมื่อได้ยิน โปรแกรมแปลงข้อความเป็นเสียงคุณภาพสูงจะมี เสียงที่ฟังดูเป็นธรรมชาติ พร้อมด้วยการเน้นเสียงและโทนที่เหมือนจริง
เทคโนโลยีแปลงข้อความเป็นเสียงสามารถช่วยผู้ที่มีปัญหาทางสายตาและผู้ที่มีความบกพร่องอื่นๆ ในการเข้าถึงข้อมูลที่จำเป็นเพื่อประสบความสำเร็จในการทำงานและสื่อสารกับผู้อื่น ซอฟต์แวร์นี้ยังช่วยให้นักเรียนและผู้ที่มีภาระการอ่านหนักสามารถฟังข้อมูลผ่านเสียงมนุษย์เมื่อพวกเขาอยู่ระหว่างการเดินทาง เสียงสังเคราะห์ช่วยให้ผู้คนทำงานได้มากขึ้นในเวลาที่น้อยลง และสามารถใช้ประโยชน์ได้ในหลากหลายสถานการณ์ ตั้งแต่การสร้างวิดีโอเกมไปจนถึงการช่วยเหลือผู้ที่มีความแตกต่างในการประมวลผลภาษา
ปี 1950s และ 60s
ในช่วงปลายปี 1950s ระบบสังเคราะห์เสียงแรกถูกสร้างขึ้น ระบบเหล่านี้ใช้คอมพิวเตอร์ ในปี 1961 John Larry Kelly Jr. นักฟิสิกส์ที่ Bell Labs ได้ใช้คอมพิวเตอร์ IBM เพื่อสังเคราะห์เสียง เครื่องบันทึกเสียงของเขาได้สร้างเพลง Daisy Bell ขึ้นมาใหม่
ในขณะที่ Kelly กำลังพัฒนาเครื่องบันทึกเสียงของเขา Arthur C. Clarke ผู้เขียน 2001: A Space Odyssey ได้ใช้การสาธิตของ Kelly ในบทภาพยนตร์ของเขา ในฉากนั้นคอมพิวเตอร์ HAL 9000 ร้องเพลง Daisy Bell
ในปี 1966 การเข้ารหัสเชิงพยากรณ์เชิงเส้นได้เข้ามาในวงการ การเข้ารหัสเสียงรูปแบบนี้เริ่มพัฒนาภายใต้ Fumitada Itakura และ Shuzo Saito Bishnu S. Atal และ Manfred R. Schroeder ก็มีส่วนร่วมในการพัฒนาการเข้ารหัสเชิงพยากรณ์เชิงเส้นด้วย
ปี 1970s
ในปี 1975 วิธีการจับคู่สเปกตรัมเส้นถูกพัฒนาโดย Itakura วิธีการเข้ารหัสเสียงที่มีการบีบอัดสูงนี้ช่วยให้ Itakura เรียนรู้เพิ่มเติมเกี่ยวกับการวิเคราะห์และสังเคราะห์เสียง ค้นหาจุดอ่อนและหาวิธีปรับปรุง
ในปีนี้ MUSA ก็ถูกปล่อยออกมา ระบบสังเคราะห์เสียงแบบสแตนด์อโลนนี้ใช้อัลกอริทึมในการ อ่านภาษาอิตาลีออกเสียง เวอร์ชันที่ปล่อยออกมาสามปีต่อมาสามารถร้องเพลงในภาษาอิตาลีได้
ในยุค 70s เครื่องสังเคราะห์เสียงเชิงกลแรกถูกพัฒนาขึ้นโดยอิงจากทางเดินเสียงของมนุษย์ เครื่องสังเคราะห์ที่รู้จักกันครั้งแรกถูกพัฒนาโดย Tom Baer, Paul Mermelstein และ Philip Rubin ที่ Haskins Laboratories ทั้งสามคนใช้ข้อมูลจากโมเดลทางเดินเสียงที่สร้างขึ้นที่ Bell Laboratories ในยุค 60s และ 70s
ในปี 1976 เครื่องอ่าน Kurzweil สำหรับคนตาบอดถูกนำเสนอ แม้ว่าอุปกรณ์เหล่านี้จะแพงเกินไปสำหรับประชาชนทั่วไป แต่ห้องสมุดมักจะจัดหาให้สำหรับผู้ที่มีปัญหาทางสายตาเพื่อ ฟังหนังสือ.
การเข้ารหัสเชิงพยากรณ์เชิงเส้นกลายเป็นจุดเริ่มต้นสำหรับชิปสังเคราะห์เสียง ชิปเสียง LPC ของ Texas Instruments และของเล่น Speak & Spell ในปลายยุค 1970s ทั้งสองใช้เทคโนโลยีชิปสังเคราะห์เสียง ของเล่นเหล่านี้เป็นตัวอย่างของการสังเคราะห์เสียงมนุษย์ที่มีการเน้นเสียงที่ถูกต้อง แตกต่างจากเสียงสังเคราะห์ที่ฟังดูเหมือนหุ่นยนต์ที่พบได้ทั่วไปในยุคนั้น อุปกรณ์อิเล็กทรอนิกส์แบบพกพาหลายชนิดที่สามารถสังเคราะห์เสียงได้กลายเป็นที่นิยมในทศวรรษนี้ รวมถึงเครื่องคิดเลข Telesensory Systems Speech+ สำหรับคนตาบอด และเครื่องคอมพิวเตอร์หมากรุก Fidelity Voice Chess Challenger ที่สามารถสังเคราะห์เสียงได้ถูกปล่อยออกมาในปี 1979
ปี 1980s
ในช่วงทศวรรษ 1980 การสังเคราะห์เสียงเริ่มมีบทบาทในโลกของวิดีโอเกม การเปิดตัว Stratovox ในปี 1980 (เกมอาร์เคดแนวยิง) โดย Sun Electronics และ Manbiki Shoujo (แปลเป็นภาษาอังกฤษว่า Shoplifting Girl) เป็นเกมคอมพิวเตอร์ส่วนบุคคลเกมแรกที่สามารถสังเคราะห์เสียงได้ เกมอิเล็กทรอนิกส์ Milton ก็เปิดตัวในปี 1980 เช่นกัน ซึ่งเป็นเกมอิเล็กทรอนิกส์เกมแรกของ The Milton Bradley Company ที่สามารถสังเคราะห์เสียงมนุษย์ได้
ในปี 1983 เครื่องสังเคราะห์เสียงแบบอคูสติก-กลไกที่เรียกว่า DECtalk ได้ถูกพัฒนา DECtalk เข้าใจการสะกดคำแบบเสียง ทำให้สามารถปรับแต่งการออกเสียงของคำที่ไม่คุ้นเคยได้ การสะกดคำแบบเสียงนี้ยังสามารถรวมตัวบ่งชี้โทนเสียงที่ DECtalk จะใช้เมื่อออกเสียงส่วนประกอบเสียง ทำให้ DECtalk สามารถร้องเพลงได้
ในช่วงปลายทศวรรษ 80 Steve Jobs ได้สร้าง NeXT ซึ่งเป็นระบบที่พัฒนาโดย Trillium Sound Research แม้ว่า NeXT จะไม่ประสบความสำเร็จ Jobs ก็ได้นำโปรแกรมนี้มารวมกับ Apple ในช่วงทศวรรษ 90
ทศวรรษ 1990
ระบบสังเคราะห์เสียงในช่วงแรก ๆ ฟังดูเป็นเสียงหุ่นยนต์อย่างชัดเจน แต่สิ่งนี้เริ่มเปลี่ยนแปลงในช่วงปลายทศวรรษ 80 และต้นทศวรรษ 90 การใช้พยัญชนะที่นุ่มนวลขึ้นทำให้เครื่องพูดสูญเสียความเป็นอิเล็กทรอนิกส์และฟังดูเป็นธรรมชาติมากขึ้น ในปี 1990 Ann Syrdal ที่ AT&T Bell Laboratories ได้พัฒนาเสียงสังเคราะห์ของผู้หญิง วิศวกรทำงานเพื่อทำให้เสียงฟังดูเป็นธรรมชาติมากขึ้นในช่วงทศวรรษ 90
ในปี 1999 Microsoft ได้เปิดตัว Narrator ซึ่งเป็นโซลูชันการอ่านหน้าจอที่ปัจจุบันรวมอยู่ในทุกสำเนาของ Microsoft Windows
ทศวรรษ 2000
การสังเคราะห์เสียงประสบปัญหาในช่วงทศวรรษ 2000 เนื่องจากนักพัฒนาพยายามสร้างมาตรฐานที่ตกลงกันได้สำหรับการสังเคราะห์เสียง เนื่องจากเสียงเป็นสิ่งที่มีลักษณะเฉพาะบุคคลสูง ทำให้ยากที่ผู้คนทั่วโลกจะมารวมตัวกันและตกลงกันในเรื่องการออกเสียงที่ถูกต้องของเสียงพยัญชนะ เสียงสระ การเน้นเสียง โทนเสียง รูปแบบการเล่นซ้ำ และการเน้นเสียง
คุณภาพของเสียงสังเคราะห์แบบฟอร์แมนต์ก็กลายเป็นเรื่องที่น่ากังวลมากขึ้นในทศวรรษ 90 เนื่องจากวิศวกรและนักวิจัยสังเกตว่าคุณภาพของระบบที่ใช้ในห้องปฏิบัติการเพื่อเล่นเสียงสังเคราะห์มักจะก้าวหน้ากว่าอุปกรณ์ที่ผู้ใช้มี เมื่อพูดถึงการสังเคราะห์เสียง หลายคนคิดถึงเครื่องสังเคราะห์เสียงของ Stephen Hawking ซึ่งให้เสียงที่ฟังดูเป็นหุ่นยนต์และมีโทนเสียงมนุษย์น้อย
ในปี 2005 นักวิจัยในที่สุดก็มาถึงข้อตกลงบางประการและเริ่มใช้ชุดข้อมูลเสียงร่วมกัน ทำให้พวกเขาสามารถทำงานจากอุดมคติพื้นฐานเดียวกันเมื่อสร้างระบบสังเคราะห์เสียงระดับสูง
ในปี 2007 มีการศึกษาที่แสดงให้เห็นว่าผู้ฟังสามารถบอกได้ว่าคนที่พูดกำลังยิ้มอยู่หรือไม่ นักวิจัยยังคงทำงานเพื่อหาวิธีใช้ข้อมูลนี้เพื่อสร้างซอฟต์แวร์การรู้จำเสียงและการสังเคราะห์เสียงที่เป็นธรรมชาติมากขึ้น
ทศวรรษ 2010
ปัจจุบัน ผลิตภัณฑ์สังเคราะห์เสียงที่ใช้สัญญาณเสียงมีอยู่ทุกที่ ตั้งแต่ Siri ถึง Alexa เครื่องสังเคราะห์เสียงอิเล็กทรอนิกส์ไม่เพียงแต่ทำให้ชีวิตง่ายขึ้น แต่ยังทำให้ชีวิตสนุกขึ้นอีกด้วย ไม่ว่าคุณจะใช้ ระบบ TTS เพื่อฟังนิยายขณะเดินทางหรือใช้แอปที่ทำให้การเรียนรู้ภาษาต่างประเทศง่ายขึ้น เป็นไปได้ว่าคุณกำลังใช้เทคโนโลยีข้อความเป็นเสียงเพื่อกระตุ้นเครือข่ายประสาทของคุณในแต่ละวัน
อนาคต
ในปีต่อ ๆ ไป เป็นไปได้ว่าเทคโนโลยีสังเคราะห์เสียงจะมุ่งเน้นไปที่การสร้างแบบจำลองของสมองเพื่อทำความเข้าใจให้ดีขึ้นว่าเราบันทึกข้อมูลเสียงในจิตใจของเราอย่างไร เทคโนโลยีเสียงจะทำงานเพื่อทำความเข้าใจบทบาทของอารมณ์ในเสียงให้ดีขึ้น และจะใช้ข้อมูลนี้เพื่อสร้าง เสียง AI ที่ไม่สามารถแยกแยะได้จากมนุษย์จริง ๆ
เทคโนโลยีสังเคราะห์เสียงล่าสุด: Speechify
เมื่อเรียนรู้เกี่ยวกับการเปลี่ยนแปลงจากเทคโนโลยีสังเคราะห์เสียงในอดีต มันน่าทึ่งที่จินตนาการได้ว่าวิทยาศาสตร์ได้ก้าวไกลแค่ไหน ปัจจุบัน แอปอย่าง Speechify ทำให้การแปลงข้อความใด ๆ เป็นไฟล์เสียงเป็นเรื่องง่าย เพียงแค่กดปุ่ม (หรือแตะบนแอป) Speechify สามารถแปลงเว็บไซต์ เอกสาร และภาพของข้อความให้เป็นเสียงที่ฟังดูเป็นธรรมชาติได้ ห้องสมุดของ Speechify ซิงค์ข้ามอุปกรณ์ทั้งหมดของคุณ ทำให้ง่ายต่อการเรียนรู้และทำงานขณะเดินทาง ลองดูแอป Speechify ในทั้ง App Store ของ Apple และ Android Google Play
คำถามที่พบบ่อย
ใครเป็นผู้คิดค้นข้อความเป็นเสียง?
ข้อความเป็นเสียงสำหรับภาษาอังกฤษถูกคิดค้นโดย Noriko Umeda ระบบนี้พัฒนาขึ้นในห้องปฏิบัติการ Electrotechnical ในญี่ปุ่นในปี 1968
วัตถุประสงค์ของข้อความเป็นเสียงคืออะไร?
หลายคนใช้เทคโนโลยีแปลงข้อความเป็นเสียง สำหรับผู้ที่ชอบรับข้อมูลในรูปแบบเสียง เทคโนโลยี TTS ช่วยให้การรับข้อมูลที่จำเป็นสำหรับการทำงานหรือการเรียนรู้เป็นเรื่องง่าย โดยไม่ต้องใช้เวลาหลายชั่วโมงอยู่หน้าหนังสือ ผู้เชี่ยวชาญที่มีงานยุ่งก็ใช้ TTS เพื่อให้ทันกับงานของพวกเขาเมื่อไม่สามารถนั่งอยู่หน้าจอคอมพิวเตอร์ได้ เทคโนโลยี TTS หลายประเภทถูกพัฒนาขึ้นมาเพื่อผู้ที่มีปัญหาทางการมองเห็น และ TTS ยังคงเป็นวิธีที่ยอดเยี่ยมสำหรับผู้ที่มีปัญหาทางการมองเห็นในการรับข้อมูลที่พวกเขาต้องการ
คุณจะสังเคราะห์เสียงได้อย่างไร?
ชิ้นส่วนของเสียงที่บันทึกไว้จะถูกเก็บในฐานข้อมูลในหน่วยต่างๆ ซอฟต์แวร์จะเตรียมไฟล์เสียงผ่านการเลือกหน่วย จากนั้นจึงสร้างเสียงขึ้นมา บ่อยครั้งที่ยิ่งช่วงการส่งออกของโปรแกรมกว้างเท่าใด โปรแกรมก็ยิ่งมีปัญหาในการให้ความชัดเจนของเสียงแก่ผู้ใช้มากขึ้นเท่านั้น
ไทเลอร์ ไวซ์แมน
ไทเลอร์ ไวซ์แมน เป็นผู้ร่วมก่อตั้ง หัวหน้าฝ่ายปัญญาประดิษฐ์ และประธานของ Speechify แอปพลิเคชันแปลงข้อความเป็นเสียงอันดับหนึ่งของโลก ที่มีรีวิว 5 ดาวมากกว่า 100,000 รีวิว ไวซ์แมนจบการศึกษาจากมหาวิทยาลัยสแตนฟอร์ด โดยได้รับปริญญาตรีด้านคณิตศาสตร์และปริญญาโทด้านวิทยาการคอมพิวเตอร์ในสาขาปัญญาประดิษฐ์ เขาได้รับการคัดเลือกจากนิตยสาร Inc. ให้เป็นหนึ่งใน 50 ผู้ประกอบการยอดเยี่ยม และได้รับการนำเสนอในสื่อหลายแห่ง เช่น Business Insider, TechCrunch, LifeHacker, CBS งานวิจัยปริญญาโทของไวซ์แมนมุ่งเน้นไปที่ปัญญาประดิษฐ์และการแปลงข้อความเป็นเสียง โดยมีบทความสุดท้ายชื่อว่า “CloneBot: Personalized Dialogue-Response Predictions.”