ประวัติย่อของเทคโนโลยีแปลงข้อความเป็นเสียง

การสังเคราะห์เสียง หรือการผลิตเสียงมนุษย์ด้วยวิธีการเทียม ได้พัฒนามาไกลในช่วง 70 ปีที่ผ่านมา ไม่ว่าคุณจะใช้บริการ แปลงข้อความเป็นเสียง เพื่อฟังหนังสือ ศึกษา หรือพิสูจน์อักษรงานเขียนของคุณเอง ไม่มีข้อสงสัยเลยว่าบริการแปลงข้อความเป็นเสียงได้ทำให้ชีวิตง่ายขึ้นสำหรับคนในหลากหลายอาชีพ

ที่นี่ เราจะมาดูว่าการประมวลผลแปลงข้อความเป็นเสียงทำงานอย่างไร และเทคโนโลยีช่วยเหลือได้เปลี่ยนแปลงไปอย่างไรบ้างในช่วงเวลาต่างๆ

บทนำ

ในปี 1700s ศาสตราจารย์ชาวรัสเซีย Christian Kratzenstein ได้สร้างตัวสะท้อนเสียงที่เลียนแบบเสียงมนุษย์ สองทศวรรษต่อมา VODER (Voice Operating Demonstrator) ได้รับความสนใจอย่างมากที่งาน New York World’s Fair เมื่อผู้สร้าง Homer Dudley แสดงให้เห็นว่าการสร้างเสียงมนุษย์ด้วยวิธีการเทียมทำได้อย่างไร อุปกรณ์นี้เล่นยากมาก–Dudley ต้องควบคุมความถี่พื้นฐานด้วยการใช้แป้นเหยียบ

ในช่วงต้นปี 1800s Charles Wheatstone ได้พัฒนาเครื่องสังเคราะห์เสียงเชิงกลเครื่องแรก ซึ่งเป็นจุดเริ่มต้นของการพัฒนาเครื่องมือและเทคโนโลยีสังเคราะห์เสียงที่รวดเร็ว

การระบุว่าโปรแกรมแปลงข้อความเป็นเสียงที่ดีคืออะไรอาจเป็นเรื่องยาก แต่เหมือนหลายสิ่งในชีวิต คุณจะรู้เมื่อได้ยิน โปรแกรมแปลงข้อความเป็นเสียงคุณภาพสูงจะมี เสียงที่ฟังดูเป็นธรรมชาติ พร้อมด้วยการเน้นเสียงและโทนที่เหมือนจริง

เทคโนโลยีแปลงข้อความเป็นเสียงสามารถช่วยผู้ที่มีปัญหาทางสายตาและผู้ที่มีความบกพร่องอื่นๆ ในการเข้าถึงข้อมูลที่จำเป็นเพื่อประสบความสำเร็จในการทำงานและสื่อสารกับผู้อื่น ซอฟต์แวร์นี้ยังช่วยให้นักเรียนและผู้ที่มีภาระการอ่านหนักสามารถฟังข้อมูลผ่านเสียงมนุษย์เมื่อพวกเขาอยู่ระหว่างการเดินทาง เสียงสังเคราะห์ช่วยให้ผู้คนทำงานได้มากขึ้นในเวลาที่น้อยลง และสามารถใช้ประโยชน์ได้ในหลากหลายสถานการณ์ ตั้งแต่การสร้างวิดีโอเกมไปจนถึงการช่วยเหลือผู้ที่มีความแตกต่างในการประมวลผลภาษา

ปี 1950s และ 60s

ในช่วงปลายปี 1950s ระบบสังเคราะห์เสียงแรกถูกสร้างขึ้น ระบบเหล่านี้ใช้คอมพิวเตอร์ ในปี 1961 John Larry Kelly Jr. นักฟิสิกส์ที่ Bell Labs ได้ใช้คอมพิวเตอร์ IBM เพื่อสังเคราะห์เสียง เครื่องบันทึกเสียงของเขาได้สร้างเพลง Daisy Bell ขึ้นมาใหม่

ในขณะที่ Kelly กำลังพัฒนาเครื่องบันทึกเสียงของเขา Arthur C. Clarke ผู้เขียน 2001: A Space Odyssey ได้ใช้การสาธิตของ Kelly ในบทภาพยนตร์ของเขา ในฉากนั้นคอมพิวเตอร์ HAL 9000 ร้องเพลง Daisy Bell

ในปี 1966 การเข้ารหัสเชิงพยากรณ์เชิงเส้นได้เข้ามาในวงการ การเข้ารหัสเสียงรูปแบบนี้เริ่มพัฒนาภายใต้ Fumitada Itakura และ Shuzo Saito Bishnu S. Atal และ Manfred R. Schroeder ก็มีส่วนร่วมในการพัฒนาการเข้ารหัสเชิงพยากรณ์เชิงเส้นด้วย

ปี 1970s

ในปี 1975 วิธีการจับคู่สเปกตรัมเส้นถูกพัฒนาโดย Itakura วิธีการเข้ารหัสเสียงที่มีการบีบอัดสูงนี้ช่วยให้ Itakura เรียนรู้เพิ่มเติมเกี่ยวกับการวิเคราะห์และสังเคราะห์เสียง ค้นหาจุดอ่อนและหาวิธีปรับปรุง

ในปีนี้ MUSA ก็ถูกปล่อยออกมา ระบบสังเคราะห์เสียงแบบสแตนด์อโลนนี้ใช้อัลกอริทึมในการ อ่านภาษาอิตาลีออกเสียง เวอร์ชันที่ปล่อยออกมาสามปีต่อมาสามารถร้องเพลงในภาษาอิตาลีได้

ในยุค 70s เครื่องสังเคราะห์เสียงเชิงกลแรกถูกพัฒนาขึ้นโดยอิงจากทางเดินเสียงของมนุษย์ เครื่องสังเคราะห์ที่รู้จักกันครั้งแรกถูกพัฒนาโดย Tom Baer, Paul Mermelstein และ Philip Rubin ที่ Haskins Laboratories ทั้งสามคนใช้ข้อมูลจากโมเดลทางเดินเสียงที่สร้างขึ้นที่ Bell Laboratories ในยุค 60s และ 70s

ในปี 1976 เครื่องอ่าน Kurzweil สำหรับคนตาบอดถูกนำเสนอ แม้ว่าอุปกรณ์เหล่านี้จะแพงเกินไปสำหรับประชาชนทั่วไป แต่ห้องสมุดมักจะจัดหาให้สำหรับผู้ที่มีปัญหาทางสายตาเพื่อ ฟังหนังสือ.

การเข้ารหัสเชิงพยากรณ์เชิงเส้นกลายเป็นจุดเริ่มต้นสำหรับชิปสังเคราะห์เสียง ชิปเสียง LPC ของ Texas Instruments และของเล่น Speak & Spell ในปลายยุค 1970s ทั้งสองใช้เทคโนโลยีชิปสังเคราะห์เสียง ของเล่นเหล่านี้เป็นตัวอย่างของการสังเคราะห์เสียงมนุษย์ที่มีการเน้นเสียงที่ถูกต้อง แตกต่างจากเสียงสังเคราะห์ที่ฟังดูเหมือนหุ่นยนต์ที่พบได้ทั่วไปในยุคนั้น อุปกรณ์อิเล็กทรอนิกส์แบบพกพาหลายชนิดที่สามารถสังเคราะห์เสียงได้กลายเป็นที่นิยมในทศวรรษนี้ รวมถึงเครื่องคิดเลข Telesensory Systems Speech+ สำหรับคนตาบอด และเครื่องคอมพิวเตอร์หมากรุก Fidelity Voice Chess Challenger ที่สามารถสังเคราะห์เสียงได้ถูกปล่อยออกมาในปี 1979

ปี 1980s

ในช่วงทศวรรษ 1980 การสังเคราะห์เสียงเริ่มมีบทบาทในโลกของวิดีโอเกม การเปิดตัว Stratovox ในปี 1980 (เกมอาร์เคดแนวยิง) โดย Sun Electronics และ Manbiki Shoujo (แปลเป็นภาษาอังกฤษว่า Shoplifting Girl) เป็นเกมคอมพิวเตอร์ส่วนบุคคลเกมแรกที่สามารถสังเคราะห์เสียงได้ เกมอิเล็กทรอนิกส์ Milton ก็เปิดตัวในปี 1980 เช่นกัน ซึ่งเป็นเกมอิเล็กทรอนิกส์เกมแรกของ The Milton Bradley Company ที่สามารถสังเคราะห์เสียงมนุษย์ได้

ในปี 1983 เครื่องสังเคราะห์เสียงแบบอคูสติก-กลไกที่เรียกว่า DECtalk ได้ถูกพัฒนา DECtalk เข้าใจการสะกดคำแบบเสียง ทำให้สามารถปรับแต่งการออกเสียงของคำที่ไม่คุ้นเคยได้ การสะกดคำแบบเสียงนี้ยังสามารถรวมตัวบ่งชี้โทนเสียงที่ DECtalk จะใช้เมื่อออกเสียงส่วนประกอบเสียง ทำให้ DECtalk สามารถร้องเพลงได้

ในช่วงปลายทศวรรษ 80 Steve Jobs ได้สร้าง NeXT ซึ่งเป็นระบบที่พัฒนาโดย Trillium Sound Research แม้ว่า NeXT จะไม่ประสบความสำเร็จ Jobs ก็ได้นำโปรแกรมนี้มารวมกับ Apple ในช่วงทศวรรษ 90

ทศวรรษ 1990

ระบบสังเคราะห์เสียงในช่วงแรก ๆ ฟังดูเป็นเสียงหุ่นยนต์อย่างชัดเจน แต่สิ่งนี้เริ่มเปลี่ยนแปลงในช่วงปลายทศวรรษ 80 และต้นทศวรรษ 90 การใช้พยัญชนะที่นุ่มนวลขึ้นทำให้เครื่องพูดสูญเสียความเป็นอิเล็กทรอนิกส์และฟังดูเป็นธรรมชาติมากขึ้น ในปี 1990 Ann Syrdal ที่ AT&T Bell Laboratories ได้พัฒนาเสียงสังเคราะห์ของผู้หญิง วิศวกรทำงานเพื่อทำให้เสียงฟังดูเป็นธรรมชาติมากขึ้นในช่วงทศวรรษ 90

ในปี 1999 Microsoft ได้เปิดตัว Narrator ซึ่งเป็นโซลูชันการอ่านหน้าจอที่ปัจจุบันรวมอยู่ในทุกสำเนาของ Microsoft Windows

ทศวรรษ 2000

การสังเคราะห์เสียงประสบปัญหาในช่วงทศวรรษ 2000 เนื่องจากนักพัฒนาพยายามสร้างมาตรฐานที่ตกลงกันได้สำหรับการสังเคราะห์เสียง เนื่องจากเสียงเป็นสิ่งที่มีลักษณะเฉพาะบุคคลสูง ทำให้ยากที่ผู้คนทั่วโลกจะมารวมตัวกันและตกลงกันในเรื่องการออกเสียงที่ถูกต้องของเสียงพยัญชนะ เสียงสระ การเน้นเสียง โทนเสียง รูปแบบการเล่นซ้ำ และการเน้นเสียง

คุณภาพของเสียงสังเคราะห์แบบฟอร์แมนต์ก็กลายเป็นเรื่องที่น่ากังวลมากขึ้นในทศวรรษ 90 เนื่องจากวิศวกรและนักวิจัยสังเกตว่าคุณภาพของระบบที่ใช้ในห้องปฏิบัติการเพื่อเล่นเสียงสังเคราะห์มักจะก้าวหน้ากว่าอุปกรณ์ที่ผู้ใช้มี เมื่อพูดถึงการสังเคราะห์เสียง หลายคนคิดถึงเครื่องสังเคราะห์เสียงของ Stephen Hawking ซึ่งให้เสียงที่ฟังดูเป็นหุ่นยนต์และมีโทนเสียงมนุษย์น้อย

ในปี 2005 นักวิจัยในที่สุดก็มาถึงข้อตกลงบางประการและเริ่มใช้ชุดข้อมูลเสียงร่วมกัน ทำให้พวกเขาสามารถทำงานจากอุดมคติพื้นฐานเดียวกันเมื่อสร้างระบบสังเคราะห์เสียงระดับสูง

ในปี 2007 มีการศึกษาที่แสดงให้เห็นว่าผู้ฟังสามารถบอกได้ว่าคนที่พูดกำลังยิ้มอยู่หรือไม่ นักวิจัยยังคงทำงานเพื่อหาวิธีใช้ข้อมูลนี้เพื่อสร้างซอฟต์แวร์การรู้จำเสียงและการสังเคราะห์เสียงที่เป็นธรรมชาติมากขึ้น

ทศวรรษ 2010

ปัจจุบัน ผลิตภัณฑ์สังเคราะห์เสียงที่ใช้สัญญาณเสียงมีอยู่ทุกที่ ตั้งแต่ Siri ถึง Alexa เครื่องสังเคราะห์เสียงอิเล็กทรอนิกส์ไม่เพียงแต่ทำให้ชีวิตง่ายขึ้น แต่ยังทำให้ชีวิตสนุกขึ้นอีกด้วย ไม่ว่าคุณจะใช้ ระบบ TTS เพื่อฟังนิยายขณะเดินทางหรือใช้แอปที่ทำให้การเรียนรู้ภาษาต่างประเทศง่ายขึ้น เป็นไปได้ว่าคุณกำลังใช้เทคโนโลยีข้อความเป็นเสียงเพื่อกระตุ้นเครือข่ายประสาทของคุณในแต่ละวัน

อนาคต

ในปีต่อ ๆ ไป เป็นไปได้ว่าเทคโนโลยีสังเคราะห์เสียงจะมุ่งเน้นไปที่การสร้างแบบจำลองของสมองเพื่อทำความเข้าใจให้ดีขึ้นว่าเราบันทึกข้อมูลเสียงในจิตใจของเราอย่างไร เทคโนโลยีเสียงจะทำงานเพื่อทำความเข้าใจบทบาทของอารมณ์ในเสียงให้ดีขึ้น และจะใช้ข้อมูลนี้เพื่อสร้าง เสียง AI ที่ไม่สามารถแยกแยะได้จากมนุษย์จริง ๆ

เทคโนโลยีสังเคราะห์เสียงล่าสุด: Speechify

เมื่อเรียนรู้เกี่ยวกับการเปลี่ยนแปลงจากเทคโนโลยีสังเคราะห์เสียงในอดีต มันน่าทึ่งที่จินตนาการได้ว่าวิทยาศาสตร์ได้ก้าวไกลแค่ไหน ปัจจุบัน แอปอย่าง Speechify ทำให้การแปลงข้อความใด ๆ เป็นไฟล์เสียงเป็นเรื่องง่าย เพียงแค่กดปุ่ม (หรือแตะบนแอป) Speechify สามารถแปลงเว็บไซต์ เอกสาร และภาพของข้อความให้เป็นเสียงที่ฟังดูเป็นธรรมชาติได้ ห้องสมุดของ Speechify ซิงค์ข้ามอุปกรณ์ทั้งหมดของคุณ ทำให้ง่ายต่อการเรียนรู้และทำงานขณะเดินทาง ลองดูแอป Speechify ในทั้ง App Store ของ Apple และ Android Google Play

คำถามที่พบบ่อย

ใครเป็นผู้คิดค้นข้อความเป็นเสียง?

ข้อความเป็นเสียงสำหรับภาษาอังกฤษถูกคิดค้นโดย Noriko Umeda ระบบนี้พัฒนาขึ้นในห้องปฏิบัติการ Electrotechnical ในญี่ปุ่นในปี 1968

วัตถุประสงค์ของข้อความเป็นเสียงคืออะไร?

หลายคนใช้เทคโนโลยีแปลงข้อความเป็นเสียง สำหรับผู้ที่ชอบรับข้อมูลในรูปแบบเสียง เทคโนโลยี TTS ช่วยให้การรับข้อมูลที่จำเป็นสำหรับการทำงานหรือการเรียนรู้เป็นเรื่องง่าย โดยไม่ต้องใช้เวลาหลายชั่วโมงอยู่หน้าหนังสือ ผู้เชี่ยวชาญที่มีงานยุ่งก็ใช้ TTS เพื่อให้ทันกับงานของพวกเขาเมื่อไม่สามารถนั่งอยู่หน้าจอคอมพิวเตอร์ได้ เทคโนโลยี TTS หลายประเภทถูกพัฒนาขึ้นมาเพื่อผู้ที่มีปัญหาทางการมองเห็น และ TTS ยังคงเป็นวิธีที่ยอดเยี่ยมสำหรับผู้ที่มีปัญหาทางการมองเห็นในการรับข้อมูลที่พวกเขาต้องการ

คุณจะสังเคราะห์เสียงได้อย่างไร?

ชิ้นส่วนของเสียงที่บันทึกไว้จะถูกเก็บในฐานข้อมูลในหน่วยต่างๆ ซอฟต์แวร์จะเตรียมไฟล์เสียงผ่านการเลือกหน่วย จากนั้นจึงสร้างเสียงขึ้นมา บ่อยครั้งที่ยิ่งช่วงการส่งออกของโปรแกรมกว้างเท่าใด โปรแกรมก็ยิ่งมีปัญหาในการให้ความชัดเจนของเสียงแก่ผู้ใช้มากขึ้นเท่านั้น

Speechify เป็นแพลตฟอร์ม แปลงข้อความเป็นเสียง ชั้นนำของโลกที่มีผู้ใช้งานกว่า 50 ล้านคน และได้รับรีวิวระดับ 5 ดาวมากกว่า 500,000 รีวิวในแอปพลิเคชัน iOS, Android, Chrome Extension, เว็บแอป และ แอปบน Mac ในปี 2025 Apple ได้มอบรางวัล Apple Design Award อันทรงเกียรติให้กับ Speechify ในงาน WWDC โดยกล่าวว่าเป็น “ทรัพยากรสำคัญที่ช่วยให้ผู้คนใช้ชีวิตได้ง่ายขึ้น” Speechify มีเสียงธรรมชาติกว่า 1,000 เสียงใน 60+ ภาษา และมีผู้ใช้งานในเกือบ 200 ประเทศ เสียงคนดังที่มีให้เลือกใช้งาน เช่น Snoop Dogg, Mr. Beast และ Gwyneth Paltrow สำหรับผู้สร้างสรรค์และธุรกิจ Speechify Studio มีเครื่องมือขั้นสูง เช่น AI Voice Generator, AI Voice Cloning, AI Dubbing และ AI Voice Changer Speechify ยังสนับสนุนผลิตภัณฑ์ชั้นนำด้วย Text to Speech API ที่มีคุณภาพสูงและคุ้มค่า นอกจากนี้ยังได้รับการนำเสนอใน The Wall Street Journal, CNBC, Forbes, TechCrunch และสื่อชั้นนำอื่น ๆ Speechify เป็นผู้ให้บริการแปลงข้อความเป็นเสียงที่ใหญ่ที่สุดในโลก เยี่ยมชม speechify.com/news, speechify.com/blog และ speechify.com/press เพื่อเรียนรู้เพิ่มเติม