Social Proof

เสียงข้อความเป็นเสียงพูด ทำงานอย่างไร?

Speechify เป็นโปรแกรมอ่านเสียงอันดับ 1 ของโลก อ่านหนังสือ เอกสาร บทความ PDF อีเมล - ทุกอย่างที่คุณอ่าน - ได้เร็วขึ้น

แนะนำใน

forbes logocbs logotime magazine logonew york times logowall street logo

ฟังบทความนี้ด้วย Speechify!
Speechify

เสียงข้อความเป็นเสียงพูดทำงานอย่างไร? เราจะพูดถึงเทคโนโลยี AI ที่เปลี่ยนคำให้กลายเป็นเสียงที่ฟังดูเป็นธรรมชาติ - ได้ทันที!

แม้ว่าคอนเซ็ปต์ของเสียงข้อความเป็นเสียงพูด - หรือซอฟต์แวร์คอมพิวเตอร์ที่สามารถอ่านคำบนหน้าจอคอมพิวเตอร์ออกเสียงให้ผู้ใช้ฟัง - จะไม่ใช่เรื่องใหม่ แต่ดูเหมือนว่าจะมีการปฏิวัติในช่วงไม่กี่ปีที่ผ่านมา

ตามการศึกษาล่าสุด ตลาดเสียงข้อความเป็นเสียงพูดมีมูลค่าถึง 2 พันล้านดอลลาร์ในปี 2020 ส่วนหนึ่งเนื่องจากผลกระทบของการแพร่ระบาดของ COVID-19 ที่ยังคงดำเนินอยู่ ไม่เพียงแค่นั้น แต่คาดว่าจะเติบโตเป็น 5 พันล้านดอลลาร์ภายในปี 2026 ซึ่งเป็นอัตราการเติบโตต่อปีที่น่าประทับใจถึง 14.6%

ส่วนใหญ่สามารถอธิบายได้จากวิธีที่ เสียงข้อความเป็นเสียงพูด ช่วยเหลือผู้ที่มีปัญหาด้านการมองเห็นหลากหลายรูปแบบ ตามข้อมูลจากศูนย์ควบคุมและป้องกันโรค ประมาณ 12 ล้านคนที่มีอายุมากกว่า 40 ปีในสหรัฐอเมริกามีปัญหาในการประมวลผลข้อมูลทางสายตา ในจำนวนนั้น หนึ่งล้านคนตาบอดสนิทและแปดล้านคนมีปัญหาด้านการมองเห็นเนื่องจากข้อผิดพลาดในการหักเหแสงที่ไม่ได้รับการแก้ไข ตัวเลขนี้เพิ่มขึ้นจาก 4.2 ล้านคนในปี 2012

ทั้งหมดนี้เพื่อบอกว่า เทคโนโลยีเสียงข้อความเป็นเสียงพูด ได้พิสูจน์คุณค่าของมันมาหลายปีแล้ว หลายโซลูชันเช่น Speechify ยังมีเสียงคุณภาพสูงหลายเสียงให้ผู้ใช้เลือกตามความต้องการ แต่โซลูชันเหล่านี้ทำงานอย่างไรและทำไมถึงมีตัวเลือกเสียงมากมาย? คำตอบของคำถามเหล่านี้ต้องการให้คุณคำนึงถึงบางสิ่งที่สำคัญ

การทำงานภายในของเสียงข้อความเป็นเสียงพูด

ก่อนที่คุณจะไปถึงเสียงจริงที่อยู่เบื้องหลัง เสียงข้อความเป็นเสียงพูด สิ่งสำคัญคือต้องเข้าใจว่าโซลูชันเหล่านี้ทำงานอย่างไรในเบื้องต้น

เสียงข้อความเป็นเสียงพูดใช้ปัญญาประดิษฐ์ การเรียนรู้ของเครื่อง และเทคโนโลยีที่คล้ายกันเพื่อเปลี่ยนคำที่เขียนบนหน้าเว็บหรือหน้าจอให้เป็นเนื้อหาเสียงที่สามารถอ่านออกเสียงได้ ซึ่งรวมถึงเนื้อหาของเว็บไซต์หรือบทความ และข้อความที่เขียนในแอปพลิเคชันเช่น Microsoft Word และอื่นๆ

เนื้อหาเสียงเองถูกสร้างขึ้นโดยอุปกรณ์ที่ใช้งาน นอกจากจะทำงานบนคอมพิวเตอร์เดสก์ท็อปและแล็ปท็อปแล้ว เสียงข้อความเป็นเสียงพูดยังมีให้ใช้งานบนสมาร์ทโฟน แท็บเล็ต หรืออุปกรณ์เคลื่อนที่อื่นๆ ที่มีอยู่ในตลาดปัจจุบัน

ในโซลูชันส่วนใหญ่ การประมวลผลเสียงข้อความเป็นเสียงพูดจะถูกจัดการในอุปกรณ์เอง ซึ่งทำให้เสียงข้อความเป็นเสียงพูดมีคุณค่าแม้ไม่มีการเชื่อมต่ออินเทอร์เน็ต

นอกจากจะช่วยให้ผู้ที่มีปัญหาด้านการมองเห็นสามารถเข้าถึงและเข้าใจเนื้อหาที่เขียนได้แล้ว เสียงข้อความเป็นเสียงพูดยังมีประโยชน์เพราะสามารถควบคุมระดับเสียงและความเร็วของเสียงได้ หากคุณต้องการชะลอเพื่อให้เข้าใจได้ดีขึ้น คุณก็ทำได้ หรือหากต้องการเร่งเสียงเพื่อผ่านเนื้อหาได้เร็วขึ้น คุณก็ทำได้เช่นกัน

เสียงข้อความเป็นเสียงพูด: การแยกแยะ

เมื่อพูดถึงเสียงจริงที่ใช้โดยโซลูชันเสียงข้อความเป็นเสียงพูดเหล่านี้ สุดท้ายแล้วทั้งหมดขึ้นอยู่กับแนวคิดที่เรียกว่า เครื่องสังเคราะห์เสียง.

เครื่องสังเคราะห์เสียงคืออะไร?

การสังเคราะห์เสียงเป็นรูปแบบของการแสดงผลที่ทำให้อุปกรณ์ของคุณ (หรืออุปกรณ์อื่น) อ่านคำออกเสียงในเสียงที่เลือกไว้ล่วงหน้า แนวคิดนี้ไม่ต่างจากการอ่านคำบนหน้าด้วยตัวเองหรือแม้แต่พิมพ์ออกมา - คุณยังคงพูดถึงวิธีที่คอมพิวเตอร์แสดงข้อมูลที่ร้องขอ เพียงแต่แทนที่จะทำผ่านข้อความเพียงอย่างเดียว มันทำผ่านเสียงที่คุณสามารถได้ยินผ่านลำโพงหรือหูฟัง

โดยทั่วไปแล้ว การสังเคราะห์เสียงทำงานผ่านโซลูชันที่คุณใช้งานตามขั้นตอนพื้นฐานที่สำคัญหลายขั้นตอน ขั้นตอนแรกคือการแปลงข้อความบนหน้าให้เป็นคำ

ขั้นตอนที่ 1: การประมวลผลล่วงหน้า

ในส่วนนี้ของกระบวนการ โซลูชันเสียงข้อความเป็นเสียงพูดจะวิเคราะห์คำในเนื้อหาที่คุณต้องการอ่านและนำตัวอักษร - ซึ่งเป็นเพียงสัญลักษณ์ - และแปลงเป็นคำ ส่วนนี้ของกระบวนการมีความสำคัญ เนื่องจากคำที่เขียนอาจมีความคลุมเครือมากกว่าที่คนคิด คำหรือวลีบางคำอาจมีความหมายหลายอย่าง เช่นเดียวกับที่คอมพิวเตอร์ต้องสามารถ "เข้าใจ" ความแตกต่างระหว่างคำว่า "their," "there" และ "they're" - สามคำที่ออกเสียงเหมือนกันแต่สามารถเปลี่ยนบริบทของประโยคได้อย่างมาก

นี่คือที่ที่ปัญญาประดิษฐ์และการเรียนรู้ของเครื่องเข้ามามีบทบาท ด้วย AI โซลูชันเสียงข้อความเป็นเสียงพูดสามารถ "ฝึก" เพื่อลดความคลุมเครือนี้ให้มากที่สุด ขั้นตอนนี้ของกระบวนการเสียงข้อความเป็นเสียงพูดเรียกว่า "การประมวลผลล่วงหน้า" เนื่องจากมันเกิดขึ้น "เบื้องหลัง" ก่อนที่แอปพลิเคชันที่เกี่ยวข้องจะอ่านอะไรออกเสียง

นี่คือช่วงที่โซลูชันแปลงข้อความเป็นเสียงจะสามารถแยกแยะคำที่สะกดเหมือนกันแต่เสียงต่างกันตามการใช้งานได้ "Read" เป็นตัวอย่างที่ดี เพราะคุณอาจต้องการอ่านหนังสือเพื่อผ่อนคลายในเย็นนี้ แม้ว่าคุณจะเคยอ่านหนังสือเล่มนั้นมานับครั้งไม่ถ้วนในอดีต มนุษย์สามารถแยกแยะความหมายของคำเหล่านี้ได้ง่ายจากบริบท - ปัญญาประดิษฐ์ถูกนำมาใช้ในด้านการคำนวณเพื่อให้ได้ผลลัพธ์ที่คล้ายกัน

สิ่งที่ยากพอๆ กันในช่วงนี้คือเรื่องของตัวเลข คำย่อ อักษรย่อ และอื่นๆ อักขระพิเศษเช่นเครื่องหมายดอลลาร์ก็ยากที่จะ "แปล" กว่าคำที่เขียนเพียงอย่างเดียว นี่คือเหตุผลที่ขั้นตอนการประมวลผลล่วงหน้ามีความสำคัญ - มันช่วยให้มั่นใจได้ว่าทุกสิ่งที่จะถูกอ่านออกเสียงในที่สุดนั้นมีความหมายในบริบทที่ตั้งใจไว้

ขั้นตอนที่ 2: การเข้าใจการออกเสียง

เมื่อข้อความได้รับการวิเคราะห์และโซลูชันแปลงข้อความเป็นเสียง "เข้าใจ" ว่าคำใดต้องถูกพูดออกเสียง ส่วนต่อไปของกระบวนการก็เริ่มขึ้น นี่คือช่วงที่คำเหล่านั้นถูกแปลงเป็นโฟนีม - โดยพื้นฐานแล้วคือการเรียนรู้วิธีการออกเสียงคำในข้อความอย่างเหมาะสม

นี่คือส่วนหนึ่งของกระบวนการที่ได้พัฒนาขึ้นอย่างมากในช่วงหลายปีที่ผ่านมา หากคุณเคยมีโอกาสใช้โซลูชันแปลงข้อความเป็นเสียงจากยุค 1990 (หรือเคยดูภาพยนตร์เก่าจากยุค 1970 หรือ 80 ที่มีฉากแปลงข้อความเป็นเสียง) คุณอาจเคยเจอเสียงคอมพิวเตอร์ที่ไม่เป็นธรรมชาติ มันสามารถระบุได้ทันทีว่าเป็นเสียงที่สร้างโดยคอมพิวเตอร์ และแม้ว่าคุณจะเข้าใจสิ่งที่มันพูด แต่คำส่วนใหญ่ก็มักจะออกเสียงผิด

ขั้นตอนที่ 3: การเริ่มต้นแปลงเป็นเสียง

เมื่อโฟนีมเหล่านั้นถูกระบุแล้ว โซลูชันแปลงข้อความเป็นเสียงจะเข้าสู่ส่วนสุดท้ายของกระบวนการ: การแปลงข้อมูลนั้นเป็นเสียงที่สามารถเล่นออกลำโพงหรือหูฟังของอุปกรณ์ได้

นี่คือสิ่งที่เกิดขึ้นในหลายวิธีที่แตกต่างกันขึ้นอยู่กับโซลูชันที่คุณใช้ หนึ่งในนั้นคือการให้นักแสดงหรือดาราอ่านรายการโฟนีมออกเสียง จากนั้นข้อมูลนั้นจะถูกป้อนกลับเข้าสู่คอมพิวเตอร์และโซลูชันเอง จากนั้นเมื่อแอปพลิเคชันสแกนบล็อกข้อความเฉพาะ มันสามารถจับคู่โฟนีมที่พบในหน้ากับโฟนีมที่บันทึกไว้ก่อนหน้านี้ได้ จากนั้นมันจะรวมสองสิ่งนี้เข้าด้วยกันเพื่อเล่นเวอร์ชันเสียงของข้อความในวิธีที่เป็นธรรมชาติมากกว่าที่เคย

บางโซลูชันยังคงอนุญาตให้คอมพิวเตอร์สร้างเสียงเอง มันยังคงทำงานในลักษณะเดียวกัน เพียงแต่ "เสียง" ไม่ได้อิงจากเสียงที่บันทึกไว้ก่อนหน้านี้ แต่ถูกสร้างขึ้นโดยการสร้างความถี่เสียงเฉพาะในลำดับที่เหมาะสม

ในแง่นั้น มันไม่ต่างจากวิธีที่เครื่องสังเคราะห์เสียงดนตรีอาจอนุญาตให้นักดนตรีเลียนแบบเสียงของเครื่องดนตรีโดยใช้คีย์บอร์ดมาตรฐานที่เชื่อมต่อกับคอมพิวเตอร์ พวกเขาสามารถเล่นคีย์บอร์ดเหมือนที่เล่นเปียโน แม้ว่าจะเป็นเสียงดนตรีจากเปียโน แต่แต่ละคีย์อาจเลียนแบบคอร์ดต่างๆ บนกีตาร์หรือเสียงจากกลอง มันยังคงเป็นคอมพิวเตอร์ที่ "เข้าใจ" เจตนาของการกดคีย์แต่ละครั้งและจับคู่กับเสียงที่เหมาะสม แม้จะอยู่ในบริบทที่ต่างกัน

ตัวเลือกเสียงและอื่นๆ

ส่วนหนึ่งของเหตุผลที่มีตัวเลือกเสียงที่หลากหลายในโซลูชันแปลงข้อความเป็นเสียง voice generator เพราะมันไม่ได้ยากที่จะสร้างอย่างที่หลายคนคิด โฟนีมที่จำเป็นสำหรับ AI voice generator ทำงานนั้นค่อนข้างทั่วไปในภาษามนุษย์ ดังนั้นสิ่งที่ต้องทำคือให้นักแสดงหรือดารานั่งหน้ามิโครโฟน อ่านสคริปต์สั้นๆ ที่มีโฟนีมที่จำเป็นทั้งหมด จากนั้นข้อมูลนั้นสามารถป้อนกลับเข้าสู่โซลูชันเอง

เทคโนโลยีเสียง AI จะรู้จักโฟนีมแต่ละตัวโดยแยกการบันทึกนั้นออกเป็นส่วนประกอบและใช้ส่วนที่จำเป็นเพื่อสร้างเสียงแปลงข้อความเป็นเสียงที่ถูกต้องเมื่อผู้ใช้พยายามอ่านเว็บไซต์หรือเนื้อหาอื่นๆ

แน่นอนว่ายังมีการใช้งานอื่นๆ อีกมากมายสำหรับเครื่องสร้างเสียงที่ฟังดูเป็นธรรมชาตินี้ นอกเหนือจากการช่วยเหลือผู้ที่มีปัญหาทางสายตา ในช่วงไม่กี่ปีที่ผ่านมา สาธารณชนได้ให้ความสนใจใน AI speech และการสร้างเสียงมากขึ้นเนื่องจากเครือข่ายสังคมออนไลน์อย่าง TikTok

TikTok เป็นหนึ่งในแบรนด์ใหญ่ที่ยอมรับการสร้างเสียง AI โดยอนุญาตให้ผู้ใช้บันทึกวิดีโอ ใส่ข้อความลงบนวิดีโอเหล่านั้น และให้การสังเคราะห์เสียง อ่านเนื้อหานั้นออกเสียง มันเป็นวิธีที่สนุกในการเพิ่มชั้นของการมีส่วนร่วมเพิ่มเติมให้กับเนื้อหาที่โพสต์บน TikTok และมันจะยิ่งได้รับความนิยมมากขึ้นเมื่อเวลาผ่านไป

อนาคตของการแปลงข้อความเป็นเสียงมาถึงแล้ว

ในที่สุด การแปลงข้อความเป็นเสียงเป็นเครื่องมือที่มีคุณค่าเพราะสิ่งที่มันทำให้เราสามารถทำได้ มันช่วยให้ผู้ที่มีปัญหาทางสายตาสามารถเพลิดเพลินและเข้าใจเนื้อหาเดียวกันกับคนอื่นๆ ได้ทั้งหมดตามเงื่อนไขของตนเอง มันสามารถแปลงโพสต์บล็อก บทความ เอกสาร กระดาษขาว หรือเนื้อหาที่พิมพ์อื่นๆ ให้เป็นประสบการณ์เสียงที่ง่ายต่อการบริโภค ช่วยให้คุณเพลิดเพลินได้ไม่เพียงแค่ที่บ้าน แต่ยังระหว่างการเดินทาง ขณะอยู่ที่ยิม เป็นต้น

ไม่เพียงแต่ทำให้ชีวิตของเรามีประสิทธิภาพมากขึ้น แต่ยังช่วยแก้ปัญหาสำคัญต่างๆ ที่กล่าวถึงข้างต้นอีกด้วย จากทั้งหมดนี้ จึงไม่แปลกใจเลยว่าทำไมการสังเคราะห์เสียงและ AI เสียงถึงได้รับความนิยมอย่างมากในช่วงไม่กี่ปีที่ผ่านมา

หากคุณต้องการข้อมูลเพิ่มเติมเกี่ยวกับเสียงข้อความเป็นเสียงพูด หรือหากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับวิธีที่โซลูชันนี้สามารถเป็นประโยชน์ต่อชีวิตของคุณ โปรดอย่ารอช้า - ลองใช้ Speechify ฟรีวันนี้.

Speechify เป็นแอปที่ได้รับการจัดอันดับ #1 ใน App store ด้วยเสียงที่ฟังดูเป็นธรรมชาติที่สุดและประสบการณ์ผู้ใช้ที่ยอดเยี่ยมพร้อมเสียงที่ปรับแต่งได้มากมาย

Speechify มีให้เลือกหลายรูปแบบ: สำหรับ ผู้ใช้เดี่ยว, กลุ่ม, หรือ API สำหรับธุรกิจ ทุกขนาด

Tyler Weitzman

ไทเลอร์ ไวซ์แมน

ไทเลอร์ ไวซ์แมน เป็นผู้ร่วมก่อตั้ง หัวหน้าฝ่ายปัญญาประดิษฐ์ และประธานของ Speechify แอปพลิเคชันแปลงข้อความเป็นเสียงอันดับหนึ่งของโลก ที่มีรีวิว 5 ดาวมากกว่า 100,000 รีวิว ไวซ์แมนจบการศึกษาจากมหาวิทยาลัยสแตนฟอร์ด โดยได้รับปริญญาตรีด้านคณิตศาสตร์และปริญญาโทด้านวิทยาการคอมพิวเตอร์ในสาขาปัญญาประดิษฐ์ เขาได้รับการคัดเลือกจากนิตยสาร Inc. ให้เป็นหนึ่งใน 50 ผู้ประกอบการยอดเยี่ยม และได้รับการนำเสนอในสื่อหลายแห่ง เช่น Business Insider, TechCrunch, LifeHacker, CBS งานวิจัยปริญญาโทของไวซ์แมนมุ่งเน้นไปที่ปัญญาประดิษฐ์และการแปลงข้อความเป็นเสียง โดยมีบทความสุดท้ายชื่อว่า “CloneBot: Personalized Dialogue-Response Predictions.”