Social Proof

AI สามารถเลียนแบบเสียงมนุษย์ได้หรือไม่?

Speechify เป็นโปรแกรมสร้างเสียง AI อันดับ 1 สร้างเสียงบรรยายคุณภาพสูงในเวลาจริง บรรยายข้อความ วิดีโอ อธิบาย – ทุกอย่างที่คุณมี – ในสไตล์ใดก็ได้

กำลังมองหา โปรแกรมอ่านออกเสียงข้อความของเราอยู่หรือเปล่า?

แนะนำใน

forbes logocbs logotime magazine logonew york times logowall street logo
ฟังบทความนี้ด้วย Speechify!
Speechify

ปัญญาประดิษฐ์ (AI) ได้เข้ามามีบทบาทในทุกด้านของชีวิตเรา ตั้งแต่แชทบอทบนเว็บไซต์ไปจนถึงผู้สร้างเนื้อหาบนโซเชียลมีเดีย และแม้กระทั่ง...

ปัญญาประดิษฐ์ (AI) ได้เข้ามามีบทบาทในทุกด้านของชีวิตเรา ตั้งแต่แชทบอทบนเว็บไซต์ไปจนถึงผู้สร้างเนื้อหาบนโซเชียลมีเดีย และแม้กระทั่งวิดีโอเกม เทคโนโลยีเสียง AI โดยเฉพาะได้มีการพัฒนาอย่างมาก จากระบบ Text-To-Speech (TTS) พื้นฐานไปจนถึงการสร้างเสียงสังเคราะห์ที่คล้ายมนุษย์ ด้วยเครื่องมือ AI เช่น เครื่องสร้างเสียง AI และซอฟต์แวร์โคลนนิ่งเสียง AI สามารถเลียนแบบเสียงของบุคคลได้อย่างน่าเชื่อถือ

ความแตกต่างระหว่าง Text-to-Speech และ Speech Recognition

Text-to-speech (TTS) และการรู้จำเสียงพูดเป็นสองด้านของเหรียญเดียวกัน ทั้งสองเกี่ยวข้องกับเสียงมนุษย์และเทคโนโลยี AI แต่มีวัตถุประสงค์ที่แตกต่างกัน TTS เป็นรูปแบบหนึ่งของการสังเคราะห์เสียงที่แปลงข้อความเป็นเสียงพูด ใช้กันทั่วไปในหนังสือเสียง การเรียนรู้ออนไลน์ และเครื่องมือช่วยเหลือสำหรับผู้ที่มีความบกพร่องทางการได้ยิน มันใช้ AI และอัลกอริทึมการเรียนรู้ของเครื่องเพื่อสร้างเสียงสังเคราะห์จากข้อความที่เขียน

ในทางกลับกัน การรู้จำเสียงพูดคือกระบวนการที่เครื่องมือ AI ถอดเสียงพูดเป็นข้อความที่เขียน เทคโนโลยีนี้ถูกใช้อย่างมากในบริการถอดเสียงแบบเรียลไทม์ ผู้ช่วยเสียงเช่น Siri ของ Apple หรือ Alexa ของ Amazon และแม้กระทั่งบางแพลตฟอร์มโซเชียลมีเดียเช่น TikTok สำหรับคำบรรยาย

AI สามารถเลียนแบบเสียงมนุษย์ได้อย่างไร

วิธีทั่วไปที่ AI ใช้ในการเลียนแบบเสียงมนุษย์ประกอบด้วยกระบวนการสองขั้นตอน - การวิเคราะห์และการสังเคราะห์ นี่เป็นส่วนหนึ่งของเทคโนโลยีที่เรียกว่า การโคลนนิ่งเสียง ในขั้นต้น ระบบ AI ใช้อัลกอริทึมการเรียนรู้เชิงลึกและเครือข่ายประสาทเพื่อวิเคราะห์คลิปเสียงหรือการบันทึกเสียงของบุคคล โดยศึกษารูปแบบ โทนเสียง และสำเนียง

ในขั้นตอนการสังเคราะห์ AI ใช้โมเดล AI สร้างสรรค์ (เช่น ChatGPT ของ OpenAI หรือ VoCo ของ Adobe) เพื่อสร้างเสียงดิจิทัลที่สะท้อนเสียงที่วิเคราะห์แล้ว มันคล้ายกับการสร้าง deepfake แต่สำหรับเสียง โดยทั่วไปแล้วต้องการเพียงไม่กี่วินาทีของเสียงเพื่อสร้างเสียงที่สมจริง

องค์ประกอบของการสร้างเสียงมนุษย์

ในการสร้างเสียงมนุษย์ มีองค์ประกอบหลายอย่างที่เข้ามามีบทบาท ซึ่งรวมถึง:

  1. การวิเคราะห์เสียงพูด: การทำความเข้าใจโครงสร้างเสียงพูดของมนุษย์ แยกคำออกเป็นเสียงเดี่ยว
  2. การวิเคราะห์จังหวะ: การทำความเข้าใจจังหวะ ความเครียด และการเน้นเสียงของการพูด
  3. อัลกอริทึมการเรียนรู้: อัลกอริทึมการเรียนรู้ของเครื่องใช้ในการเรียนรู้จากข้อมูลเสียงและเลียนแบบรูปแบบที่คล้ายกัน
  4. โมเดลสร้างสรรค์: ใช้ในการสร้างข้อมูลเสียงใหม่ที่ตรงกับรูปแบบที่เรียนรู้

ความแตกต่างระหว่างเสียงมนุษย์และเสียง AI

แม้ว่าความก้าวหน้าจะทำให้เสียง AI ฟังดูเป็นธรรมชาติและคล้ายมนุษย์มากขึ้น แต่ก็ยังมีความแตกต่างระหว่างเสียงมนุษย์และเสียง AI ความแตกต่างหลักอยู่ที่ความละเอียดอ่อนทางอารมณ์และการเน้นเสียงที่ขับเคลื่อนด้วยบริบทที่การพูดของมนุษย์มีโดยธรรมชาติ ซึ่ง AI ยังคงเรียนรู้ที่จะเชี่ยวชาญ นอกจากนี้ยังมีข้อพิจารณาด้านจริยธรรมและความเป็นส่วนตัวในการโคลนนิ่งเสียง AI เนื่องจากการใช้งานในทางที่ผิดอาจนำไปสู่การขโมยข้อมูลประจำตัวและการหลอกลวง deepfake

ซอฟต์แวร์เสียง AI ชั้นนำ 8 อันดับ

  1. ChatGPT ของ OpenAI: ใช้ AI สร้างสรรค์เพื่อสร้างการตอบสนองข้อความที่คล้ายมนุษย์ ChatGPT สามารถรวมเข้ากับแอปพลิเคชันต่างๆ เพื่อใช้เสียงที่สมจริงด้วย AI
  2. VoCo ของ Adobe: เครื่องมือโคลนนิ่งเสียงของ Adobe, VoCo, ช่วยให้สามารถแก้ไขและสร้างเสียงพูดของมนุษย์ได้ด้วยตัวอย่างเสียงต้นฉบับเพียง 20 นาที
  3. Amazon Polly: บริการนี้แปลงข้อความเป็นเสียงพูดที่เหมือนจริง ช่วยให้นักพัฒนาสร้างแอปพลิเคชันที่พูดได้และสร้างหมวดหมู่ใหม่ของผลิตภัณฑ์ที่เปิดใช้งานเสียง
  4. Microsoft Azure Text to Speech: เป็นที่รู้จักในด้านเสียง AI ที่มีคุณภาพสูงและฟังดูเป็นธรรมชาติ ใช้กันอย่างแพร่หลายในแอปพลิเคชันการเข้าถึง ความบันเทิง และการสื่อสาร
  5. Google Text-to-Speech: บริการที่ใช้โดยบริการของ Google เพื่อสังเคราะห์เสียงพูดที่ฟังดูเป็นธรรมชาติในกว่า 30 ภาษา
  6. Descript: เครื่องมือนี้ช่วยให้ผู้ใช้สามารถสร้าง แก้ไข และปรับปรุง เสียงของตนเองสำหรับแอปพลิเคชันเช่นพอดแคสต์และการพากย์เสียง.
  7. Resemble AI: Resemble AI นำเสนอเทคโนโลยีการโคลนนิ่งเสียงสำหรับการสร้างเสียง AI ที่ไม่ซ้ำใครสำหรับแบรนด์และผลิตภัณฑ์
  8. Lyrebird: ถูกซื้อกิจการโดย Descript, Lyrebird เป็นหนึ่งในผู้เสนอซอฟต์แวร์โคลนนิ่งเสียงแรกๆ สำหรับการสร้างเสียงดิจิทัลที่สมจริง

เทคโนโลยีเสียง AI ที่ขับเคลื่อนด้วยการเรียนรู้เชิงลึกและเครือข่ายประสาทเทียมยังคงพัฒนาอย่างต่อเนื่อง ทำให้เกิดการใช้งานในหนังสือเสียง พอดแคสต์ โซเชียลมีเดีย และวิดีโอเกม ตามรายงานของ Forbes เครื่องมือ AI ใหม่ ๆ เสนอเสียงที่มีคุณภาพสูงและสมจริง ซึ่งกำลังเปลี่ยนแปลงวิธีที่เราปฏิสัมพันธ์กับเทคโนโลยี เมื่อสาขานี้ยังคงพัฒนาเส้นแบ่งระหว่างเสียงมนุษย์และเสียงที่สร้างโดย AI กำลังเลือนลางมากขึ้น อย่างไรก็ตาม นอกเหนือจากศักยภาพอันมหาศาลของเทคโนโลยีนี้ จำเป็นต้องระมัดระวังในเรื่องจริยธรรมและความเป็นส่วนตัว

Cliff Weitzman

คลิฟ ไวซ์แมน

คลิฟ ไวซ์แมน เป็นผู้สนับสนุนด้านดิสเล็กเซียและเป็น CEO และผู้ก่อตั้ง Speechify แอปพลิเคชันแปลงข้อความเป็นเสียงอันดับ 1 ของโลก ที่มีรีวิว 5 ดาวมากกว่า 100,000 รีวิว และครองอันดับหนึ่งใน App Store ในหมวดข่าวและนิตยสาร ในปี 2017 ไวซ์แมนได้รับการยกย่องในรายชื่อ Forbes 30 under 30 จากผลงานของเขาในการทำให้อินเทอร์เน็ตเข้าถึงได้มากขึ้นสำหรับผู้ที่มีความบกพร่องในการเรียนรู้ คลิฟ ไวซ์แมน ได้รับการนำเสนอใน EdSurge, Inc., PC Mag, Entrepreneur, Mashable และสื่อชั้นนำอื่น ๆ