1. หน้าแรก
  2. การเข้าถึง
  3. ข้อความจากภาพเป็นเสียง—วิธีถ่ายภาพหน้าและให้ระบบอ่านออกเสียง
Social Proof

ข้อความจากภาพเป็นเสียง—วิธีถ่ายภาพหน้าและให้ระบบอ่านออกเสียง

Speechify เป็นโปรแกรมอ่านเสียงอันดับ 1 ของโลก อ่านหนังสือ เอกสาร บทความ PDF อีเมล - ทุกอย่างที่คุณอ่าน - ได้เร็วขึ้น

แนะนำใน

forbes logocbs logotime magazine logonew york times logowall street logo
ฟังบทความนี้ด้วย Speechify!
Speechify

เรียนรู้พื้นฐานของการแปลงข้อความจากภาพเป็นเสียง - วิธีถ่ายภาพหน้าและให้ระบบอ่านออกเสียงบนอุปกรณ์มือถือหรือเดสก์ท็อปและระบบปฏิบัติการใด ๆ

TTS กำลังเป็นที่ต้องการสูงและมีให้เลือกมากมาย แต่หมายความว่าเทคโนโลยี text to speech ทั้งหมดให้ประสิทธิภาพเหมือนกันหรือไม่? โปรแกรมอ่านหน้าจอ TTS หลายตัวสามารถประมวลผลข้อความดิจิทัลจากเอกสาร Microsoft Word หน้าเว็บ HTML หรือข้อความที่คัดลอกมาจากไฟล์ข้อความอื่น ๆ แต่มีเพียงไม่กี่ตัวที่สามารถแปลงข้อความดิจิทัลที่ล็อกไว้และข้อความจากภาพให้เป็นการบรรยายที่ฟังดูเป็นธรรมชาติได้ ซึ่งใช้การรู้จำอักขระด้วยแสง (OCR)

OCR คืออะไร?

OCR หรือการรู้จำอักขระด้วยแสง เป็นเทคโนโลยีที่ออกแบบมาเพื่อการสกัดข้อมูลเฉพาะทาง มีการใช้งานในธุรกิจมากมายและยังใช้ในด้านบันเทิงและการพักผ่อน เทคโนโลยีประเภทนี้มักมีสองส่วนประกอบ มีส่วนฮาร์ดแวร์สำหรับสแกนภาพและส่วนซอฟต์แวร์สำหรับสกัดและนำข้อมูลไปใช้ใหม่ แต่ส่วนซอฟต์แวร์เป็นส่วนที่น่าตื่นเต้นและซับซ้อนที่สุด ซอฟต์แวร์ OCR สามารถแยกแยะตัวอักษรและคำทั้งหมดและจัดเรียงเป็นประโยค นอกจากนี้ยังช่วยให้ผู้ใช้แก้ไขเนื้อหาที่ล็อกไว้เดิมได้ คล้ายกับการแก้ไขไฟล์ PDF ที่มีเนื้อหาข้อความล็อกไว้

การทำงานของ OCR

การรู้จำอักขระด้วยแสง (OCR) เป็นเทคโนโลยีที่แปลงเอกสารประเภทต่าง ๆ เช่น เอกสารกระดาษที่สแกน ไฟล์ PDF หรือภาพที่ถ่ายด้วยกล้องดิจิทัล ให้เป็นข้อมูลที่แก้ไขและค้นหาได้ กระบวนการเริ่มต้นด้วยซอฟต์แวร์ OCR วิเคราะห์โครงสร้างของภาพเอกสาร ตรวจจับพื้นที่ที่มีข้อความ จากนั้นจะแบ่งพื้นที่เหล่านี้ออกเป็นบรรทัด คำ และอักขระ แต่ละอักขระจะถูกเปรียบเทียบกับชุดรูปแบบที่กำหนดไว้ล่วงหน้าหรือฝึกด้วยโมเดลการเรียนรู้ของเครื่องเพื่อระบุและแปลงเป็นข้อความที่เข้ารหัสด้วยเครื่อง การแปลงนี้ทำให้ข้อความในภาพสามารถแก้ไข ค้นหา และประมวลผลได้ในรูปแบบดิจิทัล

การรวมกันของ Text to Speech และ OCR

การรวมการรู้จำอักขระด้วยแสงกับเทคโนโลยีแปลงข้อความเป็นเสียงสร้างเครื่องมือที่ทรงพลังที่เพิ่มการเข้าถึงและประสิทธิภาพ OCR สกัดข้อความจากเอกสารที่สแกน ภาพ หรือวัสดุที่พิมพ์และแปลงเป็นข้อความที่เครื่องอ่านได้ ข้อความนี้สามารถป้อนเข้าสู่ระบบ TTS ซึ่งแปลงคำที่เขียนเป็นเสียงพูด การผสานนี้ช่วยให้เกิดการใช้งานที่หลากหลาย เช่น ช่วยผู้ที่มีความบกพร่องทางการมองเห็น "อ่าน" วัสดุที่พิมพ์ แปลงหนังสือและเอกสารเป็นหนังสือเสียง หรือให้การแปลเสียงแบบเรียลไทม์ของข้อความภาษาต่างประเทศที่พิมพ์ ด้วยการรวม OCR กับ TTS ผู้ใช้สามารถโต้ตอบกับเนื้อหาข้อความได้อย่างมีพลวัตมากขึ้น ทำให้ข้อมูลเข้าถึงได้มากขึ้นสำหรับทุกคน ไม่ว่าจะมีความสามารถในการอ่านหรือการมองเห็นอย่างไร

การใช้งาน Text to Speech OCR

การรวมเทคโนโลยี OCR และ TTS เปิดโอกาสมากมายในการทำให้ข้อมูลเข้าถึงได้และบริโภคได้ในสถานการณ์ต่าง ๆ นี่คือการใช้งานบางส่วนของ Text to Speech OCR:

  • เทคโนโลยีช่วยเหลือสำหรับผู้ที่มีความบกพร่องทางการมองเห็น: แปลงเนื้อหาที่เขียนจากหนังสือ เอกสาร หรือหน้าจอเป็นคำพูด ช่วยให้ผู้ที่มีความบกพร่องทางการมองเห็นหรือผู้ที่ตาบอด "อ่าน" เนื้อหาได้
  • การเรียนรู้และการศึกษา:
    • ช่วยนักเรียนที่มีปัญหาด้านการอ่าน: ช่วยนักเรียนที่มีปัญหาด้านการอ่านหรือดิสเล็กเซียโดยแปลงข้อความที่เขียนเป็นเสียง
    • การเรียนรู้หลายรูปแบบ: ช่วยให้ผู้เรียนสามารถอ่านและฟังเนื้อหาได้พร้อมกัน เพิ่มความเข้าใจและการจดจำ
  • การแปลและการเรียนรู้ภาษา: แปลงข้อความภาษาต่างประเทศที่เขียนเป็นคำพูด ช่วยในการออกเสียงและความเข้าใจ
  • การบริโภคเนื้อหาดิจิทัล: แปลงหนังสือ บทความข่าว และเนื้อหาข้อความที่พิมพ์อื่น ๆ เป็นหนังสือเสียงหรือพอดแคสต์สำหรับการบริโภคขณะเดินทาง
  • การเข้าถึงเอกสาร: ทำให้ไฟล์ PDF เอกสารที่สแกน และรูปแบบที่ไม่สามารถแก้ไขได้อื่น ๆ เข้าถึงได้สำหรับผู้ที่ชอบหรือจำเป็นต้องใช้เนื้อหาเสียง
  • การวิเคราะห์เอกสารประวัติศาสตร์: แปลงต้นฉบับเก่าหรือเอกสารจดหมายเหตุเป็นเนื้อหาเสียงสำหรับนักวิจัยหรือผู้ที่สนใจฟังข้อความประวัติศาสตร์
  • ธุรกิจและประสิทธิภาพ: แปลงรายงานที่พิมพ์ที่ไม่ใช่ดิจิทัลเป็นเนื้อหาที่พูดสำหรับมืออาชีพที่ยุ่ง
  • การตรวจสอบข้อผิดพลาด: ช่วยนักเขียนหรือนักแก้ไขระบุข้อผิดพลาดในเนื้อหาที่เขียนบนกระดาษโดยการฟัง
  • ความบันเทิง: แปลงหนังสือการ์ตูน นิยายภาพ หรือสื่อที่เน้นภาพอื่น ๆ ให้เป็นประสบการณ์การฟัง

วิธีอ่านข้อความจากภาพออกเสียง

ไม่ใช่ผู้ใช้ทุกคนของอุปกรณ์มือถือ Apple และ Android ที่รู้ว่าแอปของพวกเขาอาจมีเทคโนโลยี OCR และเครื่องอ่าน TTS ที่สามารถทำงานแปลงข้อความเป็นเสียงได้ง่ายๆ ลองพิจารณาคุณสมบัติ TTS ที่มีอยู่ในตัวเหมือนแอปที่อ่านให้คุณฟังฟรี หรือเหมือนแอปฟรีที่อ่านข้อความจากกล้อง แต่คุณภาพของมันไม่ดีเท่าโปรแกรมแปลงข้อความเป็นเสียงที่มีความก้าวหน้ามากกว่า นี่คือวิธีการเข้าถึงเครื่องอ่านข้อความจากภาพบนอุปกรณ์ Android และ Apple:

Android

อุปกรณ์ Android อย่างน้อยที่ใช้ระบบปฏิบัติการ Android 12 ขึ้นไป มาพร้อมกับเครื่องอ่าน TTS ในตัว เป็นเครื่องมือที่มีประโยชน์สำหรับการนำทาง การอ่านฟอนต์ขนาดเล็ก ฯลฯ แต่คุณยังสามารถใช้มันเพื่ออ่านข้อความจากภาพได้ นี่คือวิธีการตั้งค่าอุปกรณ์ของคุณ:

  • ไปที่เมนู “การช่วยการเข้าถึง” ผ่านแอป “การตั้งค่า”
  • เปิดใช้งานตัวเลือก “เลือกเพื่อพูด”
  • ไปที่แท็บ “การตั้งค่า” ของเครื่องอ่าน TTS และเปิดใช้งานตัวเลือก “อ่านข้อความบนภาพ”
  • กลับไปที่หน้าจอหลักและเปิดแอป “กล้อง”
  • ชี้กล้องไปที่หนังสือ หนังสือพิมพ์ หรือหน้าจออื่นที่มีข้อความดิจิทัล
  • แตะปุ่ม “เลือกเพื่อพูด” ก่อนแตะที่คำในแอป “กล้อง”

เครื่องอ่าน TTS ของ Android จะเริ่มบรรยายจากคำที่ไฮไลต์ คุณสามารถเลือกข้อความเป็นชิ้นๆ โดยลากนิ้วของคุณผ่านหน้าจอเพื่อทำการเลือก เหมือนกับการใช้โปรแกรมประมวลผลคำ

Apple

การอ่านข้อความทางกายภาพออกเสียงด้วย iPhone ต้องการกล้องที่ใช้งานได้ iOS 15 ขึ้นไป และเปิดใช้งานเครื่องอ่าน TTS ในตัว

  • ไปที่แท็บ “การช่วยการเข้าถึง” จากเมนู “การตั้งค่า”
  • แตะที่ฟีเจอร์ “เนื้อหาที่พูด”
  • เปิดใช้งานตัวเลือก “พูดการเลือก” และ “พูดหน้าจอ”
  • กลับไปที่หน้าจอหลักและเปิดกล้อง
  • ชี้กล้องไปที่หน้าและรอให้ปุ่ม “ข้อความสด” ปรากฏบนแถบเครื่องมือด้านล่าง
  • แตะปุ่มเพื่อเปิดใช้งานการอ่านหน้าจอ OCR
  • ปัดลงด้วยสองนิ้วเพื่อเริ่มอ่านจากด้านบนของหน้า
  • แตะคำหรือทำการเลือกบนหน้าจอเพื่ออ่านออกเสียงคำ ประโยค หรือย่อหน้าเฉพาะ

เช่นเดียวกับอุปกรณ์ Android, iPads และ iPhones มีความสามารถ OCR และ TTS ที่จำกัด แม้ว่าความแม่นยำในการประมวลผลคำจะสูงกว่าค่าเฉลี่ย แต่คุณภาพเสียงยังไม่ดีเนื่องจากลักษณะเสียงที่เป็นหุ่นยนต์

Speechify—TTS ที่ดีที่สุดพร้อมเทคโนโลยี OCR

แม้ว่าเครื่องอ่าน TTS และซอฟต์แวร์ OCR ที่มีอยู่ในตัวจะเป็นสิ่งที่ดีที่มีในอุปกรณ์มือถือ แต่คุณภาพและประสิทธิภาพของมันยังไม่ประทับใจ โชคดีที่คุณมีแอปอ่านข้อความทางเลือก Speechify เป็น เครื่องอ่านข้อความเป็นเสียง ที่รวมเทคโนโลยี OCR และเสียงที่สร้างจาก AI คุณภาพสูง ฟังก์ชันการทำงานของมันเกินกว่าที่เครื่องอ่านข้อความมือถือทั่วไปสามารถทำได้ และสามารถสแกนหนังสือและเอกสารทางกายภาพทั้งหมดเพื่อประมวลผลข้อความทางกายภาพเป็นข้อความดิจิทัล จากนั้นอัลกอริธึมที่ซับซ้อนจะสร้างเสียงที่ฟังดูเป็นธรรมชาติที่คุณสามารถควบคุมและปรับให้เข้ากับความเร็วในการอ่านที่คุณต้องการ ซอฟต์แวร์แปลงข้อความเป็นเสียง Speechify มีให้บริการบนแพลตฟอร์มต่อไปนี้:

ไม่ว่าคุณจะได้รับจาก Apple App Store หรือ Google Play Store หรือดาวน์โหลดเวอร์ชันเดสก์ท็อป Mac หรือส่วนขยายเบราว์เซอร์ Chrome ใบอนุญาตเดียวก็เพียงพอที่จะใช้ Speechify บนอุปกรณ์เดสก์ท็อปและมือถือทั้งหมดของคุณ อินเทอร์เฟซที่ใช้งานง่ายดึงดูดกลุ่มอายุและพื้นฐานทางเทคนิคทั้งหมด การสแกน OCR ของ Speechify มีให้สำหรับการอ่านออนไลน์แบบเรียลไทม์

ออกแบบมาสำหรับผู้ใช้ที่มีภาวะดิสเล็กเซีย ความบกพร่องในการอ่าน การมองเห็น และผู้ที่ทำหลายอย่างพร้อมกัน เทคโนโลยีช่วยเหลือของ Speechify ทำได้มากกว่าการอ่านหน้าจอเต็มรูปแบบทั่วไป มันคือแอปที่คุณต้องการเพื่อเปลี่ยนข้อความดิจิทัลและทางกายภาพให้เป็น หนังสือเสียง สร้างพอดแคสต์ และปรับปรุงทักษะการอ่านของคุณด้วยความพยายามน้อยลงและมีสมาธิมากขึ้น ลองใช้ Speechify ฟรี แอปแปลงข้อความเป็นเสียงและปรับแต่งประสบการณ์การอ่านที่ดื่มด่ำ

Cliff Weitzman

คลิฟ ไวซ์แมน

คลิฟ ไวซ์แมน เป็นผู้สนับสนุนด้านดิสเล็กเซียและเป็น CEO และผู้ก่อตั้ง Speechify แอปพลิเคชันแปลงข้อความเป็นเสียงอันดับ 1 ของโลก ที่มีรีวิว 5 ดาวมากกว่า 100,000 รีวิว และครองอันดับหนึ่งใน App Store ในหมวดข่าวและนิตยสาร ในปี 2017 ไวซ์แมนได้รับการยกย่องในรายชื่อ Forbes 30 under 30 จากผลงานของเขาในการทำให้อินเทอร์เน็ตเข้าถึงได้มากขึ้นสำหรับผู้ที่มีความบกพร่องในการเรียนรู้ คลิฟ ไวซ์แมน ได้รับการนำเสนอใน EdSurge, Inc., PC Mag, Entrepreneur, Mashable และสื่อชั้นนำอื่น ๆ