- หน้าแรก
- การเข้าถึง
- ข้อความจากภาพเป็นเสียง—วิธีถ่ายภาพหน้าและให้ระบบอ่านออกเสียง
ข้อความจากภาพเป็นเสียง—วิธีถ่ายภาพหน้าและให้ระบบอ่านออกเสียง
แนะนำใน
เรียนรู้พื้นฐานของการแปลงข้อความจากภาพเป็นเสียง - วิธีถ่ายภาพหน้าและให้ระบบอ่านออกเสียงบนอุปกรณ์มือถือหรือเดสก์ท็อปและระบบปฏิบัติการใด ๆ
TTS กำลังเป็นที่ต้องการสูงและมีให้เลือกมากมาย แต่หมายความว่าเทคโนโลยี text to speech ทั้งหมดให้ประสิทธิภาพเหมือนกันหรือไม่? โปรแกรมอ่านหน้าจอ TTS หลายตัวสามารถประมวลผลข้อความดิจิทัลจากเอกสาร Microsoft Word หน้าเว็บ HTML หรือข้อความที่คัดลอกมาจากไฟล์ข้อความอื่น ๆ แต่มีเพียงไม่กี่ตัวที่สามารถแปลงข้อความดิจิทัลที่ล็อกไว้และข้อความจากภาพให้เป็นการบรรยายที่ฟังดูเป็นธรรมชาติได้ ซึ่งใช้การรู้จำอักขระด้วยแสง (OCR)
OCR คืออะไร?
OCR หรือการรู้จำอักขระด้วยแสง เป็นเทคโนโลยีที่ออกแบบมาเพื่อการสกัดข้อมูลเฉพาะทาง มีการใช้งานในธุรกิจมากมายและยังใช้ในด้านบันเทิงและการพักผ่อน เทคโนโลยีประเภทนี้มักมีสองส่วนประกอบ มีส่วนฮาร์ดแวร์สำหรับสแกนภาพและส่วนซอฟต์แวร์สำหรับสกัดและนำข้อมูลไปใช้ใหม่ แต่ส่วนซอฟต์แวร์เป็นส่วนที่น่าตื่นเต้นและซับซ้อนที่สุด ซอฟต์แวร์ OCR สามารถแยกแยะตัวอักษรและคำทั้งหมดและจัดเรียงเป็นประโยค นอกจากนี้ยังช่วยให้ผู้ใช้แก้ไขเนื้อหาที่ล็อกไว้เดิมได้ คล้ายกับการแก้ไขไฟล์ PDF ที่มีเนื้อหาข้อความล็อกไว้
การทำงานของ OCR
การรู้จำอักขระด้วยแสง (OCR) เป็นเทคโนโลยีที่แปลงเอกสารประเภทต่าง ๆ เช่น เอกสารกระดาษที่สแกน ไฟล์ PDF หรือภาพที่ถ่ายด้วยกล้องดิจิทัล ให้เป็นข้อมูลที่แก้ไขและค้นหาได้ กระบวนการเริ่มต้นด้วยซอฟต์แวร์ OCR วิเคราะห์โครงสร้างของภาพเอกสาร ตรวจจับพื้นที่ที่มีข้อความ จากนั้นจะแบ่งพื้นที่เหล่านี้ออกเป็นบรรทัด คำ และอักขระ แต่ละอักขระจะถูกเปรียบเทียบกับชุดรูปแบบที่กำหนดไว้ล่วงหน้าหรือฝึกด้วยโมเดลการเรียนรู้ของเครื่องเพื่อระบุและแปลงเป็นข้อความที่เข้ารหัสด้วยเครื่อง การแปลงนี้ทำให้ข้อความในภาพสามารถแก้ไข ค้นหา และประมวลผลได้ในรูปแบบดิจิทัล
การรวมกันของ Text to Speech และ OCR
การรวมการรู้จำอักขระด้วยแสงกับเทคโนโลยีแปลงข้อความเป็นเสียงสร้างเครื่องมือที่ทรงพลังที่เพิ่มการเข้าถึงและประสิทธิภาพ OCR สกัดข้อความจากเอกสารที่สแกน ภาพ หรือวัสดุที่พิมพ์และแปลงเป็นข้อความที่เครื่องอ่านได้ ข้อความนี้สามารถป้อนเข้าสู่ระบบ TTS ซึ่งแปลงคำที่เขียนเป็นเสียงพูด การผสานนี้ช่วยให้เกิดการใช้งานที่หลากหลาย เช่น ช่วยผู้ที่มีความบกพร่องทางการมองเห็น "อ่าน" วัสดุที่พิมพ์ แปลงหนังสือและเอกสารเป็นหนังสือเสียง หรือให้การแปลเสียงแบบเรียลไทม์ของข้อความภาษาต่างประเทศที่พิมพ์ ด้วยการรวม OCR กับ TTS ผู้ใช้สามารถโต้ตอบกับเนื้อหาข้อความได้อย่างมีพลวัตมากขึ้น ทำให้ข้อมูลเข้าถึงได้มากขึ้นสำหรับทุกคน ไม่ว่าจะมีความสามารถในการอ่านหรือการมองเห็นอย่างไร
การใช้งาน Text to Speech OCR
การรวมเทคโนโลยี OCR และ TTS เปิดโอกาสมากมายในการทำให้ข้อมูลเข้าถึงได้และบริโภคได้ในสถานการณ์ต่าง ๆ นี่คือการใช้งานบางส่วนของ Text to Speech OCR:
- เทคโนโลยีช่วยเหลือสำหรับผู้ที่มีความบกพร่องทางการมองเห็น: แปลงเนื้อหาที่เขียนจากหนังสือ เอกสาร หรือหน้าจอเป็นคำพูด ช่วยให้ผู้ที่มีความบกพร่องทางการมองเห็นหรือผู้ที่ตาบอด "อ่าน" เนื้อหาได้
- การเรียนรู้และการศึกษา:
- ช่วยนักเรียนที่มีปัญหาด้านการอ่าน: ช่วยนักเรียนที่มีปัญหาด้านการอ่านหรือดิสเล็กเซียโดยแปลงข้อความที่เขียนเป็นเสียง
- การเรียนรู้หลายรูปแบบ: ช่วยให้ผู้เรียนสามารถอ่านและฟังเนื้อหาได้พร้อมกัน เพิ่มความเข้าใจและการจดจำ
- การแปลและการเรียนรู้ภาษา: แปลงข้อความภาษาต่างประเทศที่เขียนเป็นคำพูด ช่วยในการออกเสียงและความเข้าใจ
- การบริโภคเนื้อหาดิจิทัล: แปลงหนังสือ บทความข่าว และเนื้อหาข้อความที่พิมพ์อื่น ๆ เป็นหนังสือเสียงหรือพอดแคสต์สำหรับการบริโภคขณะเดินทาง
- การเข้าถึงเอกสาร: ทำให้ไฟล์ PDF เอกสารที่สแกน และรูปแบบที่ไม่สามารถแก้ไขได้อื่น ๆ เข้าถึงได้สำหรับผู้ที่ชอบหรือจำเป็นต้องใช้เนื้อหาเสียง
- การวิเคราะห์เอกสารประวัติศาสตร์: แปลงต้นฉบับเก่าหรือเอกสารจดหมายเหตุเป็นเนื้อหาเสียงสำหรับนักวิจัยหรือผู้ที่สนใจฟังข้อความประวัติศาสตร์
- ธุรกิจและประสิทธิภาพ: แปลงรายงานที่พิมพ์ที่ไม่ใช่ดิจิทัลเป็นเนื้อหาที่พูดสำหรับมืออาชีพที่ยุ่ง
- การตรวจสอบข้อผิดพลาด: ช่วยนักเขียนหรือนักแก้ไขระบุข้อผิดพลาดในเนื้อหาที่เขียนบนกระดาษโดยการฟัง
- ความบันเทิง: แปลงหนังสือการ์ตูน นิยายภาพ หรือสื่อที่เน้นภาพอื่น ๆ ให้เป็นประสบการณ์การฟัง
วิธีอ่านข้อความจากภาพออกเสียง
ไม่ใช่ผู้ใช้ทุกคนของอุปกรณ์มือถือ Apple และ Android ที่รู้ว่าแอปของพวกเขาอาจมีเทคโนโลยี OCR และเครื่องอ่าน TTS ที่สามารถทำงานแปลงข้อความเป็นเสียงได้ง่ายๆ ลองพิจารณาคุณสมบัติ TTS ที่มีอยู่ในตัวเหมือนแอปที่อ่านให้คุณฟังฟรี หรือเหมือนแอปฟรีที่อ่านข้อความจากกล้อง แต่คุณภาพของมันไม่ดีเท่าโปรแกรมแปลงข้อความเป็นเสียงที่มีความก้าวหน้ามากกว่า นี่คือวิธีการเข้าถึงเครื่องอ่านข้อความจากภาพบนอุปกรณ์ Android และ Apple:
Android
อุปกรณ์ Android อย่างน้อยที่ใช้ระบบปฏิบัติการ Android 12 ขึ้นไป มาพร้อมกับเครื่องอ่าน TTS ในตัว เป็นเครื่องมือที่มีประโยชน์สำหรับการนำทาง การอ่านฟอนต์ขนาดเล็ก ฯลฯ แต่คุณยังสามารถใช้มันเพื่ออ่านข้อความจากภาพได้ นี่คือวิธีการตั้งค่าอุปกรณ์ของคุณ:
- ไปที่เมนู “การช่วยการเข้าถึง” ผ่านแอป “การตั้งค่า”
- เปิดใช้งานตัวเลือก “เลือกเพื่อพูด”
- ไปที่แท็บ “การตั้งค่า” ของเครื่องอ่าน TTS และเปิดใช้งานตัวเลือก “อ่านข้อความบนภาพ”
- กลับไปที่หน้าจอหลักและเปิดแอป “กล้อง”
- ชี้กล้องไปที่หนังสือ หนังสือพิมพ์ หรือหน้าจออื่นที่มีข้อความดิจิทัล
- แตะปุ่ม “เลือกเพื่อพูด” ก่อนแตะที่คำในแอป “กล้อง”
เครื่องอ่าน TTS ของ Android จะเริ่มบรรยายจากคำที่ไฮไลต์ คุณสามารถเลือกข้อความเป็นชิ้นๆ โดยลากนิ้วของคุณผ่านหน้าจอเพื่อทำการเลือก เหมือนกับการใช้โปรแกรมประมวลผลคำ
Apple
การอ่านข้อความทางกายภาพออกเสียงด้วย iPhone ต้องการกล้องที่ใช้งานได้ iOS 15 ขึ้นไป และเปิดใช้งานเครื่องอ่าน TTS ในตัว
- ไปที่แท็บ “การช่วยการเข้าถึง” จากเมนู “การตั้งค่า”
- แตะที่ฟีเจอร์ “เนื้อหาที่พูด”
- เปิดใช้งานตัวเลือก “พูดการเลือก” และ “พูดหน้าจอ”
- กลับไปที่หน้าจอหลักและเปิดกล้อง
- ชี้กล้องไปที่หน้าและรอให้ปุ่ม “ข้อความสด” ปรากฏบนแถบเครื่องมือด้านล่าง
- แตะปุ่มเพื่อเปิดใช้งานการอ่านหน้าจอ OCR
- ปัดลงด้วยสองนิ้วเพื่อเริ่มอ่านจากด้านบนของหน้า
- แตะคำหรือทำการเลือกบนหน้าจอเพื่ออ่านออกเสียงคำ ประโยค หรือย่อหน้าเฉพาะ
เช่นเดียวกับอุปกรณ์ Android, iPads และ iPhones มีความสามารถ OCR และ TTS ที่จำกัด แม้ว่าความแม่นยำในการประมวลผลคำจะสูงกว่าค่าเฉลี่ย แต่คุณภาพเสียงยังไม่ดีเนื่องจากลักษณะเสียงที่เป็นหุ่นยนต์
Speechify—TTS ที่ดีที่สุดพร้อมเทคโนโลยี OCR
แม้ว่าเครื่องอ่าน TTS และซอฟต์แวร์ OCR ที่มีอยู่ในตัวจะเป็นสิ่งที่ดีที่มีในอุปกรณ์มือถือ แต่คุณภาพและประสิทธิภาพของมันยังไม่ประทับใจ โชคดีที่คุณมีแอปอ่านข้อความทางเลือก Speechify เป็น เครื่องอ่านข้อความเป็นเสียง ที่รวมเทคโนโลยี OCR และเสียงที่สร้างจาก AI คุณภาพสูง ฟังก์ชันการทำงานของมันเกินกว่าที่เครื่องอ่านข้อความมือถือทั่วไปสามารถทำได้ และสามารถสแกนหนังสือและเอกสารทางกายภาพทั้งหมดเพื่อประมวลผลข้อความทางกายภาพเป็นข้อความดิจิทัล จากนั้นอัลกอริธึมที่ซับซ้อนจะสร้างเสียงที่ฟังดูเป็นธรรมชาติที่คุณสามารถควบคุมและปรับให้เข้ากับความเร็วในการอ่านที่คุณต้องการ ซอฟต์แวร์แปลงข้อความเป็นเสียง Speechify มีให้บริการบนแพลตฟอร์มต่อไปนี้:
ไม่ว่าคุณจะได้รับจาก Apple App Store หรือ Google Play Store หรือดาวน์โหลดเวอร์ชันเดสก์ท็อป Mac หรือส่วนขยายเบราว์เซอร์ Chrome ใบอนุญาตเดียวก็เพียงพอที่จะใช้ Speechify บนอุปกรณ์เดสก์ท็อปและมือถือทั้งหมดของคุณ อินเทอร์เฟซที่ใช้งานง่ายดึงดูดกลุ่มอายุและพื้นฐานทางเทคนิคทั้งหมด การสแกน OCR ของ Speechify มีให้สำหรับการอ่านออนไลน์แบบเรียลไทม์
ออกแบบมาสำหรับผู้ใช้ที่มีภาวะดิสเล็กเซีย ความบกพร่องในการอ่าน การมองเห็น และผู้ที่ทำหลายอย่างพร้อมกัน เทคโนโลยีช่วยเหลือของ Speechify ทำได้มากกว่าการอ่านหน้าจอเต็มรูปแบบทั่วไป มันคือแอปที่คุณต้องการเพื่อเปลี่ยนข้อความดิจิทัลและทางกายภาพให้เป็น หนังสือเสียง สร้างพอดแคสต์ และปรับปรุงทักษะการอ่านของคุณด้วยความพยายามน้อยลงและมีสมาธิมากขึ้น ลองใช้ Speechify ฟรี แอปแปลงข้อความเป็นเสียงและปรับแต่งประสบการณ์การอ่านที่ดื่มด่ำ
คลิฟ ไวซ์แมน
คลิฟ ไวซ์แมน เป็นผู้สนับสนุนด้านดิสเล็กเซียและเป็น CEO และผู้ก่อตั้ง Speechify แอปพลิเคชันแปลงข้อความเป็นเสียงอันดับ 1 ของโลก ที่มีรีวิว 5 ดาวมากกว่า 100,000 รีวิว และครองอันดับหนึ่งใน App Store ในหมวดข่าวและนิตยสาร ในปี 2017 ไวซ์แมนได้รับการยกย่องในรายชื่อ Forbes 30 under 30 จากผลงานของเขาในการทำให้อินเทอร์เน็ตเข้าถึงได้มากขึ้นสำหรับผู้ที่มีความบกพร่องในการเรียนรู้ คลิฟ ไวซ์แมน ได้รับการนำเสนอใน EdSurge, Inc., PC Mag, Entrepreneur, Mashable และสื่อชั้นนำอื่น ๆ