1. Trang chủ
  2. Khả năng truy cập
  3. Chuyển văn bản từ ảnh thành giọng nói — Cách chụp một trang và nghe đọc to
Khả năng truy cập

Chuyển văn bản từ ảnh thành giọng nói — Cách chụp một trang và nghe đọc to

Cliff Weitzman

Cliff Weitzman

Giám đốc điều hành/Nhà sáng lập Speechify

apple logoGiải thưởng Thiết kế Apple 2025
Hơn 50 triệu người dùng

Công cụ đọc TTS đang được rất nhiều người tìm kiếm và ngày càng xuất hiện nhiều trên thị trường. Nhưng liệu tất cả các công nghệ chuyển văn bản thành giọng nói có mang lại hiệu quả như nhau? Nhiều công cụ đọc TTS có thể xử lý văn bản số từ tài liệu Microsoft Word, trang web HTML, hoặc các đoạn văn bản sao chép từ tệp khác. Tuy nhiên, chỉ có một số ít có thể chuyển đổi văn bản số bị khoá hoặc văn bản in trên giấy, trong hình ảnh thành giọng đọc tự nhiên. Những công cụ này sử dụng công nghệ nhận diện ký tự quang học (OCR).

Biến mọi trang thành giọng nói

OCR là gì?

OCR, tên đầy đủ là nhận diện ký tự quang học, hay còn gọi là nhận diện văn bản, là công nghệ được thiết kế để trích xuất dữ liệu chuyên sâu. Nó có rất nhiều ứng dụng trong kinh doanh và cũng được dùng rộng rãi trong lĩnh vực giải trí. Công nghệ này thường gồm hai phần: phần cứng để quét hình ảnh và phần mềm để trích xuất, chuyển đổi dữ liệu. Tuy nhiên, phần mềm mới là phần thú vị và phức tạp nhất. Phần mềm OCR có thể nhận ra từng chữ cái và cả từ, sau đó sắp xếp lại thành câu. Ngoài ra, nó còn cho phép người dùng chỉnh sửa nội dung ban đầu vốn bị khoá, tương tự như khi chỉnh sửa nội dung văn bản bị khoá trong tệp PDF.

Cách hoạt động của OCR

Nhận diện ký tự quang học (OCR) là công nghệ giúp chuyển đổi các loại tài liệu như bản giấy được scan, file PDF hoặc hình ảnh chụp bằng camera kỹ thuật số thành dữ liệu có thể chỉnh sửa và tìm kiếm. Quá trình bắt đầu khi phần mềm OCR phân tích cấu trúc của hình ảnh tài liệu và xác định các vùng chứa văn bản. Sau đó, các vùng này được tách thành dòng, từ và ký tự. Mỗi ký tự được so sánh với các mẫu có sẵn hoặc được nhận diện bằng mô hình máy học để chuyển thành văn bản mã hóa máy. Nhờ đó, văn bản trên hình ảnh có thể được chỉnh sửa, tìm kiếm và xử lý dưới dạng số.

Kết hợp chuyển văn bản thành giọng nói với OCR

Việc kết hợp nhận diện ký tự quang học với công nghệ chuyển văn bản thành giọng nói tạo nên một công cụ mạnh mẽ, tăng khả năng tiếp cận và hiệu quả sử dụng. Công nghệ OCR giúp trích xuất văn bản từ tài liệu được quét, ảnh chụp hoặc tài liệu in và chuyển thành văn bản trên máy tính. Văn bản này sau đó có thể đưa vào hệ thống TTS để chuyển đổi thành giọng nói. Sự kết hợp này mở ra nhiều ứng dụng hữu ích, ví dụ hỗ trợ người khiếm thị "đọc" tài liệu, chuyển sách hoặc tài liệu thành sách nói, hoặc cung cấp phần dịch âm thanh gần như theo thời gian thực cho văn bản in bằng tiếng nước ngoài. Việc tích hợp OCR với TTS giúp người dùng tương tác linh hoạt hơn với nội dung, giúp thông tin trở nên dễ tiếp cận với mọi người, bất kể khả năng đọc hay thị lực.

Các ứng dụng của chuyển văn bản từ ảnh thành giọng nói

Kết hợp hai công nghệ OCR và TTS mở ra rất nhiều khả năng, giúp thông tin trở nên dễ tiếp cận và tiện lợi hơn trong nhiều tình huống. Dưới đây là một số ứng dụng tiêu biểu của công nghệ chuyển văn bản từ ảnh thành giọng nói:

  • Công nghệ hỗ trợ người khiếm thị: Chuyển đổi nội dung sách, tài liệu hoặc màn hình thành lời nói, giúp người khiếm thị hoặc mù có thể "đọc" được nội dung.
  • Học tập và giáo dục:
    • Hỗ trợ học sinh mắc chứng khó đọc: Giúp học sinh mắc chứng khó đọc hoặc các vấn đề về đọc hiểu khác bằng cách chuyển văn bản thành âm thanh.
    • Học đa kênh: Cho phép vừa đọc vừa nghe nội dung để cải thiện khả năng hiểu và ghi nhớ.
  • Dịch thuật và học ngôn ngữ: Chuyển văn bản nước ngoài thành âm thanh, hỗ trợ luyện phát âm và hiểu nội dung.
  • Tiêu thụ nội dung số: Chuyển đổi sách, bài báo và các văn bản in thành sách nói hoặc podcast để nghe khi di chuyển.
  • Tiếp cận tài liệu: Biến PDF, tài liệu scan và các định dạng không thể chỉnh sửa thành nội dung dễ tiếp cận cho những người cần nghe thay vì đọc.
  • Phân tích tài liệu lịch sử: Chuyển đổi bản thảo cũ hoặc tư liệu lưu trữ thành âm thanh cho nhà nghiên cứu hoặc người yêu thích lịch sử.
  • Kinh doanh và tăng hiệu suất: Chuyển các báo cáo in chưa số hóa thành nội dung âm thanh cho người bận rộn.
  • Đọc soát: Hỗ trợ nhà văn, biên tập viên phát hiện lỗi trong bản in bằng cách nghe lại nội dung đó.
  • Giải trí: Chuyển truyện tranh, tiểu thuyết đồ họa hoặc các loại hình giải trí thiên về hình ảnh thành trải nghiệm nghe.

Cách đọc to văn bản từ ảnh

Không phải ai dùng thiết bị di động Apple hay Android cũng biết rằng máy của họ có thể tích hợp công nghệ OCR và trình đọc TTS để thực hiện các tác vụ chuyển đổi văn bản thành giọng nói đơn giản. Có thể xem các tính năng TTS tích hợp này như những ứng dụng miễn phí đọc văn bản giúp bạn, hoặc như các ứng dụng miễn phí đọc văn bản từ camera, nhưng chất lượng của chúng không bằng các phần mềm TTS cao cấp hơn. Sau đây là cách truy cập trình đọc văn bản từ hình ảnh trên thiết bị Android và Apple:

Android

Các thiết bị Android, ít nhất là những máy chạy Android 12 trở lên, đều có sẵn trình đọc TTS tích hợp. Đây là công cụ hữu ích để điều hướng, đọc chữ nhỏ, v.v. Bạn cũng có thể dùng nó để đọc văn bản từ ảnh. Cách thiết lập như sau:

  • Vào mục “Trợ năng” trong ứng dụng “Cài đặt”.
  • Bật tuỳ chọn “Chọn để nghe” (Select to Speak).
  • Vào tab “Cài đặt” của trình đọc TTS và bật tuỳ chọn “Đọc văn bản trên hình ảnh”.
  • Quay lại màn hình chính và mở ứng dụng “Camera”.
  • Hướng camera vào sách, báo hoặc màn hình có văn bản số.
  • Bấm vào nút “Chọn để nghe” trước khi chạm vào từ muốn nghe trong khung camera.

Trình đọc TTS trên Android sẽ bắt đầu đọc từ từ mà bạn chọn. Bạn cũng có thể chọn một đoạn văn bản bằng cách kéo ngón tay trên màn hình, giống như khi sử dụng trình soạn thảo văn bản.

Apple

Để đọc to văn bản in bằng iPhone, bạn cần camera hoạt động tốt, iOS 15 trở lên và bật trình đọc TTS tích hợp trên máy.

  • Vào mục “Trợ năng” trong menu “Cài đặt”.
  • Chạm vào mục “Nội dung Được đọc” (Spoken Content).
  • Bật tùy chọn “Đọc vùng chọn” và “Đọc màn hình”.
  • Quay lại màn hình chính và mở camera.
  • Hướng camera vào một trang, chờ nút “Văn bản trực tiếp” (Live Text) xuất hiện trên thanh công cụ dưới cùng.
  • Nhấn vào nút đó để bật OCR đọc màn hình.
  • Vuốt xuống bằng hai ngón tay để bắt đầu đọc từ đầu trang.
  • Chạm vào một từ hoặc chọn đoạn văn bản trên màn hình để nghe đọc từ, câu hoặc đoạn đó.

Tương tự như trên Android, iPhone và iPad cũng bị giới hạn về khả năng OCR và TTS. Dù độ chính xác khi xử lý văn bản khá tốt, nhưng chất lượng giọng đọc vẫn còn cứng và chưa thực sự tự nhiên.

Speechify — TTS tốt nhất tích hợp OCR

Dù trình đọc TTS và phần mềm OCR tích hợp trên thiết bị di động rất tiện lợi, chất lượng và hiệu suất của chúng vẫn chưa thực sự ấn tượng. May mắn là bạn hoàn toàn có thể thay thế bằng một ứng dụng đọc văn bản khác. Speechify là trình đọc chuyển văn bản thành giọng nói kết hợp công nghệ OCR và giọng nói AI chất lượng cao. Các tính năng của nó vượt trội so với trình đọc văn bản mặc định trên di động, đồng thời có thể scan cả sách và tài liệu giấy để chuyển văn bản in thành văn bản số. Sau đó, thuật toán phức tạp sẽ tạo ra giọng đọc tự nhiên mà bạn có thể tuỳ ý điều chỉnh tốc độ. Phần mềm chuyển văn bản thành giọng nói Speechify có mặt trên các nền tảng:

Dù bạn tải ứng dụng Speechify từ App Store của Apple hay Google Play, hoặc cài bản desktop cho Mac hay tiện ích mở rộng cho Chrome, chỉ cần một tài khoản là có thể dùng trên mọi thiết bị để bàn và di động. Giao diện thân thiện, dễ dùng cho mọi lứa tuổi và mọi trình độ công nghệ. Tính năng scan OCR của Speechify còn hỗ trợ đọc văn bản trực tuyến ngay lập tức.

Speechify được thiết kế cho người mắc chứng khó đọc, khiếm thị, rối loạn đọc hoặc những người thường xuyên đa nhiệm, và công nghệ hỗ trợ này làm được nhiều hơn mọi trình đọc toàn bộ màn hình tiêu chuẩn. Đây là ứng dụng bạn cần nếu muốn chuyển đổi mọi dạng văn bản số / vật lý thành sách nói, tạo podcast, cũng như cải thiện kỹ năng đọc với ít nỗ lực hơn nhưng khả năng tập trung cao hơn. Hãy dùng thử miễn phí Speechify và cá nhân hóa trải nghiệm đọc của bạn sâu sắc hơn. Speechify cũng có một trình tạo giọng AI trực tuyến giúp bạn thử chất lượng giọng đọc với bất kỳ đoạn văn bản nào bạn gõ vào.

Trải nghiệm những giọng nói AI tiên tiến nhất, không giới hạn tệp và hỗ trợ 24/7

Dùng thử miễn phí
tts banner for blog

Chia sẻ bài viết

Cliff Weitzman

Cliff Weitzman

Giám đốc điều hành/Nhà sáng lập Speechify

Cliff Weitzman là một người luôn lên tiếng bảo vệ những người mắc chứng khó đọc và là Giám đốc điều hành kiêm nhà sáng lập Speechify, ứng dụng chuyển văn bản thành giọng nói số 1 thế giới, với hơn 100.000 lượt đánh giá 5 sao và nhiều lần giữ vị trí số một trong mục Tin tức & Tạp chí trên App Store. Năm 2017, Weitzman được vinh danh trong danh sách Forbes 30 Under 30 nhờ những đóng góp giúp internet trở nên dễ tiếp cận hơn với người gặp khó khăn trong học tập. Cliff Weitzman cũng từng được nhắc đến trên EdSurge, Inc., PC Mag, Entrepreneur, Mashable cùng nhiều kênh truyền thông lớn khác.

speechify logo

Về Speechify

Trình đọc chuyển văn bản thành giọng nói số 1

Speechify là nền tảng chuyển văn bản thành giọng nói hàng đầu thế giới, được hơn 50 triệu người tin dùng và có hơn 500.000 đánh giá 5 sao trên các ứng dụng chuyển văn bản thành giọng nói cho iOS, Android, Tiện ích Chrome, ứng dụng webứng dụng Mac. Năm 2025, Apple đã trao giải thưởng Thiết kế Apple cho Speechify tại WWDC, và gọi Speechify là “một nguồn lực thiết yếu giúp mọi người sống tốt hơn.” Speechify cung cấp hơn 1.000 giọng đọc tự nhiên bằng hơn 60 ngôn ngữ và được sử dụng tại gần 200 quốc gia. Các giọng nổi bật gồm Snoop Dogg, Mr. BeastGwyneth Paltrow. Dành cho nhà sáng tạo nội dung và doanh nghiệp, Speechify Studio cung cấp các công cụ nâng cao như Tạo giọng nói AI, Nhân bản giọng nói AI, Lồng tiếng AIThay đổi giọng AI. Speechify cũng hỗ trợ các sản phẩm hàng đầu với API chuyển văn bản thành giọng nói chất lượng cao, tối ưu chi phí của mình. Được nhắc đến trên The Wall Street Journal, CNBC, Forbes, TechCrunch và nhiều hãng tin lớn khác, Speechify là nhà cung cấp giải pháp chuyển văn bản thành giọng nói lớn nhất thế giới. Truy cập speechify.com/news, speechify.com/blogspeechify.com/press để biết thêm thông tin.