Teks foto ke suara—Cara memotret halaman dan membuatnya dibacakan

Pembaca TTS sangat diminati dan mudah ditemukan. Tapi apakah semua teknologi text to speech memberikan performa yang sama? Banyak pembaca layar TTS bisa memproses teks digital dari dokumen Microsoft Word, halaman web HTML, atau teks yang disalin. Namun, hanya sedikit yang bisa mengubah teks digital atau fisik yang terkunci di gambar menjadi narasi yang terdengar alami. Yang bisa melakukannya memakai teknologi optical character recognition (OCR).

Apa itu OCR?

OCR, atau optical character recognition/pengenalan karakter optik, adalah teknologi untuk ekstraksi data khusus. Banyak dipakai di dunia bisnis maupun hiburan. Biasanya ada dua komponen, yaitu perangkat keras untuk memindai gambar dan perangkat lunak untuk mengambil serta memakai ulang data. Namun, perangkat lunak adalah bagian paling penting dan canggih. OCR bisa mengenali huruf dan kata lalu menyusunnya menjadi kalimat. Pengguna juga bisa mengedit konten terkunci, misalnya mengedit file PDF dengan teks terkunci.

Bagaimana Cara Kerja OCR

Optical Character Recognition (OCR) adalah teknologi yang mengubah dokumen seperti hasil scan, file PDF, atau gambar dari kamera digital menjadi data yang bisa diedit dan dicari. Prosesnya dimulai dengan perangkat lunak menganalisis struktur gambar, mendeteksi area teks, lalu memecahnya jadi baris, kata, dan karakter. Setiap karakter dibandingkan dengan pola tertentu atau model machine learning untuk mengenali dan mengubahnya ke teks digital. Setelah itu, teks bisa diedit, dicari, dan diolah secara digital.

Menggabungkan Text to Speech dan OCR

Menggabungkan OCR dengan teknologi text to speech menghasilkan alat ampuh untuk aksesibilitas dan efisiensi. OCR mengekstrak teks dari dokumen tercetak, gambar, atau hasil scan, lalu mengubahnya ke teks digital. Setelah itu, teks bisa dibacakan oleh sistem TTS yang mengubah kata tertulis jadi suara. Sinergi ini bermanfaat untuk membantu pengguna dengan penglihatan terbatas "membaca" materi cetak, mengubah buku atau dokumen jadi audiobook, atau memberi terjemahan suara real-time pada teks asing. Integrasi OCR & TTS memungkinkan interaksi dengan konten teks secara dinamis, lebih mudah diakses tanpa batasan kemampuan baca atau penglihatan.

Kegunaan Text to Speech OCR

Menggabungkan OCR dan TTS membuka banyak kemungkinan agar informasi mudah diakses dan dinikmati dalam berbagai situasi. Berikut kegunaan text to speech OCR:

Teknologi bantu untuk tunanetra: Mengubah teks di buku, dokumen, atau layar menjadi suara, sehingga tunanetra bisa "membaca" konten.
Pembelajaran & edukasi:
- Bantuan untuk siswa disleksia: Membantu siswa disleksia atau kesulitan baca dengan mengubah teks jadi audio.
- Pembelajaran multimodal: Siswa bisa membaca sambil mendengar agar pemahaman dan ingatan lebih baik.
Penerjemahan & belajar bahasa: Ubah teks asing menjadi audio untuk membantu pelafalan dan pemahaman.
Konsumsi konten digital: Ubah buku, berita, dll. menjadi audiobook atau podcast untuk didengar saat bepergian.
Aksesibilitas dokumen: Membaca PDF, dokumen scan, atau format yang tidak bisa diedit bagi yang butuh versi audio.
Analisis dokumen sejarah: Mengubah manuskrip lama jadi audio untuk peneliti atau siapa saja yang ingin mendengar teks sejarah.
Bisnis & produktivitas: Mengubah laporan cetak jadi suara untuk profesional yang super sibuk.
Proofreading: Penulis/editor bisa lebih mudah menemukan kesalahan dengan mendengarkan isi tulisan.

Hiburan: Mengubah komik, novel grafis, atau media visual lain jadi pengalaman audio.

Cara Membaca Teks dari Gambar

Tidak semua pengguna perangkat Apple dan Android tahu kalau aplikasinya punya OCR & TTS untuk tugas konversi teks ke suara sederhana. Fitur bawaan TTS mirip aplikasi pembaca teks gratis, atau app gratis yang bisa baca teks dari kamera, tapi kualitasnya masih di bawah software text to speech canggih. Berikut cara mengakses pembaca teks dari gambar di perangkat Android & Apple:

Android

Perangkat Android, minimal Android 12 ke atas, sudah punya pembaca TTS bawaan. Ini alat bantu navigasi, baca huruf kecil, dan banyak lagi. Tapi juga bisa dipakai untuk membaca teks dari foto. Berikut cara setelnya:

Buka menu “Aksesibilitas” lewat aplikasi “Pengaturan”.
Aktifkan opsi “Select to Speak”.
Buka tab “Pengaturan” pembaca TTS & aktifkan “Baca teks pada gambar”.
Kembali ke layar utama lalu buka aplikasi “Kamera”.
Arahkan kamera ke buku, koran, atau layar dengan teks digital.
Ketuk tombol “Select to Speak” lalu sentuh kata di aplikasi “Kamera”.

Pembaca TTS Android akan mulai dari kata yang disorot. Anda bisa memilih bagian teks dengan menyeret jari di layar, seperti di aplikasi pengolah kata.

Apple

Membaca teks fisik di iPhone butuh kamera, iOS 15 ke atas, dan mengaktifkan TTS bawaan.

Buka tab “Aksesibilitas” dari menu “Pengaturan”.
Ketuk fitur “Konten yang Diucapkan”.
Aktifkan opsi “Speak Selection” dan “Speak Screen”.
Kembali ke layar utama lalu hidupkan kamera.
Arahkan kamera ke halaman, tunggu tombol “Live Text” muncul di toolbar bawah.
Ketuk tombol itu untuk mengaktifkan pembaca layar OCR.
Geser dua jari ke bawah untuk mulai membaca dari atas halaman.
Ketuk kata atau seleksi teks pada layar untuk membacakan kata, kalimat, atau paragraf tertentu.

Seperti perangkat Android, iPad & iPhone juga punya kemampuan OCR dan TTS bawaan yang terbatas. Akurasi katanya cukup baik tapi suara masih cenderung terdengar kaku dan robotik.

Speechify—TTS Terbaik dengan Teknologi OCR

Meski pembaca TTS dan software OCR bawaan cukup membantu di perangkat mobile, kualitas dan performanya masih standar. Untungnya, ada aplikasi baca teks alternatif. Speechify adalah pembaca text to speech yang menggabungkan OCR & suara AI berkualitas tinggi. Fungsinya melampaui pembaca bawaan, mampu memindai buku & dokumen fisik jadi teks digital. Algoritmenya menghasilkan suara alami yang bisa dikontrol & diatur kecepatannya. Speechify tersedia di:

Windows
macOS
Linux
iOS
Android

Dapatkan di App Store, Google Play, versi Mac desktop, atau ekstensi Chrome—cukup satu lisensi untuk semua perangkat. Antarmukanya ramah, cocok untuk semua usia & tingkat kenyamanan teknologi. Pemindaian OCR Speechify bisa dipakai untuk online reading real-time.

Speechify dibuat untuk disleksia, gangguan baca, keterbatasan penglihatan, dan multitasker. Fitur bantunya jauh melampaui pembaca biasa. Ubah teks digital/fisik jadi audiobook, buat podcast, dan tingkatkan kemampuan membaca jadi lebih fokus dengan usaha lebih sedikit. Coba gratis Speechify dan ciptakan pengalaman membaca yang imersif. Ada juga online AI Voice Generator untuk menjajal suara dengan teks apa pun yang Anda ketik.

Speechify adalah platform teks ke ucapan terkemuka di dunia, dipercaya oleh lebih dari 50 juta pengguna dan didukung oleh lebih dari 500.000 ulasan bintang lima di berbagai aplikasi teks ke ucapan iOS, Android, Ekstensi Chrome, aplikasi web, dan desktop Mac. Pada tahun 2025, Apple memberikan Speechify penghargaan terhormat Apple Design Award di WWDC, menyebutnya sebagai “sumber penting yang membantu orang menjalani hidup mereka.” Speechify menawarkan 1.000+ suara alami dalam 60+ bahasa dan digunakan di hampir 200 negara. Suara selebriti termasuk Snoop Dogg dan Gwyneth Paltrow. Untuk kreator dan bisnis, Speechify Studio menyediakan alat canggih, termasuk AI Voice Generator, AI Voice Cloning, AI Dubbing, dan AI Voice Changer. Speechify juga menyokong produk-produk terkemuka dengan API teks ke ucapan berkualitas tinggi dan hemat biaya. Telah diliput di The Wall Street Journal, CNBC, Forbes, TechCrunch, dan banyak media besar lainnya, Speechify adalah penyedia teks ke ucapan terbesar di dunia. Kunjungi speechify.com/news, speechify.com/blog, dan speechify.com/press untuk informasi lebih lanjut.

Teks foto ke suara—Cara memotret halaman dan membuatnya dibacakan

Cliff Weitzman

Speechify, asisten AI Suara Anda
Teks ke Ucapan. Pengetikan Suara. Jawaban Cepat.

Apa itu OCR?

Bagaimana Cara Kerja OCR

Menggabungkan Text to Speech dan OCR

Kegunaan Text to Speech OCR