1. Inicio
  2. Accesibilidad
  3. Texto a voz desde una foto—Cómo tomar una foto de una página y escucharla en voz alta
Social Proof

Texto a voz desde una foto—Cómo tomar una foto de una página y escucharla en voz alta

Speechify es el lector de audio número 1 del mundo. Lee libros, documentos, artículos, PDFs, correos electrónicos - cualquier cosa que leas - más rápido.

Destacado en

forbes logocbs logotime magazine logonew york times logowall street logo
¡Escucha este artículo con Speechify!
Speechify

Aprende lo básico sobre texto a voz desde una foto - Cómo tomar una foto de una página y escucharla en voz alta en cualquier dispositivo móvil o de escritorio y sistema operativo.

Los lectores TTS están en alta demanda y amplia oferta. Pero, ¿significa eso que toda la tecnología de texto a voz ofrece el mismo rendimiento? Muchos lectores de pantalla TTS pueden procesar texto digital de documentos de Microsoft Word, páginas web HTML o palabras copiadas y pegadas de otros archivos de texto. Pero pocos pueden convertir texto digital bloqueado y físico de imágenes en una narración con sonido natural. Aquellos que lo hacen utilizan reconocimiento óptico de caracteres (OCR).

¿Qué es el OCR?

El OCR, conocido como reconocimiento óptico de caracteres o reconocimiento de texto, es una tecnología diseñada para la extracción especializada de datos. Tiene numerosas aplicaciones empresariales y mucho uso en el ocio y el entretenimiento. Este tipo de tecnología generalmente tiene dos componentes. Tiene un elemento de hardware para escanear imágenes y un elemento de software para extraer y reutilizar datos. Pero el componente de software es la parte más emocionante y compleja. El software OCR puede identificar letras individuales y palabras completas y organizarlas en oraciones. Además, permite a los usuarios editar el contenido original bloqueado, similar a editar un archivo PDF con contenido de texto bloqueado.

Cómo funciona el OCR

El Reconocimiento Óptico de Caracteres (OCR) es una tecnología que convierte diferentes tipos de documentos, como documentos en papel escaneados, archivos PDF o imágenes capturadas por una cámara digital, en datos editables y buscables. El proceso comienza con el software OCR analizando la estructura de la imagen del documento, detectando áreas que contienen texto. Luego segmenta estas áreas en líneas, palabras y caracteres. Cada carácter se compara con un conjunto de patrones predefinidos o se entrena con modelos de aprendizaje automático para identificarlos y convertirlos en texto codificado por máquina. Esta conversión permite que el texto en la imagen sea editado, buscado y procesado digitalmente.

Combinando Texto a Voz y OCR

Combinar el reconocimiento óptico de caracteres con la tecnología de texto a voz crea una herramienta poderosa que mejora la accesibilidad y la eficiencia. El OCR extrae texto de documentos escaneados, imágenes o materiales impresos y lo convierte en texto legible por máquina. Este texto puede luego ser introducido en un sistema TTS, que convierte las palabras escritas en audio hablado. Esta sinergia permite una amplia gama de aplicaciones, como ayudar a personas con discapacidad visual a "leer" materiales impresos, convertir libros y documentos en audiolibros, o proporcionar traducciones de audio en tiempo real de textos impresos en idiomas extranjeros. Al integrar OCR con TTS, los usuarios pueden interactuar con el contenido textual de manera más dinámica, haciendo la información más accesible para todos, independientemente de su capacidad de lectura o discapacidad visual.

Usos del Texto a Voz con OCR

Combinar las tecnologías de OCR y TTS abre numerosas posibilidades para hacer la información más accesible y consumible en varios escenarios. Aquí hay algunos usos del texto a voz con OCR:

  • Tecnología asistiva para personas con discapacidad visual: Convierte contenido escrito de libros, documentos o pantallas en palabras habladas, ayudando a personas con discapacidad visual o ciegas a "leer" el contenido.
  • Aprendizaje y educación:
    • Ayuda para estudiantes con dislexia: Ayuda a estudiantes con dislexia u otros desafíos de lectura convirtiendo texto escrito en audio.
    • Aprendizaje multimodal: Permite a los estudiantes tanto leer como escuchar el contenido, mejorando la comprensión y retención.
  • Traducción y aprendizaje de idiomas: Convierte texto escrito en un idioma extranjero en palabras habladas, ayudando en la pronunciación y comprensión.
  • Consumo de contenido digital: Convierte libros, artículos de noticias y otros contenidos impresos en audiolibros o podcasts para consumo en movimiento.
  • Accesibilidad de documentos: Hace que los PDFs, documentos escaneados y otros formatos no editables sean accesibles para personas que prefieren o necesitan contenido en audio.
  • Análisis de documentos históricos: Convierte manuscritos antiguos o documentos de archivo en contenido de audio para investigadores o entusiastas que desean escuchar textos históricos.
  • Negocios y productividad: Convierte informes impresos no digitales en contenido hablado para profesionales ocupados.
  • Corrección de pruebas: Ayuda a escritores o editores a identificar errores en contenido escrito en papel al escucharlo.
  • Entretenimiento: Convierte cómics, novelas gráficas u otros medios principalmente visuales en una experiencia auditiva.

Cómo Leer Texto en Voz Alta desde una Imagen

No todos los usuarios de dispositivos móviles Apple y Android saben que sus aplicaciones pueden tener tecnología OCR y un lector TTS capaz de realizar tareas simples de conversión de texto a voz. Considera las funciones TTS integradas como aplicaciones que te leerán gratis o como una aplicación gratuita que lee texto desde cámaras, aunque su calidad no es tan buena como la de un software de texto a voz más avanzado. Aquí te mostramos cómo acceder al lector de texto desde imágenes en dispositivos Android y Apple:

Android

Los dispositivos Android, al menos aquellos con el sistema operativo Android 12 y superior, vienen con un lector TTS integrado. Es una herramienta útil para la navegación, leer fuentes pequeñas, etc. Pero también puedes usarlo para leer texto de imágenes. Aquí te mostramos cómo configurar tu dispositivo:

  • Ve al menú de “Accesibilidad” a través de la aplicación de “Configuración”.
  • Habilita la opción “Seleccionar para hablar”.
  • Ve a la pestaña de “Configuración” del lector TTS y activa la opción “Leer texto en imágenes”.
  • Regresa a tu pantalla de inicio y abre la aplicación “Cámara”.
  • Apunta la cámara a un libro, periódico u otra pantalla con texto digital.
  • Toca el botón “Seleccionar para hablar” antes de tocar una palabra en la aplicación “Cámara”.

El lector TTS de Android comenzará a narrar desde la palabra resaltada. Puedes seleccionar fragmentos de texto arrastrando tu dedo por la pantalla para hacer una selección, como lo harías al usar un procesador de texto.

Apple

Leer texto físico en voz alta usando un iPhone requiere una cámara funcional, iOS 15 y superior, y habilitar el lector TTS integrado.

  • Navega a la pestaña de “Accesibilidad” desde el menú de “Configuración”.
  • Toca la función “Contenido hablado”.
  • Habilita las opciones “Leer selección” y “Leer pantalla”.
  • Regresa a la pantalla de inicio y enciende la cámara.
  • Apunta la cámara a una página y espera a que aparezca el botón “Texto en vivo” en la barra de herramientas inferior.
  • Toca el botón para habilitar la lectura de pantalla OCR.
  • Desliza hacia abajo con dos dedos para comenzar a leer desde la parte superior de la página.
  • Toca una palabra o haz una selección en la pantalla para leer en voz alta una palabra, oración o párrafo en particular.

Al igual que los dispositivos Android, los iPads y iPhones tienen capacidades limitadas de OCR y TTS. Aunque la precisión en el procesamiento de palabras es superior al promedio, la calidad de la voz es decepcionante debido a su naturaleza robótica.

Speechify—El mejor TTS con tecnología OCR

Aunque los lectores TTS integrados y el software OCR son agradables de tener en dispositivos móviles, su calidad y rendimiento son menos que impresionantes. Afortunadamente, tienes una aplicación alternativa para leer texto. Speechify es un lector de texto a voz que combina tecnología OCR y voces de alta calidad de IA. Su funcionalidad supera a la de los lectores de texto móviles predeterminados y puede escanear libros enteros y documentos físicos para procesar el texto físico en texto digital. A partir de ahí, los algoritmos complejos generan voces que suenan naturales y que puedes controlar y ajustar a la velocidad de lectura deseada. El software de texto a voz Speechify está disponible en las siguientes plataformas:

Ya sea que lo obtengas de la App Store de Apple o de Google Play Store, o descargues la versión de escritorio para Mac o la extensión del navegador Chrome, una licencia es suficiente para usar Speechify en todos tus dispositivos de escritorio y móviles. La interfaz fácil de usar atrae a todos los grupos de edad y antecedentes técnicos. Las exploraciones OCR de Speechify están disponibles para lectura en línea en tiempo real.

Diseñado para usuarios con dislexia, dificultades de lectura, discapacidad visual y multitareas, la tecnología asistiva de Speechify hace más que un lector de pantalla típico. Es la aplicación que deseas para convertir cualquier texto digital y físico en un audiolibro, crear podcasts y mejorar tus habilidades de lectura con menos esfuerzo y mayor concentración. Prueba la aplicación gratuita de texto a voz de Speechify y personaliza una experiencia de lectura inmersiva. Speechify también tiene un Generador de Voz AI en línea que te permite probar sus voces con cualquier texto que escribas.

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman es un defensor de la dislexia y el CEO y fundador de Speechify, la aplicación de texto a voz número uno en el mundo, con más de 100,000 reseñas de 5 estrellas y ocupando el primer lugar en la categoría de Noticias y Revistas de la App Store. En 2017, Weitzman fue incluido en la lista de Forbes 30 menores de 30 por su trabajo haciendo que internet sea más accesible para personas con discapacidades de aprendizaje. Cliff Weitzman ha sido destacado en EdSurge, Inc., PC Mag, Entrepreneur, Mashable, entre otros medios líderes.