1. Inici
  2. Accessibilitat
  3. Foto a veu (text a veu)
Actualitzat el Accessibilitat

Foto a veu (text a veu)

Cliff Weitzman

Cliff Weitzman

CEO i fundador de Speechify

apple logoPremi de Disseny Apple 2025
Més de 50 M d'usuaris

Els lectors TTS estan molt sol·licitats i són fàcilment accessibles. Però això vol dir que tots els sistemes de text a veu ofereixen el mateix rendiment? Molts lectors de pantalla TTS poden llegir text digital en documents de Word, HTML pàgines web, Google Docs, o text copiat d'altres fitxers. Però pocs poden convertir text digital o físic incrustat en imatges en una narració natural. Els que ho fan utilitzen el reconeixement òptic de caràcters (OCR).

Transforma qualsevol pàgina en veu

Què és l'OCR?

OCR, conegut com a reconeixement òptic de caràcters o reconeixement de text, és una tecnologia per extreure dades especialitzades. Té moltes aplicacions en empreses, oci i entreteniment. Normalment combina dues parts: maquinari per escanejar imatges i programari per extreure i reutilitzar dades. Tot i això, el programari és la part més avançada. El programari d'OCR pot detectar lletres i paraules i organitzar-les en frases. Permet editar contingut bloquejat, com ara editar un PDF amb text no seleccionable.

Com funciona l'OCR

El reconeixement òptic de caràcters (OCR) converteix documents escanejats, PDFs o imatges de càmera en dades editables i cercables. El procés comença analitzant l'estructura de la imatge i localitzant les zones amb text. Aquestes es divideixen en línies, paraules i caràcters. Cada caràcter es compara amb patrons o s'identifica amb models d'aprenentatge automàtic per crear text digital. Això permet editar, cercar i processar el text a l'ordinador.

Combinació de text a veu i OCR

Combinar el reconeixement òptic de caràcters amb text a veu crea una eina potent per millorar l'accessibilitat i l'eficiència. L'OCR extreu text d'imatges i documents i el converteix en text digital. Aquest text es pot enviar a un sistema TTS, que el transforma en àudio. Aquesta combinació permet moltes aplicacions: ajudar persones amb discapacitat visual a "llegir" papers impresos, convertir llibres en audiollibres o oferir traduccions d'àudio de textos impresos. Amb OCR i TTS, la interacció amb el text és més dinàmica i accessible per a tothom, independentment de la seva habilitat lectora o limitació visual.

Usos de l'OCR per a text a veu

La combinació d'OCR i TTS obre moltes possibilitats per fer la informació més accessible en tot tipus de situacions. Alguns usos de l'OCR per a text a veu són:

  • Tecnologia d'ajuda per a persones amb discapacitat visual: llegeix en veu alta llibres, documents o pantalles, ajudant aquells amb dificultats visuals o ceguesa a "llegir" el contingut.
  • Aprenentatge i educació:
    • Ajuda per a estudiants amb dislèxia, TDAH o dificultats lectores: converteix text escrit en àudio.
    • Aprenentatge multimodal: permet llegir i escoltar el mateix contingut per millorar la comprensió i la retenció.
  • Traducció i aprenentatge d'idiomes: converteix text en altres idiomes en veu per practicar pronunciació i comprensió.
  • Consum de contingut digital: converteix llibres, notícies i altres textos impresos en audiollibres o podcasts per escoltar on vulguis.
  • Accessibilitat de documents: facilita l'accés en àudio a PDFs, escanejats i altres formats no editables.
  • Anàlisi de documents històrics: converteix manuscrits antics en àudio per a investigadors o aficionats que volen escoltar textos històrics.
  • Negocis i productivitat: converteix informes impresos en veu per a professionals amb poc temps.
  • Revisió de textos: ajuda a detectar errors en documents escoltant-los en veu alta.
  • Entreteniment: converteix còmics o novel·les gràfiques en una experiència auditiva.

Com llegir en veu alta el text d'una foto

Molts usuaris d'Apple i Android no saben que les seves aplicacions inclouen tecnologia OCR i un lector TTS capaç de fer conversions bàsiques de text a veu. Les opcions integrades solen ser gratuïtes, però la qualitat no arriba al nivell dels programes avançats de text a veu. Així pots fer servir el lector de text d'imatges a Android i Apple:

Android

Els dispositius Android (versió 12 i superiors) tenen un lector TTS integrat. És útil per navegar, llegir lletres petites, etc., però també pot llegir text de fotos. Així ho configures:

  • Obre el menú "Accessibilitat" a "Configuració".
  • Activa l'opció "Selecciona per escoltar".
  • Ajusta la configuració per activar "Llegeix text a imatges".
  • Vés a la pantalla d'inici i obre l'app "Càmera".
  • Apunta la càmera a un llibre, diari o pantalla amb text digital.
  • Prem "Selecciona per escoltar" abans de tocar una paraula a la càmera.

El lector Android TTS començarà a narrar des de la paraula destacada. Pots seleccionar blocs de text arrossegant el dit, com en un processador de text.

Apple

Per llegir text físic amb un iPhone necessites una càmera, iOS 15 o superior i activar el lector TTS integrat.

  • Obre "Accessibilitat" al menú "Configuració".
  • Toca la funció "Contingut parlat".
  • Activa les opcions "Pronuncia selecció" i "Pronuncia pantalla".
  • Torna a l'inici i engega la càmera.
  • Apunta la càmera a la pàgina i espera el botó "Text en viu" a la barra d'eines inferior.
  • Toca el botó per activar la lectura OCR de pantalla.
  • Desplaça amb dos dits cap avall per llegir des de dalt.
  • Toca una paraula o selecciona text per llegir una paraula, frase o paràgraf.

Com en Android, l'iPad i l'iPhone tenen funcions OCR i TTS limitades. Tot i tenir una bona precisió en el text, la veu sona poc natural i molt robòtica.

Speechify—El millor TTS amb OCR

Els lectors TTS amb OCR integrats als mòbils són útils, però limitats en qualitat i funcions. Per sort, hi ha una alternativa: Speechify és un lector de text a veu que combina OCR i més de 200 veus realistes i emocionals amb veus IA en més de 60 idiomes, incloent-hi veus famoses. Supera els lectors bàsics i escaneja llibres sencers o documents físics, transformant text físic en digital. L'algoritme genera veus naturals i adaptables a la velocitat desitjada. El programari Speechify text a veu està disponible a:

Ja sigui des de l'App Store o Google Play o descarregant per a Mac o l'Extensió Chrome, una llicència et permet fer servir Speechify a tots els teus dispositius, ja sigui Mozilla, Microsoft, Chromebooks, Apple o Windows. És fàcil d'usar i apte per a totes les edats i nivells. Els escanejos OCR de Speechify OCR estan disponibles per llegir en línia en temps real.

Pensat per a persones amb dislèxia, dificultats lectores, discapacitat visual o per a multitaskers, Speechify va més enllà d'un lector de pantalla bàsic. Converteix qualsevol text en audiollibre, crea podcasts i et permet llegir amb menys esforç i més concentració. Prova Speechify gratuït text a veu i personalitza una experiència immersiva. També pots provar el Generador de Veu IA per escoltar les veus amb qualsevol text.

Preguntes freqüents

Quina és la veu més natural de text a veu? 

Speechify ofereix més de 200 veus realistes d'IA en més de 60 idiomes, incloent-hi accents regionals, cosa que el fa més natural que competidors com altres TTS com Fake You, Nuance i Uberduck

Ofereix Speechify una API de text a veu?

Sí, Speechify ofereix una API de text a veu similar a la de Google.  

Com puc crear narracions amb veu IA? 

Els usuaris poden crear narracions IA per a ús comercial fàcilment amb Speechify Studio

Puc transformar apunts en podcasts?

Amb la funció podcast IA de Speechify es pot convertir qualsevol text físic en podcasts IA interactius i descarregables com arxius MP3.

Gaudeix de les veus amb IA més avançades, arxius il·limitats i suport 24/7

Prova-ho gratis
tts banner for blog

Comparteix aquest article

Cliff Weitzman

Cliff Weitzman

CEO i fundador de Speechify

Cliff Weitzman és un defensor de la dislèxia i el CEO i fundador de Speechify, l'app de text a veu número 1 al món, amb més de 100.000 ressenyes de 5 estrelles i líder del rànquing de l'App Store en Notícies i Revistes. El 2017, Weitzman va entrar a la llista Forbes 30 under 30 per la seva tasca fent internet més accessible per a persones amb dificultats d'aprenentatge. Cliff Weitzman ha aparegut a EdSurge, Inc., PC Mag, Entrepreneur, Mashable i altres mitjans destacats.

speechify logo

Sobre Speechify

El millor lector de text a veu

Speechify és la plataforma líder mundial de text a veu, de confiança per a més de 50 milions d'usuaris i avalada per més de 500.000 ressenyes de cinc estrelles a les seves aplicacions de text a veu per a iOS, Android, Extensió de Chrome, aplicació web i aplicació per a Mac. El 2025, Apple va premiar Speechify amb el prestigiós Premi de Disseny Apple a la WWDC, qualificant-lo com “una eina essencial que ajuda la gent a viure la seva vida.” Speechify ofereix més de 1.000 veus naturals en més de 60 idiomes i s'utilitza a gairebé 200 països. Entre les veus de celebritats hi trobem Snoop Dogg i Gwyneth Paltrow. Per a creadors i empreses, Speechify Studio proporciona eines avançades com Generador de veu IA, Clonació de veus IA, Doblatge IA i el seu Canviador de veu IA. Speechify també impulsa productes líders amb la seva API de text a veu, d'alta qualitat i amb una relació qualitat-preu òptima API de text a veu. Present en The Wall Street Journal, CNBC, Forbes, TechCrunch i altres mitjans destacats, Speechify és el proveïdor de text a veu més gran del món. Visiteu speechify.com/news, speechify.com/blog i speechify.com/press per saber-ne més.