1. Etusivu
  2. Saavutettavuus
  3. Kuvatekstin puheeksi muuntaminen—Kuinka ottaa kuva sivusta ja kuunnella se ääneen
Social Proof

Kuvatekstin puheeksi muuntaminen—Kuinka ottaa kuva sivusta ja kuunnella se ääneen

Speechify on maailman johtava äänilukija. Käy läpi kirjoja, asiakirjoja, artikkeleita, PDF-tiedostoja, sähköposteja - mitä tahansa luettavaa - nopeammin.

Esillä

forbes logocbs logotime magazine logonew york times logowall street logo
Kuuntele tämä artikkeli Speechifyllä!
Speechify

Opi kuvatekstin puheeksi muuntamisen perusteet - Kuinka ottaa kuva sivusta ja kuunnella se ääneen millä tahansa mobiili- tai pöytälaitteella ja käyttöjärjestelmällä.

TTS-lukijat ovat erittäin kysyttyjä ja niitä on runsaasti saatavilla. Mutta tarkoittaako tämä, että kaikki tekstin puheeksi -teknologiat tarjoavat saman suorituskyvyn? Monet TTS-näytönlukijat voivat käsitellä digitaalista tekstiä Microsoft Word -dokumenteista, HTML-verkkosivuista tai muista tekstimuodoista kopioituja sanoja. Mutta harvat niistä voivat muuntaa lukittua digitaalista ja fyysistä tekstiä kuvista luonnollisen kuuloiseksi kerronnaksi. Ne, jotka pystyvät tähän, käyttävät optista merkkien tunnistusta (OCR).

Mikä on OCR?

OCR, joka tunnetaan optisena merkkien tunnistuksena tai tekstintunnistuksena, on teknologia, joka on suunniteltu erikoistuneeseen tiedonhakuun. Sillä on lukuisia liiketoimintasovelluksia ja paljon käyttöä vapaa-ajalla ja viihteessä. Tällaisessa teknologiassa on yleensä kaksi osaa. Siinä on laitteistoelementti kuvien skannaamiseen ja ohjelmistoelementti tiedon poimimiseen ja uudelleenkäyttöön. Mutta ohjelmistokomponentti on jännittävin ja monimutkaisin osa. OCR-ohjelmisto voi erottaa yksittäiset kirjaimet ja kokonaiset sanat ja järjestää ne lauseiksi. Lisäksi se mahdollistaa käyttäjien muokata alkuperäistä lukittua sisältöä, kuten PDF-tiedoston muokkaamista, jossa on lukittua tekstiä.

Miten OCR toimii

Optinen merkkien tunnistus (OCR) on teknologia, joka muuntaa erilaisia dokumentteja, kuten skannattuja paperidokumentteja, PDF-tiedostoja tai digitaalikameralla otettuja kuvia, muokattavaksi ja haettavaksi tiedoksi. Prosessi alkaa, kun OCR-ohjelmisto analysoi dokumentin kuvan rakenteen ja tunnistaa tekstialueet. Se jakaa nämä alueet riveiksi, sanoiksi ja merkeiksi. Jokainen merkki verrataan ennalta määriteltyihin malleihin tai koulutetaan koneoppimismalleilla tunnistamaan ja muuntamaan ne konekoodatuksi tekstiksi. Tämä muunnos mahdollistaa kuvan tekstin muokkaamisen, hakemisen ja digitaalisen käsittelyn.

Tekstin puheeksi ja OCR:n yhdistäminen

Optisen merkkien tunnistuksen yhdistäminen tekstin puheeksi -teknologiaan luo tehokkaan työkalun, joka parantaa saavutettavuutta ja tehokkuutta. OCR poimii tekstiä skannatuista dokumenteista, kuvista tai painetuista materiaaleista ja muuntaa sen koneellisesti luettavaksi tekstiksi. Tämä teksti voidaan sitten syöttää TTS-järjestelmään, joka muuntaa kirjoitetut sanat puheeksi. Tämä synergia mahdollistaa laajan valikoiman sovelluksia, kuten auttaa näkövammaisia "lukemaan" painettuja materiaaleja, muuntaa kirjoja ja dokumentteja äänikirjoiksi tai tarjota reaaliaikaisia ääniä käännetyistä painetuista vieraista teksteistä. Yhdistämällä OCR TTS:ään käyttäjät voivat olla vuorovaikutuksessa tekstisisällön kanssa dynaamisemmin, tehden tiedosta saavutettavampaa kaikille, riippumatta heidän lukutaidostaan tai näkövammastaan.

Tekstin puheeksi OCR:n käyttötarkoitukset

OCR- ja TTS-teknologioiden yhdistäminen avaa lukuisia mahdollisuuksia tehdä tiedosta saavutettavampaa ja helpommin kulutettavaa eri tilanteissa. Tässä muutamia tekstin puheeksi OCR:n käyttötarkoituksia:

  • Avustava teknologia näkövammaisille: Muuntaa kirjoitetun sisällön kirjoista, dokumenteista tai näytöistä puheeksi, auttaen näkövammaisia tai sokeita henkilöitä "lukemaan" sisältöä.
  • Oppiminen ja koulutus:
    • Apua dysleksisille opiskelijoille: Auttaa dysleksiaa tai muita lukemisvaikeuksia omaavia opiskelijoita muuntamalla kirjoitetun tekstin ääneksi.
    • Monimuotoinen oppiminen: Mahdollistaa oppijoille sekä lukea että kuunnella sisältöä, parantaen ymmärrystä ja muistamista.
  • Käännös ja kielten oppiminen: Muuntaa kirjoitetun vieraskielisen tekstin puheeksi, auttaen ääntämisessä ja ymmärtämisessä.
  • Digitaalinen sisällönkulutus: Muuntaa kirjoja, uutisartikkeleita ja muuta painettua tekstisisältöä äänikirjoiksi tai podcasteiksi liikkeellä ollessa.
  • Dokumenttien saavutettavuus: Tekee PDF-tiedostoista, skannatuista dokumenteista ja muista ei-muokattavista formaateista saavutettavia henkilöille, jotka suosivat tai tarvitsevat äänisisältöä.
  • Historiallisten dokumenttien analysointi: Muuntaa vanhoja käsikirjoituksia tai arkistodokumentteja äänisisällöksi tutkijoille tai harrastajille, jotka haluavat kuunnella historiallisia tekstejä.
  • Liiketoiminta ja tuottavuus: Muuntaa painetut ei-digitaaliset raportit puheeksi kiireisille ammattilaisille.
  • Oikoluku: Auttaa kirjoittajia tai toimittajia tunnistamaan virheitä kirjoitetussa sisällössä paperilla kuuntelemalla sitä.
  • Viihde: Muuntaa sarjakuvia, graafisia novelleja tai muita pääasiassa visuaalisia medioita kuuntelukokemukseksi.

Kuinka lukea teksti ääneen kuvasta

Kaikki Applen ja Androidin mobiililaitteiden käyttäjät eivät tiedä, että heidän sovelluksissaan saattaa olla OCR-teknologiaa ja TTS-lukija, joka pystyy suorittamaan yksinkertaisia tekstin puheeksi muunnostehtäviä. Sisäänrakennettuja TTS-ominaisuuksia voi ajatella kuin sovelluksina, jotka lukevat sinulle ilmaiseksi tai kuin ilmainen sovellus, joka lukee tekstiä kameroista, mutta niiden laatu ei ole yhtä hyvä kuin kehittyneemmän tekstin puheeksi -ohjelmiston. Näin pääset käsiksi tekstinlukijaan kuvista Android- ja Apple-laitteilla:

Android

Android-laitteissa, ainakin niissä, joissa on Android 12 -käyttöjärjestelmä tai uudempi, on sisäänrakennettu TTS-lukija. Se on hyödyllinen työkalu navigointiin, pienten fonttien lukemiseen jne. Voit myös käyttää sitä lukemaan tekstiä kuvista. Näin asetat laitteesi:

  • Siirry "Esteettömyys"-valikkoon "Asetukset"-sovelluksen kautta.
  • Ota käyttöön "Valitse ja puhu" -vaihtoehto.
  • Siirry TTS-lukijan "Asetukset"-välilehteen ja kytke päälle "Lue tekstiä kuvista" -vaihtoehto.
  • Palaa aloitusnäyttöön ja avaa "Kamera"-sovellus.
  • Suuntaa kamera kirjaan, sanomalehteen tai toiseen näyttöön, jossa on digitaalista tekstiä.
  • Napauta "Valitse ja puhu" -painiketta ennen kuin napautat sanaa "Kamera"-sovelluksessa.

TTS Android -lukija alkaa kertoa korostetusta sanasta. Voit valita tekstikappaleita vetämällä sormea näytön poikki valinnan tekemiseksi, kuten tekisit tekstinkäsittelyohjelmassa.

Apple

Fyysisen tekstin lukeminen ääneen iPhonella vaatii toimivan kameran, iOS 15 tai uudemman, ja sisäänrakennetun TTS-lukijan käyttöönoton.

  • Siirry "Esteettömyys"-välilehteen "Asetukset"-valikosta.
  • Napauta "Puhuttu sisältö" -ominaisuutta.
  • Ota käyttöön "Puhu valinta" ja "Puhu näyttö" -vaihtoehdot.
  • Palaa aloitusnäyttöön ja kytke kamera päälle.
  • Suuntaa kamera sivulle ja odota, että "Live Text" -painike ilmestyy alatyökalupalkkiin.
  • Napauta painiketta ottaaksesi käyttöön OCR-näytön lukemisen.
  • Pyyhkäise alas kahdella sormella aloittaaksesi lukemisen sivun yläosasta.
  • Napauta sanaa tai tee valinta näytöllä lukeaksesi ääneen tietyn sanan, lauseen tai kappaleen.

Kuten Android-laitteissa, iPadeissa ja iPhoneissa on rajoitetut OCR- ja TTS-ominaisuudet. Vaikka tekstinkäsittelyn tarkkuus on keskimääräistä parempi, äänenlaatu on heikko sen robottimaisen luonteen vuoksi.

Speechify—Paras TTS OCR-teknologialla

Vaikka sisäänrakennetut TTS-lukijat ja OCR-ohjelmistot ovat mukavia olla mobiililaitteissa, niiden laatu ja suorituskyky eivät ole vaikuttavia. Onneksi sinulla on vaihtoehtoinen tekstinlukusovellus. Speechify on tekstin puheeksi lukija, joka yhdistää OCR-teknologian ja korkealaatuiset tekoälyn tuottamat äänet. Sen toiminnallisuus ylittää oletusmobiilitekstien lukijat ja voi skannata kokonaisia kirjoja ja fyysisiä asiakirjoja muuttaakseen fyysisen tekstin digitaaliseksi tekstiksi. Siitä eteenpäin monimutkaiset algoritmit tuottavat luonnollisen kuuloisia ääniä, joita voit hallita ja säätää haluamaasi lukunopeuteen. Speechify-tekstin puheeksi -ohjelmisto on saatavilla seuraavilla alustoilla:

Olipa kyseessä Apple App Storesta tai Google Play Storesta hankittu versio tai työpöydän Mac-versio tai Chrome-selaimen laajennus, yksi lisenssi riittää käyttämään Speechifyä kaikilla työpöytä- ja mobiililaitteillasi. Käyttäjäystävällinen käyttöliittymä houkuttelee kaikenikäisiä ja teknisen taustan omaavia käyttäjiä. Speechify OCR -skannaukset ovat saatavilla reaaliaikaiseen online-lukemiseen.

Suunniteltu käyttäjille, joilla on dysleksia, lukemisvaikeuksia, näkövamma tai jotka ovat moniajoisia, Speechifyn avustava teknologia tekee enemmän kuin tyypillinen koko näytön lukija. Se on sovellus, jolla haluat muuttaa minkä tahansa digitaalisen ja fyysisen tekstin äänikirjaksi, luoda podcasteja ja parantaa lukutaitojasi vähemmällä vaivalla ja suuremmalla keskittymisellä. Kokeile ilmaista Speechify tekstin puheeksi -sovellusta ja personoi mukaansatempaava lukukokemus.

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman on dysleksian puolestapuhuja sekä Speechifyn toimitusjohtaja ja perustaja. Speechify on maailman johtava tekstistä puheeksi -sovellus, jolla on yli 100 000 viiden tähden arvostelua ja joka on App Storen ykkönen Uutiset & Aikakauslehdet -kategoriassa. Vuonna 2017 Weitzman valittiin Forbesin 30 alle 30 -listalle työstään, jolla hän teki internetistä saavutettavamman oppimisvaikeuksista kärsiville. Cliff Weitzman on ollut esillä muun muassa EdSurgessa, Inc.:ssä, PC Magissa, Entrepreneurissa ja Mashablessa.