Lyhyt historia tekstistä puheeksi -teknologiasta

Puheentunnistus, eli ihmisen äänen keinotekoinen tuottaminen, on kehittynyt huomattavasti viimeisten 70 vuoden aikana. Käytitpä sitten tekstistä puheeksi -palveluita kirjojen kuunteluun, opiskeluun tai oman tekstin oikolukuun, ei ole epäilystäkään siitä, että nämä palvelut ovat helpottaneet elämää monilla eri aloilla.

Tässä tarkastelemme, miten tekstistä puheeksi -prosessointi toimii ja miten avustava teknologia on muuttunut ajan myötä.

Johdanto

1700-luvulla venäläinen professori Christian Kratzenstein loi akustisia resonansseja, jotka jäljittelivät ihmisen ääntä. Kaksi vuosikymmentä myöhemmin VODER (Voice Operating Demonstrator) teki suurta vaikutusta New Yorkin maailmannäyttelyssä, kun sen luoja Homer Dudley esitteli, miten ihmisen puhetta voidaan luoda keinotekoisesti. Laitetta oli vaikea käyttää – Dudleyn piti hallita perustaajuutta jalkapolkimilla.

1800-luvun alussa Charles Wheatstone kehitti ensimmäisen mekaanisen puhesyntetisaattorin. Tämä käynnisti nopean kehityksen artikulatoristen synteesityökalujen ja -teknologioiden parissa.

On vaikea määritellä tarkalleen, mikä tekee hyvästä tekstistä puheeksi -ohjelmasta, mutta kuten monissa asioissa elämässä, sen tietää, kun sen kuulee. Laadukas ohjelma tarjoaa luonnollisen kuuloisia ääniä, joissa on oikean elämän intonaatio ja sävy.

Tekstistä puheeksi -teknologia voi auttaa näkövammaisia ja muita vammaisia saamaan tarvitsemansa tiedon menestyäkseen työssä ja kommunikoidakseen muiden kanssa. Ohjelmisto mahdollistaa myös opiskelijoille ja muille, joilla on paljon luettavaa, kuunnella tietonsa ihmisen puheena liikkeellä ollessaan. Synteettinen puhe mahdollistaa enemmän asioiden tekemisen lyhyemmässä ajassa ja voi olla hyödyllinen monissa eri ympäristöissä, kuten videopelien luomisessa tai auttaessa ihmisiä, joilla on kielenkäsittelyyn liittyviä eroja.

1950- ja 60-luku

1950-luvun lopulla luotiin ensimmäiset puhesynteesijärjestelmät. Nämä järjestelmät perustuivat tietokoneisiin. Vuonna 1961 fyysikko John Larry Kelly Jr. Bell Labsista käytti IBM-tietokonetta puheen synteesiin. Hänen vokaalikojeensa (ääninauhuri-syntetisaattori) loi uudelleen laulun Daisy Bell.

Samaan aikaan kun Kelly viimeisteli vokaalikojettaan, Arthur C. Clarke, 2001: Avaruusseikkailu -kirjan kirjoittaja, käytti Kellyn esitystä kirjansa käsikirjoituksessa. Kohtauksessa HAL 9000 -tietokone laulaa Daisy Bellin.

Vuonna 1966 lineaarinen ennustekoodaus tuli esiin. Tämä puhekoodauksen muoto alkoi kehittyä Fumitada Itakuran ja Shuzo Saiton johdolla. Bishnu S. Atal ja Manfred R. Schroeder osallistuivat myös lineaarisen ennustekoodauksen kehittämiseen.

1970-luku

Vuonna 1975 Itakura kehitti linjaspektriparien menetelmän. Tämä korkean pakkaussuhteen puhekoodausmenetelmä auttoi Itakuraa oppimaan lisää puheanalyysistä ja -synteesistä, löytämään heikkouksia ja parantamaan niitä.

Samana vuonna julkaistiin myös MUSA. Tämä itsenäinen puhesynteesijärjestelmä käytti algoritmia lukemaan italiaa ääneen. Kolme vuotta myöhemmin julkaistu versio osasi laulaa italiaksi.

70-luvulla kehitettiin ensimmäinen artikulatorinen syntetisaattori, joka perustui ihmisen ääntöelimistöön. Ensimmäinen tunnettu syntetisaattori kehitettiin Tom Baerin, Paul Mermelsteinin ja Philip Rubinin toimesta Haskins Laboratoriesissa. Kolmikko käytti Bell Laboratoriesissa 60- ja 70-luvuilla luotuja ääntöelimistön malleja.

Vuonna 1976 esiteltiin Kurzweil-lukulaitteet sokeille. Vaikka nämä laitteet olivat liian kalliita yleisölle, kirjastot tarjosivat niitä usein näkövammaisille kirjojen kuunteluun.

Lineaarinen ennustekoodaus toimi lähtökohtana syntetisaattoripiireille. Texas Instrumentsin LPC-puhepiirit ja 70-luvun lopun Speak & Spell -lelut käyttivät syntetisaattoripiiriteknologiaa. Nämä lelut olivat esimerkkejä ihmisen äänen synteesistä, jossa oli tarkka intonaatio, mikä erotti äänen ajan yleisesti robottimaisista synteettisistä äänistä. Monet käsikäyttöiset elektroniset laitteet, jotka pystyivät synteettiseen puheeseen, tulivat suosituiksi tällä vuosikymmenellä, mukaan lukien Telesensory Systemsin Speech+ -laskin sokeille. Fidelity Voice Chess Challenger, shakkitietokone, joka pystyi synteettiseen puheeseen, julkaistiin vuonna 1979.

1980-luku

1980-luvulla puhesynteesi alkoi mullistaa videopelimaailmaa. Vuonna 1980 julkaistu Stratovox (ampumistyylinen kolikkopeli) oli Sun Electronicsin julkaisema. Manbiki Shoujo (suomennettuna Myymälävarkaustyttö) oli ensimmäinen henkilökohtainen tietokonepeli, jossa oli puhesynteesin mahdollisuus. Elektroninen peli Milton julkaistiin myös vuonna 1980 – se oli The Milton Bradley Companyn ensimmäinen elektroninen peli, joka pystyi synnyttämään ihmisen ääntä.

Vuonna 1983 itsenäinen akustis-mekaaninen puhekone nimeltä DECtalk esiteltiin. DECtalk ymmärsi sanojen foneettisia kirjoitusasuja, mikä mahdollisti epätavallisten sanojen mukautetun ääntämisen. Näihin foneettisiin kirjoitusasuihin voitiin myös sisällyttää sävyindikaattori, jota DECtalk käytti foneettisten osien lausumisessa. Tämä mahdollisti DECtalkin laulamisen.

1980-luvun lopulla Steve Jobs loi NeXTin, järjestelmän, jonka kehitti Trillium Sound Research. Vaikka NeXT ei menestynyt, Jobs yhdisti ohjelman lopulta Appleen 90-luvulla.

1990-luku

Aikaisemmat puhesynteesijärjestelmät kuulostivat selvästi robottimaisilta, mutta tämä alkoi muuttua 80-luvun lopulla ja 90-luvun alussa. Pehmeämmät konsonantit mahdollistivat puhekoneiden menettävän elektronisen teränsä ja kuulostavan inhimillisemmiltä. Vuonna 1990 Ann Syrdal AT&T Bell Laboratoriesissa kehitti naispuolisen puhesynteesin äänen. Insinöörit työskentelivät 90-luvulla tehdäkseen äänistä luonnollisemman kuuloisia.

Vuonna 1999 Microsoft julkaisi Narratorin, näytönlukuratkaisun, joka sisältyy nyt jokaiseen Microsoft Windows -kopioon.

2000-luku

Puhesynteesi kohtasi joitakin haasteita 2000-luvulla, kun kehittäjät kamppailivat luodakseen yhteisesti sovittuja standardeja synteettiselle puheelle. Koska puhe on hyvin yksilöllistä, on vaikeaa saada ihmiset ympäri maailmaa sopimaan foneemien, difoneiden, intonaation, sävyn, toistokuvioiden ja painotuksen oikeasta ääntämisestä.

Formanttisinteesin puheäänen laatu nousi myös huolenaiheeksi 90-luvulla, kun insinöörit ja tutkijat huomasivat, että laboratorioissa käytettyjen järjestelmien laatu synteettisen puheen toistamiseen oli usein paljon kehittyneempi kuin käyttäjän laitteisto. Kun ajatellaan puhesynteesiä, monille tulee mieleen Stephen Hawkingin äänisyntetisaattori, joka tarjosi robottimaisen äänen, jossa oli vähän inhimillistä sävyä.

Vuonna 2005 tutkijat pääsivät vihdoin yhteisymmärrykseen ja alkoivat käyttää yhteistä puhedataa, mikä mahdollisti työskentelyn samojen perusperiaatteiden pohjalta korkeatasoisten puhesynteesijärjestelmien luomisessa.

Vuonna 2007 tehtiin tutkimus, joka osoitti, että kuuntelijat voivat päätellä, hymyileekö puhuja. Tutkijat jatkavat työskentelyä selvittääkseen, miten tätä tietoa voidaan käyttää luonnollisemman puheentunnistus- ja puhesynteesiohjelmiston luomiseen.

2010-luku

Nykyään puhesynteesituotteet, jotka käyttävät puhesignaaleja, ovat kaikkialla, Siri:stä Alexaan. Elektroniset puhesyntetisaattorit eivät vain helpota elämää – ne tekevät siitä myös hauskempaa. Käytitpä sitten TTS-järjestelmää kuunnellaksesi romaaneja liikkeellä ollessasi tai sovelluksia, jotka helpottavat vieraan kielen oppimista, on todennäköistä, että käytät tekstistä puheeksi -teknologiaa aktivoidaksesi hermoverkkojasi päivittäin.

Tulevaisuus

Tulevina vuosina on todennäköistä, että äänisynteesiteknologia keskittyy luomaan aivojen mallin ymmärtääkseen paremmin, miten tallennamme puhedataa mielessämme. Puhetekniikka pyrkii myös ymmärtämään paremmin tunteiden roolia puheessa ja käyttää tätä tietoa luodakseen tekoälyääniä, jotka ovat erottamattomia todellisista ihmisistä.

Uusinta äänisynteesiteknologiassa: Speechify

Kun oppii siirtymistä aikaisemmasta puhesynteesiteknologiasta, on hämmästyttävää kuvitella, kuinka pitkälle tiede on edennyt. Nykyään sovellukset kuten Speechify tekevät tekstin muuntamisesta äänitiedostoiksi helppoa. Vain napin painalluksella (tai sovelluksen napautuksella) Speechify pystyy muuntamaan verkkosivustoja, asiakirjoja ja tekstikuvia luonnollisen kuuloiseksi puheeksi. Speechifyn kirjasto synkronoituu kaikilla laitteillasi, mikä tekee oppimisesta ja työskentelystä liikkeellä yksinkertaista. Tutustu Speechify-sovellukseen sekä Applen App Storessa että Androidin Google Play -kaupassa.

Usein kysytyt kysymykset

Kuka keksi tekstistä puheeksi -teknologian?

Tekstistä puheeksi -teknologian englanniksi keksi Noriko Umeda. Järjestelmä kehitettiin Japanissa Elektroteknisessä laboratoriossa vuonna 1968.

Mikä on tekstistä puheeksi -teknologian tarkoitus?

Monet ihmiset käyttävät tekstistä puheeksi -teknologiaa. Niille, jotka haluavat saada tietonsa äänimuodossa, TTS-teknologia voi tehdä tiedon hankkimisesta helppoa ilman, että tarvitsee viettää tunteja kirjan ääressä. Kiireiset ammattilaiset käyttävät myös TTS-teknologiaa pysyäkseen ajan tasalla työssään, kun he eivät voi istua tietokoneen ääressä. Monenlaiset TTS-teknologiat kehitettiin alun perin näkövammaisille, ja TTS on yhä loistava tapa saada tarvittavat tiedot niille, joilla on vaikeuksia nähdä.

Miten puhe synteetisoidaan?

Tallennetut puheosuudet säilytetään tietokannassa eri yksiköinä. Ohjelmisto valmistaa äänitiedostoja yksikkövalinnan avulla. Tästä luodaan ääni. Usein mitä laajempi ohjelman tuotosalue on, sitä enemmän ohjelma kamppailee tarjotakseen käyttäjille selkeää ääntä.

Speechify on maailman johtava tekstistä puheeksi -alusta, johon luottaa yli 50 miljoonaa käyttäjää ja joka on saanut yli 500 000 viiden tähden arvostelua sen iOS-, Android-, Chrome-laajennus-, verkkosovellus- ja Mac-työpöytäsovellus -versioista. Vuonna 2025 Apple myönsi Speechifylle arvostetun Apple Design Award -palkinnon WWDC-tapahtumassa, kutsuen sitä “elintärkeäksi resurssiksi, joka auttaa ihmisiä elämään elämäänsä.” Speechify tarjoaa yli 1 000 luonnollisen kuuloista ääntä yli 60 kielellä ja sitä käytetään lähes 200 maassa. Julkkisäänet sisältävät muun muassa Snoop Doggin, Mr. Beastin ja Gwyneth Paltrow’n. Sisällöntuottajille ja yrityksille Speechify Studio tarjoaa edistyneitä työkaluja, kuten tekoälypohjaisen äänenluonnin, äänen kloonauksen, dubbaustyökalut ja äänimuuntimen. Speechify myös tukee johtavia tuotteita korkealaatuisella ja kustannustehokkaalla tekstistä puheeksi API:lla. Esillä muun muassa julkaisuissa The Wall Street Journal, CNBC, Forbes ja TechCrunch, Speechify on maailman suurin tekstistä puheeksi -palveluntarjoaja. Vieraile osoitteissa speechify.com/news, speechify.com/blog ja speechify.com/press saadaksesi lisätietoja.

Lyhyt historia tekstistä puheeksi -teknologiasta

Tyler Weitzman

#1 Tekstistä puheeksi -lukija.
Anna Speechifyn lukea sinulle.

1970-luku

1980-luku

1990-luku

2000-luku

2010-luku

Tulevaisuus

Uusinta äänisynteesiteknologiassa: Speechify

Usein kysytyt kysymykset

Kuka keksi tekstistä puheeksi -teknologian?

Mikä on tekstistä puheeksi -teknologian tarkoitus?

Miten puhe synteetisoidaan?

Nauti edistyneimmistä tekoälyäänistä, rajattomista tiedostoista ja 24/7-tuesta

Jaa tämä artikkeli

Tyler Weitzman

Tietoa Speechifystä

Recommended Posts

Uusimmat blogit

Miksi Speechify on paras syväluennan sovellus

Speechify vs NoteGPT

Speechify julkaisee multimodaaliset oppimistoiminnot

Lyhyt historia tekstistä puheeksi -teknologiasta

Tyler Weitzman

#1 Tekstistä puheeksi -lukija.Anna Speechifyn lukea sinulle.

1970-luku

1980-luku

1990-luku

2000-luku

2010-luku

Tulevaisuus

Uusinta äänisynteesiteknologiassa: Speechify

Usein kysytyt kysymykset

Kuka keksi tekstistä puheeksi -teknologian?

Mikä on tekstistä puheeksi -teknologian tarkoitus?

Miten puhe synteetisoidaan?

Nauti edistyneimmistä tekoälyäänistä, rajattomista tiedostoista ja 24/7-tuesta

Jaa tämä artikkeli

Tyler Weitzman

Tietoa Speechifystä

Recommended Posts

Uusimmat blogit

Miksi Speechify on paras syväluennan sovellus

Speechify vs NoteGPT

Speechify julkaisee multimodaaliset oppimistoiminnot

#1 Tekstistä puheeksi -lukija.
Anna Speechifyn lukea sinulle.