Lyhyt historia tekstistä puheeksi -teknologiasta
Esillä
Puheentunnistusteknologia, joka tunnetaan paremmin tekstistä puheeksi -teknologiana, on kehittynyt nopeasti vuosien varrella. Tutustu tekstistä puheeksi -teknologian historiaan.
Puheentunnistus, eli ihmisen äänen keinotekoinen tuottaminen, on kehittynyt huomattavasti viimeisten 70 vuoden aikana. Käytitpä sitten tekstistä puheeksi -palveluita kirjojen kuunteluun, opiskeluun tai oman tekstin oikolukuun, ei ole epäilystäkään siitä, että nämä palvelut ovat helpottaneet elämää monilla eri aloilla.
Tässä tarkastelemme, miten tekstistä puheeksi -prosessointi toimii ja miten avustava teknologia on muuttunut ajan myötä.
Johdanto
1700-luvulla venäläinen professori Christian Kratzenstein loi akustisia resonansseja, jotka jäljittelivät ihmisen ääntä. Kaksi vuosikymmentä myöhemmin VODER (Voice Operating Demonstrator) teki suurta vaikutusta New Yorkin maailmannäyttelyssä, kun sen luoja Homer Dudley esitteli, miten ihmisen puhetta voidaan luoda keinotekoisesti. Laitetta oli vaikea käyttää – Dudleyn piti hallita perustaajuutta jalkapolkimilla.
1800-luvun alussa Charles Wheatstone kehitti ensimmäisen mekaanisen puhesyntetisaattorin. Tämä käynnisti nopean kehityksen artikulatoristen synteesityökalujen ja -teknologioiden parissa.
On vaikea määritellä tarkalleen, mikä tekee hyvästä tekstistä puheeksi -ohjelmasta, mutta kuten monissa asioissa elämässä, sen tietää, kun sen kuulee. Laadukas ohjelma tarjoaa luonnollisen kuuloisia ääniä, joissa on oikean elämän intonaatio ja sävy.
Tekstistä puheeksi -teknologia voi auttaa näkövammaisia ja muita vammaisia saamaan tarvitsemansa tiedon menestyäkseen työssä ja kommunikoidakseen muiden kanssa. Ohjelmisto mahdollistaa myös opiskelijoille ja muille, joilla on paljon luettavaa, kuunnella tietonsa ihmisen puheena liikkeellä ollessaan. Synteettinen puhe mahdollistaa enemmän asioiden tekemisen lyhyemmässä ajassa ja voi olla hyödyllinen monissa eri ympäristöissä, kuten videopelien luomisessa tai auttaessa ihmisiä, joilla on kielenkäsittelyyn liittyviä eroja.
1950- ja 60-luku
1950-luvun lopulla luotiin ensimmäiset puhesynteesijärjestelmät. Nämä järjestelmät perustuivat tietokoneisiin. Vuonna 1961 fyysikko John Larry Kelly Jr. Bell Labsista käytti IBM-tietokonetta puheen synteesiin. Hänen vokaalikojeensa (ääninauhuri-syntetisaattori) loi uudelleen laulun Daisy Bell.
Samaan aikaan kun Kelly viimeisteli vokaalikojettaan, Arthur C. Clarke, 2001: Avaruusseikkailu -kirjan kirjoittaja, käytti Kellyn esitystä kirjansa käsikirjoituksessa. Kohtauksessa HAL 9000 -tietokone laulaa Daisy Bellin.
Vuonna 1966 lineaarinen ennustekoodaus tuli esiin. Tämä puhekoodauksen muoto alkoi kehittyä Fumitada Itakuran ja Shuzo Saiton johdolla. Bishnu S. Atal ja Manfred R. Schroeder osallistuivat myös lineaarisen ennustekoodauksen kehittämiseen.
1970-luku
Vuonna 1975 Itakura kehitti linjaspektriparien menetelmän. Tämä korkean pakkaussuhteen puhekoodausmenetelmä auttoi Itakuraa oppimaan lisää puheanalyysistä ja -synteesistä, löytämään heikkouksia ja parantamaan niitä.
Samana vuonna julkaistiin myös MUSA. Tämä itsenäinen puhesynteesijärjestelmä käytti algoritmia lukemaan italiaa ääneen. Kolme vuotta myöhemmin julkaistu versio osasi laulaa italiaksi.
70-luvulla kehitettiin ensimmäinen artikulatorinen syntetisaattori, joka perustui ihmisen ääntöelimistöön. Ensimmäinen tunnettu syntetisaattori kehitettiin Tom Baerin, Paul Mermelsteinin ja Philip Rubinin toimesta Haskins Laboratoriesissa. Kolmikko käytti Bell Laboratoriesissa 60- ja 70-luvuilla luotuja ääntöelimistön malleja.
Vuonna 1976 esiteltiin Kurzweil-lukulaitteet sokeille. Vaikka nämä laitteet olivat liian kalliita yleisölle, kirjastot tarjosivat niitä usein näkövammaisille kirjojen kuunteluun.
Lineaarinen ennustekoodaus toimi lähtökohtana syntetisaattoripiireille. Texas Instrumentsin LPC-puhepiirit ja 70-luvun lopun Speak & Spell -lelut käyttivät syntetisaattoripiiriteknologiaa. Nämä lelut olivat esimerkkejä ihmisen äänen synteesistä, jossa oli tarkka intonaatio, mikä erotti äänen ajan yleisesti robottimaisista synteettisistä äänistä. Monet käsikäyttöiset elektroniset laitteet, jotka pystyivät synteettiseen puheeseen, tulivat suosituiksi tällä vuosikymmenellä, mukaan lukien Telesensory Systemsin Speech+ -laskin sokeille. Fidelity Voice Chess Challenger, shakkitietokone, joka pystyi synteettiseen puheeseen, julkaistiin vuonna 1979.
1980-luku
1980-luvulla puhesynteesi alkoi mullistaa videopelimaailmaa. Vuonna 1980 julkaistu Stratovox (ampumistyylinen kolikkopeli) oli Sun Electronicsin julkaisema. Manbiki Shoujo (suomennettuna Myymälävarkaustyttö) oli ensimmäinen henkilökohtainen tietokonepeli, jossa oli puhesynteesin mahdollisuus. Elektroninen peli Milton julkaistiin myös vuonna 1980 – se oli The Milton Bradley Companyn ensimmäinen elektroninen peli, joka pystyi synnyttämään ihmisen ääntä.
Vuonna 1983 itsenäinen akustis-mekaaninen puhekone nimeltä DECtalk esiteltiin. DECtalk ymmärsi sanojen foneettisia kirjoitusasuja, mikä mahdollisti epätavallisten sanojen mukautetun ääntämisen. Näihin foneettisiin kirjoitusasuihin voitiin myös sisällyttää sävyindikaattori, jota DECtalk käytti foneettisten osien lausumisessa. Tämä mahdollisti DECtalkin laulamisen.
1980-luvun lopulla Steve Jobs loi NeXTin, järjestelmän, jonka kehitti Trillium Sound Research. Vaikka NeXT ei menestynyt, Jobs yhdisti ohjelman lopulta Appleen 90-luvulla.
1990-luku
Aikaisemmat puhesynteesijärjestelmät kuulostivat selvästi robottimaisilta, mutta tämä alkoi muuttua 80-luvun lopulla ja 90-luvun alussa. Pehmeämmät konsonantit mahdollistivat puhekoneiden menettävän elektronisen teränsä ja kuulostavan inhimillisemmiltä. Vuonna 1990 Ann Syrdal AT&T Bell Laboratoriesissa kehitti naispuolisen puhesynteesin äänen. Insinöörit työskentelivät 90-luvulla tehdäkseen äänistä luonnollisemman kuuloisia.
Vuonna 1999 Microsoft julkaisi Narratorin, näytönlukuratkaisun, joka sisältyy nyt jokaiseen Microsoft Windows -kopioon.
2000-luku
Puhesynteesi kohtasi joitakin haasteita 2000-luvulla, kun kehittäjät kamppailivat luodakseen yhteisesti sovittuja standardeja synteettiselle puheelle. Koska puhe on hyvin yksilöllistä, on vaikeaa saada ihmiset ympäri maailmaa sopimaan foneemien, difoneiden, intonaation, sävyn, toistokuvioiden ja painotuksen oikeasta ääntämisestä.
Formanttisinteesin puheäänen laatu nousi myös huolenaiheeksi 90-luvulla, kun insinöörit ja tutkijat huomasivat, että laboratorioissa käytettyjen järjestelmien laatu synteettisen puheen toistamiseen oli usein paljon kehittyneempi kuin käyttäjän laitteisto. Kun ajatellaan puhesynteesiä, monille tulee mieleen Stephen Hawkingin äänisyntetisaattori, joka tarjosi robottimaisen äänen, jossa oli vähän inhimillistä sävyä.
Vuonna 2005 tutkijat pääsivät vihdoin yhteisymmärrykseen ja alkoivat käyttää yhteistä puhedataa, mikä mahdollisti työskentelyn samojen perusperiaatteiden pohjalta korkeatasoisten puhesynteesijärjestelmien luomisessa.
Vuonna 2007 tehtiin tutkimus, joka osoitti, että kuuntelijat voivat päätellä, hymyileekö puhuja. Tutkijat jatkavat työskentelyä selvittääkseen, miten tätä tietoa voidaan käyttää luonnollisemman puheentunnistus- ja puhesynteesiohjelmiston luomiseen.
2010-luku
Nykyään puhesynteesituotteet, jotka käyttävät puhesignaaleja, ovat kaikkialla, Siri:stä Alexaan. Elektroniset puhesyntetisaattorit eivät vain helpota elämää – ne tekevät siitä myös hauskempaa. Käytitpä sitten TTS-järjestelmää kuunnellaksesi romaaneja liikkeellä ollessasi tai sovelluksia, jotka helpottavat vieraan kielen oppimista, on todennäköistä, että käytät tekstistä puheeksi -teknologiaa aktivoidaksesi hermoverkkojasi päivittäin.
Tulevaisuus
Tulevina vuosina on todennäköistä, että äänisynteesiteknologia keskittyy luomaan aivojen mallin ymmärtääkseen paremmin, miten tallennamme puhedataa mielessämme. Puhetekniikka pyrkii myös ymmärtämään paremmin tunteiden roolia puheessa ja käyttää tätä tietoa luodakseen tekoälyääniä, jotka ovat erottamattomia todellisista ihmisistä.
Uusinta äänisynteesiteknologiassa: Speechify
Kun oppii siirtymistä aikaisemmasta puhesynteesiteknologiasta, on hämmästyttävää kuvitella, kuinka pitkälle tiede on edennyt. Nykyään sovellukset kuten Speechify tekevät tekstin muuntamisesta äänitiedostoiksi helppoa. Vain napin painalluksella (tai sovelluksen napautuksella) Speechify pystyy muuntamaan verkkosivustoja, asiakirjoja ja tekstikuvia luonnollisen kuuloiseksi puheeksi. Speechifyn kirjasto synkronoituu kaikilla laitteillasi, mikä tekee oppimisesta ja työskentelystä liikkeellä yksinkertaista. Tutustu Speechify-sovellukseen sekä Applen App Storessa että Androidin Google Play -kaupassa.
Usein kysytyt kysymykset
Kuka keksi tekstistä puheeksi -teknologian?
Tekstistä puheeksi -teknologian englanniksi keksi Noriko Umeda. Järjestelmä kehitettiin Japanissa Elektroteknisessä laboratoriossa vuonna 1968.
Mikä on tekstistä puheeksi -teknologian tarkoitus?
Monet ihmiset käyttävät tekstistä puheeksi -teknologiaa. Niille, jotka haluavat saada tietonsa äänimuodossa, TTS-teknologia voi tehdä tiedon hankkimisesta helppoa ilman, että tarvitsee viettää tunteja kirjan ääressä. Kiireiset ammattilaiset käyttävät myös TTS-teknologiaa pysyäkseen ajan tasalla työssään, kun he eivät voi istua tietokoneen ääressä. Monenlaiset TTS-teknologiat kehitettiin alun perin näkövammaisille, ja TTS on yhä loistava tapa saada tarvittavat tiedot niille, joilla on vaikeuksia nähdä.
Miten puhe synteetisoidaan?
Tallennetut puheosuudet säilytetään tietokannassa eri yksiköinä. Ohjelmisto valmistaa äänitiedostoja yksikkövalinnan avulla. Tästä luodaan ääni. Usein mitä laajempi ohjelman tuotosalue on, sitä enemmän ohjelma kamppailee tarjotakseen käyttäjille selkeää ääntä.
Tyler Weitzman
Tyler Weitzman on Speechifyn toinen perustaja, tekoälyn johtaja ja puheenjohtaja. Speechify on maailman suosituin tekstistä puheeksi -sovellus, jolla on yli 100 000 viiden tähden arvostelua. Weitzman valmistui Stanfordin yliopistosta, jossa hän suoritti kandidaatin tutkinnon matematiikassa ja maisterin tutkinnon tietojenkäsittelytieteessä tekoälyn suuntautumisvaihtoehdossa. Inc. Magazine on valinnut hänet 50 parhaan yrittäjän joukkoon, ja hänestä on kirjoitettu muun muassa Business Insiderissa, TechCrunchissa, LifeHackerissa ja CBS:ssä. Weitzmanin maisteritutkinnon tutkimus keskittyi tekoälyyn ja tekstistä puheeksi -teknologiaan, ja hänen lopputyönsä otsikko oli: “CloneBot: Henkilökohtaiset dialogivastausennusteet.”