Mikä on Microsoft VALL-E?
Esillä
Microsoft VALL-E edustaa uusinta teknologiaa, joka voi tuottaa täysin luonnollisen kuuloista puhesynteesiä. Tässä on yksityiskohtainen katsaus teknologiaan.
Puhesynteesiteknologia on edennyt suurin harppauksin, erityisesti viime vuosina. Tekoälyn kehityksen myötä nykyiset TTS-järjestelmät voivat tuottaa korkealaatuisia lukemia, jotka jäljittelevät ihmisen puhetta.
Microsoftin VALL-E on uusin teknologiaratkaisu, joka voi tehdä puhesynteesistä hämmästyttävän aidon kuuloista. Se on nollashot-koneoppimiseen perustuva neurokoodikielimalli.
Jos edellinen lause kuulostaa tieteiskirjallisuuden teknopuheelta, älä huoli. Selitämme VALL-E:n monimutkaiset käsitteet tarkemmin alla olevassa artikkelissa.
Microsoft VALL-E selitettynä
Tekoälymallit kehittyvät nopeasti. Kaikki tuntevat jo OpenAI:n ChatGPT:n, joka saattaa olla lähimpänä tekoälyn vaikuttamista oikealta ihmiseltä. Olet todennäköisesti nähnyt myös DALL-E:n tuottamaa tekoälytaidetta.
OpenAI:n kaltaisten startupien lisäksi globaalit yritykset kuten Microsoft ovat olleet merkittäviä toimijoita tekoälyn alalla.
Microsoftin tutkijat ovat viime aikoina työskennelleet puhesynteesin kehittämisen parissa. VALL-E on juuri tätä.
Uusi tekoäly voi olla merkittävä muutos puhesynteesin kentällä, koska se voi tuottaa ihmisen kuuloista puhetta pienen ääninäytteen perusteella. Kolmen sekunnin akustinen vihje riittää VALL-E:lle tunnistamaan puhujan erityiset mallit.
Kun puhuja on annettu, tekoäly voi jäljitellä ihmisen ääntä ja jopa simuloida heidän tunneilmaisuaan. Yhtä vaikuttavaa on, että VALL-E säilyttää näkymättömän puhujan akustisen ympäristön.
Yksinkertaisesti sanottuna, VALL-E-malli loistaa puhujan samankaltaisuudessa. Voit kuulla sen toiminnassa GitHubissa, jossa Microsoft on jakanut ääniesimerkkejä ja yksityiskohtaisen selityksen tekoälystä.
Tällaisella teknologialla on tietenkin paljon potentiaalisia käyttötarkoituksia, kuten podcastien ja äänikirjojen luominen. Potentiaali voi kasvaa entisestään, kun VALL-E yhdistetään generatiivisiin malleihin kuten GPT-3.
Mutta teknologiaa kuten VALL-E:tä voitaisiin käyttää myös pahantahtoisempiin tarkoituksiin.
Koska VALL-E voi kuulostaa pelottavan paljon oikealta ihmiseltä, on helppo nähdä, miten pahantahtoiset toimijat voisivat käyttää teknologiaa huijauksiin, kuten ei-toivottuihin, haitallisiin deepfakeihin. Tällaiset mahdollisuudet saivat Microsoftin julkaisemaan eettisen lausunnon.
Lausunnossa yhtiö puoltaa erityisiä puheenmuokkausmalleja, jotka varmistaisivat alkuperäisen puhujan suostumuksen.
Mutta VALL-E:n mahdollisten käyttötarkoitusten kiistat ovat tulevaisuuden pohdittavia asioita. Tällä hetkellä on mielenkiintoisempi kysymys pöydällä:
Miten tekoäly pystyy jäljittelemään monimutkaisia malleja vain kolmen sekunnin ääninäytteen perusteella?
Ei ole yllättävää, että vastaus on melko monimutkainen.
VALL-E:llä oli laaja koulutusdata, joka koostui tuhansista tunneista englanninkielistä puhetta. Tämä valmisti tekoälyn saumattomaan englanninkieliseen puhesimulaatioon. VALL-E ei kuitenkaan ole tavanomainen TTS-järjestelmä – sitä ohjaa huipputason koneoppimisteknologia.
Olemme jo maininneet teknologian nimen: nollashot-neurokoodikielimalli. Katsotaanpa, mitä nämä termit tarkoittavat käytännössä.
Ymmärtäminen nollashot-neurokoodikielimalleista
Aloitetaan yksinkertaisemmasta termistä, “nollashot” viittaa tiettyyn teknologiaan puhesynteesimoottoreissa. Se mahdollistaa tekoälyn tuottaman puheen aiemmin tuntemattoman datan perusteella. Toisin sanoen, tietokone voi lukea ääneen tekstiä, jota se ei ole koskaan aiemmin “nähnyt”.
Vielä vaikuttavampaa on, että nollashot-teknologia mahdollistaa koneen tuottaa lukemia ilman lisäkoulutusta. Pohjimmiltaan se on samanlaista kuin miten ihmiset voivat lukea tuntematonta tekstiä kielellä, jonka he jo osaavat.
Siirrytään monimutkaisempaan osaan, “neurokoodikielimalli” vaatii tarkempaa selitystä.
Puhesynteesimoottorit luottavat äänikoodekkeihin luodakseen aaltomuotoja kirjoitetun tekstin perusteella. Koodekki auttaa tekoälyä kääntämään kirjoitetut kirjaimet, sanat ja lauseet vastaaviksi ääniksi. Neurokoodekki palvelee samaa tarkoitusta, mutta se perustuu vahvaan neuroverkkoon.
Tämä herättää tietysti lisäkysymyksen: Mikä on neuroverkko?
Selitämme sen tässä laajemmin menemättä syvemmälle. Neuroverkko pyrkii jäljittelemään ihmisaivojen toimintaa. Verkko koostuu keinotekoisista neuroneista, joita kutsutaan solmuiksi, ja jotka ovat yhteydessä ja järjestetty kerroksiksi.
Monimutkainen rakenne mahdollistaa niin sanotun syväoppimisen, mikä tekee koneesta kykenevämmän kehittämään ja mukauttamaan tuntemattomia malleja.
Neuraalikooderi antaa voimaa kielimallille, joka on toinen osa tätä tekstistä puheeksi yhtälöä.
Kielimalli käyttää tietokantaa ymmärtääkseen tekstisyötteen todellisen kielen kontekstissa. Toisin sanoen, näin kone "ymmärtää" tekstiä.
VALL-E:n tapauksessa LibriLight, Facebookin Metan kokoama äänikirjasto, toimi tekoälyn kielimallin perustana.
Kuuntele huipputeknologiaa toiminnassa Speechifyn avulla
Vaikka VALL-E ei ole vielä julkisesti saatavilla, voit kuulla, miltä kehittynyt tekstistä puheeksi moottori kuulostaa Speechifyn avulla. Speechify on TTS-palvelu, joka voi lukea ääneen tekstiä lähes mistä tahansa lähteestä.
Olipa kyseessä kirjoitettu teksti, verkkosisältö tai skannattu sivu, Speechify lukee sen välittömästi. Vielä parempaa, moottori tarjoaa kerrontaa luonnollisilla äänillä. Toisin kuin tyypilliset robottimaiset TTS-moottorit, Speechify kuulostaa enemmän ihmiseltä kuin koneelta.
Lisäksi voit säätää, miten Speechify lukee. Valitse haluamasi kieli, kertoja ja lukunopeus, ja kuuntele tekstiä juuri haluamallasi tavalla.
Jos kaikki tämä kuulostaa jännittävältä, voit kokeilla Speechifyta ilmaiseksi jo tänään.
UKK
Voivatko ihmiset käyttää Vall-E:tä?
On monia huolia siitä, miten VALL-E:tä voitaisiin väärinkäyttää. Identiteettivarkaus on erityisen huolestuttava mahdollisuus. Tästä syystä Microsoft on päättänyt olla tekemättä VALL-E:tä julkisesti saatavilla.
Mikä on Microsoft AI?
Microsoft AI ei ole tietty tuote. Sen sijaan yrityksen ohjelma toimii tekoälyn kehitysalustana. Microsoft AI sisältää datatieteen ratkaisuja, keskustelevaa tekoälyä, robotiikkaa, koneoppimista ja muita alan edistysaskeleita.
Mikä on ääniohjattu käyttöliittymä?
Ääniohjattu käyttöliittymä on juuri sitä, miltä se kuulostaa - käyttöliittymä, jota käytetään äänikomennoilla. Tämä teknologia on jo yleistä älylaitteissa – ajattele Amazonin Alexaa, Applen Siriä, Microsoftin Cortanaa tai Googlen Assistantia.
Mikä on robotti?
Termi "robotti" tarkoittaa mitä tahansa konetta, joka toimii automaattisesti. Tällaiset koneet on suunniteltu korvaamaan ihmistyövoimaa. Huolimatta tyypillisestä esitystavasta populaarikulttuurissa, useimmat robotit eivät ole ihmisen näköisiä. Itse asiassa niillä ei välttämättä ole edes fyysistä muotoa. Esimerkiksi nykyiset suositut virtuaaliavustajat lasketaan myös roboteiksi.
Cliff Weitzman
Cliff Weitzman on dysleksian puolestapuhuja sekä Speechifyn toimitusjohtaja ja perustaja. Speechify on maailman johtava tekstistä puheeksi -sovellus, jolla on yli 100 000 viiden tähden arvostelua ja joka on App Storen ykkönen Uutiset & Aikakauslehdet -kategoriassa. Vuonna 2017 Weitzman valittiin Forbesin 30 alle 30 -listalle työstään, jolla hän teki internetistä saavutettavamman oppimisvaikeuksista kärsiville. Cliff Weitzman on ollut esillä muun muassa EdSurgessa, Inc.:ssä, PC Magissa, Entrepreneurissa ja Mashablessa.