Mikä on Microsoft VALL-E?

Puhesynteesiteknologia on edennyt suurin harppauksin, erityisesti viime vuosina. Tekoälyn kehityksen myötä nykyiset TTS-järjestelmät voivat tuottaa korkealaatuisia lukemia, jotka jäljittelevät ihmisen puhetta.

Microsoftin VALL-E on uusin teknologiaratkaisu, joka voi tehdä puhesynteesistä hämmästyttävän aidon kuuloista. Se on nollashot-koneoppimiseen perustuva neurokoodikielimalli.

Jos edellinen lause kuulostaa tieteiskirjallisuuden teknopuheelta, älä huoli. Selitämme VALL-E:n monimutkaiset käsitteet tarkemmin alla olevassa artikkelissa.

Microsoft VALL-E selitettynä

Tekoälymallit kehittyvät nopeasti. Kaikki tuntevat jo OpenAI:n ChatGPT:n, joka saattaa olla lähimpänä tekoälyn vaikuttamista oikealta ihmiseltä. Olet todennäköisesti nähnyt myös DALL-E:n tuottamaa tekoälytaidetta.

OpenAI:n kaltaisten startupien lisäksi globaalit yritykset kuten Microsoft ovat olleet merkittäviä toimijoita tekoälyn alalla.

Microsoftin tutkijat ovat viime aikoina työskennelleet puhesynteesin kehittämisen parissa. VALL-E on juuri tätä.

Uusi tekoäly voi olla merkittävä muutos puhesynteesin kentällä, koska se voi tuottaa ihmisen kuuloista puhetta pienen ääninäytteen perusteella. Kolmen sekunnin akustinen vihje riittää VALL-E:lle tunnistamaan puhujan erityiset mallit.

Kun puhuja on annettu, tekoäly voi jäljitellä ihmisen ääntä ja jopa simuloida heidän tunneilmaisuaan. Yhtä vaikuttavaa on, että VALL-E säilyttää näkymättömän puhujan akustisen ympäristön.

Yksinkertaisesti sanottuna, VALL-E-malli loistaa puhujan samankaltaisuudessa. Voit kuulla sen toiminnassa GitHubissa, jossa Microsoft on jakanut ääniesimerkkejä ja yksityiskohtaisen selityksen tekoälystä.

Tällaisella teknologialla on tietenkin paljon potentiaalisia käyttötarkoituksia, kuten podcastien ja äänikirjojen luominen. Potentiaali voi kasvaa entisestään, kun VALL-E yhdistetään generatiivisiin malleihin kuten GPT-3.

Mutta teknologiaa kuten VALL-E:tä voitaisiin käyttää myös pahantahtoisempiin tarkoituksiin.

Koska VALL-E voi kuulostaa pelottavan paljon oikealta ihmiseltä, on helppo nähdä, miten pahantahtoiset toimijat voisivat käyttää teknologiaa huijauksiin, kuten ei-toivottuihin, haitallisiin deepfakeihin. Tällaiset mahdollisuudet saivat Microsoftin julkaisemaan eettisen lausunnon.

Lausunnossa yhtiö puoltaa erityisiä puheenmuokkausmalleja, jotka varmistaisivat alkuperäisen puhujan suostumuksen.

Mutta VALL-E:n mahdollisten käyttötarkoitusten kiistat ovat tulevaisuuden pohdittavia asioita. Tällä hetkellä on mielenkiintoisempi kysymys pöydällä:

Miten tekoäly pystyy jäljittelemään monimutkaisia malleja vain kolmen sekunnin ääninäytteen perusteella?

Ei ole yllättävää, että vastaus on melko monimutkainen.

VALL-E:llä oli laaja koulutusdata, joka koostui tuhansista tunneista englanninkielistä puhetta. Tämä valmisti tekoälyn saumattomaan englanninkieliseen puhesimulaatioon. VALL-E ei kuitenkaan ole tavanomainen TTS-järjestelmä – sitä ohjaa huipputason koneoppimisteknologia.

Olemme jo maininneet teknologian nimen: nollashot-neurokoodikielimalli. Katsotaanpa, mitä nämä termit tarkoittavat käytännössä.

Ymmärtäminen nollashot-neurokoodikielimalleista

Aloitetaan yksinkertaisemmasta termistä, “nollashot” viittaa tiettyyn teknologiaan puhesynteesimoottoreissa. Se mahdollistaa tekoälyn tuottaman puheen aiemmin tuntemattoman datan perusteella. Toisin sanoen, tietokone voi lukea ääneen tekstiä, jota se ei ole koskaan aiemmin “nähnyt”.

Vielä vaikuttavampaa on, että nollashot-teknologia mahdollistaa koneen tuottaa lukemia ilman lisäkoulutusta. Pohjimmiltaan se on samanlaista kuin miten ihmiset voivat lukea tuntematonta tekstiä kielellä, jonka he jo osaavat.

Siirrytään monimutkaisempaan osaan, “neurokoodikielimalli” vaatii tarkempaa selitystä.

Puhesynteesimoottorit luottavat äänikoodekkeihin luodakseen aaltomuotoja kirjoitetun tekstin perusteella. Koodekki auttaa tekoälyä kääntämään kirjoitetut kirjaimet, sanat ja lauseet vastaaviksi ääniksi. Neurokoodekki palvelee samaa tarkoitusta, mutta se perustuu vahvaan neuroverkkoon.

Tämä herättää tietysti lisäkysymyksen: Mikä on neuroverkko?

Selitämme sen tässä laajemmin menemättä syvemmälle. Neuroverkko pyrkii jäljittelemään ihmisaivojen toimintaa. Verkko koostuu keinotekoisista neuroneista, joita kutsutaan solmuiksi, ja jotka ovat yhteydessä ja järjestetty kerroksiksi.

Monimutkainen rakenne mahdollistaa niin sanotun syväoppimisen, mikä tekee koneesta kykenevämmän kehittämään ja mukauttamaan tuntemattomia malleja.

Neuraalikooderi antaa voimaa kielimallille, joka on toinen osa tätä tekstistä puheeksi yhtälöä.

Kielimalli käyttää tietokantaa ymmärtääkseen tekstisyötteen todellisen kielen kontekstissa. Toisin sanoen, näin kone "ymmärtää" tekstiä.

VALL-E:n tapauksessa LibriLight, Facebookin Metan kokoama äänikirjasto, toimi tekoälyn kielimallin perustana.

Kuuntele huipputeknologiaa toiminnassa Speechifyn avulla

Vaikka VALL-E ei ole vielä julkisesti saatavilla, voit kuulla, miltä kehittynyt tekstistä puheeksi moottori kuulostaa Speechifyn avulla. Speechify on TTS-palvelu, joka voi lukea ääneen tekstiä lähes mistä tahansa lähteestä.

Olipa kyseessä kirjoitettu teksti, verkkosisältö tai skannattu sivu, Speechify lukee sen välittömästi. Vielä parempaa, moottori tarjoaa kerrontaa luonnollisilla äänillä. Toisin kuin tyypilliset robottimaiset TTS-moottorit, Speechify kuulostaa enemmän ihmiseltä kuin koneelta.

Lisäksi voit säätää, miten Speechify lukee. Valitse haluamasi kieli, kertoja ja lukunopeus, ja kuuntele tekstiä juuri haluamallasi tavalla.

Jos kaikki tämä kuulostaa jännittävältä, voit kokeilla Speechifyta ilmaiseksi jo tänään.

UKK

Voivatko ihmiset käyttää Vall-E:tä?

On monia huolia siitä, miten VALL-E:tä voitaisiin väärinkäyttää. Identiteettivarkaus on erityisen huolestuttava mahdollisuus. Tästä syystä Microsoft on päättänyt olla tekemättä VALL-E:tä julkisesti saatavilla.

Mikä on Microsoft AI?

Microsoft AI ei ole tietty tuote. Sen sijaan yrityksen ohjelma toimii tekoälyn kehitysalustana. Microsoft AI sisältää datatieteen ratkaisuja, keskustelevaa tekoälyä, robotiikkaa, koneoppimista ja muita alan edistysaskeleita.

Mikä on ääniohjattu käyttöliittymä?

Ääniohjattu käyttöliittymä on juuri sitä, miltä se kuulostaa - käyttöliittymä, jota käytetään äänikomennoilla. Tämä teknologia on jo yleistä älylaitteissa – ajattele Amazonin Alexaa, Applen Siriä, Microsoftin Cortanaa tai Googlen Assistantia.

Mikä on robotti?

Termi "robotti" tarkoittaa mitä tahansa konetta, joka toimii automaattisesti. Tällaiset koneet on suunniteltu korvaamaan ihmistyövoimaa. Huolimatta tyypillisestä esitystavasta populaarikulttuurissa, useimmat robotit eivät ole ihmisen näköisiä. Itse asiassa niillä ei välttämättä ole edes fyysistä muotoa. Esimerkiksi nykyiset suositut virtuaaliavustajat lasketaan myös roboteiksi.

Speechify on maailman johtava tekstistä puheeksi -alusta, johon luottaa yli 50 miljoonaa käyttäjää ja joka on saanut yli 500 000 viiden tähden arvostelua sen iOS-, Android-, Chrome-laajennus-, verkkosovellus- ja Mac-työpöytäsovellus -versioista. Vuonna 2025 Apple myönsi Speechifylle arvostetun Apple Design Award -palkinnon WWDC-tapahtumassa, kutsuen sitä “elintärkeäksi resurssiksi, joka auttaa ihmisiä elämään elämäänsä.” Speechify tarjoaa yli 1 000 luonnollisen kuuloista ääntä yli 60 kielellä ja sitä käytetään lähes 200 maassa. Julkkisäänet sisältävät muun muassa Snoop Doggin, Mr. Beastin ja Gwyneth Paltrow’n. Sisällöntuottajille ja yrityksille Speechify Studio tarjoaa edistyneitä työkaluja, kuten tekoälypohjaisen äänenluonnin, äänen kloonauksen, dubbaustyökalut ja äänimuuntimen. Speechify myös tukee johtavia tuotteita korkealaatuisella ja kustannustehokkaalla tekstistä puheeksi API:lla. Esillä muun muassa julkaisuissa The Wall Street Journal, CNBC, Forbes ja TechCrunch, Speechify on maailman suurin tekstistä puheeksi -palveluntarjoaja. Vieraile osoitteissa speechify.com/news, speechify.com/blog ja speechify.com/press saadaksesi lisätietoja.

Mikä on Microsoft VALL-E?

Cliff Weitzman

#1 Tekstistä puheeksi -lukija.
Anna Speechifyn lukea sinulle.

Microsoft VALL-E selitettynä

Ymmärtäminen nollashot-neurokoodikielimalleista

Kuuntele huipputeknologiaa toiminnassa Speechifyn avulla