Co je Microsoft VALL-E?
Uváděno v
Microsoft VALL-E představuje nejnovější technologický pokrok, který může pohánět zcela přirozeně znějící TTS. Zde je podrobný rozbor této technologie.
Technologie převodu textu na řeč se v posledních letech výrazně posunula kupředu. Díky zlepšením v oblasti umělé inteligence dnešní TTS dokáže poskytovat vysoce kvalitní výstupy napodobující lidskou řeč.
Microsoft VALL-E je nejnovější technologické řešení, které může způsobit, že převod textu na řeč bude znít až neuvěřitelně. Je to neuronový jazykový model založený na zero-shot strojovém učení.
Pokud poslední věta zní jako sci-fi technoblábol, nebojte se. V článku níže rozložíme složité koncepty za VALL-E.
Vysvětlení Microsoft VALL-E
Modely umělé inteligence rychle nabývají na síle. Každý už slyšel o ChatGPT od OpenAI, který je možná nejblíže tomu, aby AI působila jako skutečná osoba. A pravděpodobně jste viděli nějaké umění vytvořené pomocí AI z enginu DALL-E.
Kromě startupů jako OpenAI jsou významnými hráči v oblasti AI i globální společnosti jako Microsoft.
Výzkumníci Microsoftu nedávno pracovali na pokrocích v syntéze převodu textu na řeč. VALL-E to přesně představuje.
Nová AI pravděpodobně změní hru v oblasti TTS, protože dokáže generovat lidsky znějící řeč na základě malého zvukového vzorku. Třísekundový akustický podnět stačí, aby VALL-E zachytil specifické vzorce mluvčího.
Po obdržení podnětu od mluvčího může AI napodobit lidský hlas a dokonce simulovat jejich emocionální tón. Stejně působivé je, že VALL-E zachovává akustické prostředí neviděného mluvčího.
Jednoduše řečeno, model VALL-E vyniká v podobnosti s mluvčím. Můžete si to poslechnout v akci na GitHubu, kde Microsoft sdílel zvukové ukázky spolu s podrobným vysvětlením AI.
Samozřejmě, taková technologie má mnoho potenciálních využití, jako je vytváření podcastů a audioknih. Potenciál může dále růst, když se VALL-E spojí s generativními modely jako GPT-3.
Ale technologie jako VALL-E by mohla být také použita pro zlovolné účely.
Protože VALL-E může znít děsivě jako skutečná osoba, je snadné si představit, jak by zlomyslní aktéři mohli tuto technologii využít pro podvody, jako jsou neautorizované, škodlivé deepfaky. Takové možnosti přiměly Microsoft k vydání etického prohlášení.
Ve svém prohlášení společnost prosazuje specifické modely úpravy řeči, které by zajistily souhlas původního mluvčího.
Ale kontroverze kolem potenciálních využití VALL-E jsou úvahou pro budoucnost. Prozatím je na stole zajímavější otázka:
Jak AI replikuje složité vzorce pouze s třísekundovým zvukovým vzorkem jako základním vzorkem?
Není překvapením, že odpověď je poměrně složitá.
VALL-E měl rozsáhlá tréninková data, která zahrnovala tisíce hodin anglické řeči. To připravilo AI na plynulou simulaci anglického jazyka. Nicméně, VALL-E není běžný systém TTS – je poháněn špičkovou technologií strojového učení.
Už jsme zmínili název technologie: zero-shot neuronový jazykový model. Podívejme se, co tyto pojmy znamenají v praxi.
Porozumění zero-shot neuronovým jazykovým modelům
Začněme s jednodušším termínem, „zero-shot“ se týká specifické technologie pro motory převodu textu na řeč. Umožňuje generování řeči AI na základě dříve neznámých dat. Jinými slovy, počítač může nahlas číst text, který nikdy předtím „neviděl“.
Ještě působivější je, že zero-shot technologie umožňuje stroji produkovat výstupy bez dalšího tréninku. V podstatě je to podobné tomu, jak lidé mohou číst neznámý text v jazyce, který již znají.
Přejdeme k složitější části, „neuronový jazykový model“ vyžaduje další rozbor.
Motory TTS se spoléhají na zvukové kodeky k vytváření vlnových forem na základě psaného textu. Kodek pomáhá AI překládat psaná písmena, slova a věty do odpovídajících zvuků. Neuronový kodek slouží stejnému účelu, ale je založen na robustní neuronové síti.
Samozřejmě to vyvolává další otázku: Co je to neuronová síť?
Vysvětlíme to zde v širších obrysech, aniž bychom se ponořili do ještě hlubšího rozboru. Neuronová síť se snaží napodobit, jak funguje lidský mozek. Síť se skládá z umělých neuronů nazývaných uzly, které jsou propojeny a organizovány do vrstev.
Komplexní struktura umožňuje takzvané hluboké učení, díky čemuž je stroj schopnější rozvíjet a přizpůsobovat neznámé vzorce.
Neurální kódování pohání jazykový model, druhou část této text-to-speech rovnice.
Jazykový model využívá datovou sadu k pochopení jakéhokoli textového vstupu v kontextu skutečného jazyka. Jinými slovy, takto stroj „rozumí“ textu.
V případě VALL-E sloužila LibriLight, zvuková knihovna sestavená Facebookem Meta, jako základ jazykového modelu AI.
Poslechněte si špičkovou technologii TTS v akci se Speechify
Ačkoli VALL-E není veřejně dostupný, můžete slyšet, jak zní pokročilý text-to-speech motor se Speechify. Speechify je TTS služba, která dokáže nahlas číst text prakticky z jakéhokoli zdroje.
Ať už mu dáte psaný text, webový obsah nebo naskenovanou stránku, Speechify to okamžitě přečte. Ještě lépe, motor nabízí narativní hlasy, které zní přirozeně. Na rozdíl od typických robotických TTS motorů zní Speechify více jako člověk než stroj.
Navíc můžete upravit, jak Speechify čte. Vyberte si preferovaný jazyk, vypravěče a rychlost čtení a poslouchejte jakýkoli text přesně tak, jak chcete.
Pokud to vše zní zajímavě, můžete vyzkoušet Speechify zdarma dnes.
Často kladené otázky
Mohou lidé používat Vall-E?
Existuje mnoho obav, jak by mohl být VALL-E zneužit. Krádež identity je obzvláště znepokojující možnost. Z tohoto důvodu se Microsoft rozhodl neudělat VALL-E veřejně dostupným.
Co je Microsoft AI?
Microsoft AI není konkrétní produkt. Místo toho slouží program společnosti jako rámec pro vývoj AI. Microsoft AI zahrnuje řešení pro datovou vědu, konverzační AI, robotiku, strojové učení a další pokroky v oboru.
Co je hlasové rozhraní?
Hlasové rozhraní je přesně to, co zní - uživatelské rozhraní, se kterým komunikujete prostřednictvím hlasových příkazů. Tato technologie je již běžná v chytrých zařízeních – pomyslete na Alexu od Amazonu, Siri od Apple, Cortanu od Microsoftu nebo Asistenta Google.
Co je to robot?
Termín „robot“ označuje jakýkoli stroj, který pracuje automaticky. Takové stroje jsou navrženy jako náhrada lidské práce. Navzdory typickému zobrazení v populárních médiích většina robotů nemá humanoidní vzhled. Ve skutečnosti nemusí mít ani fyzickou podobu. Například dnešní populární virtuální asistenti se také počítají jako roboti.
Cliff Weitzman
Cliff Weitzman je zastáncem dyslexie a CEO a zakladatelem Speechify, nejpopulárnější aplikace pro převod textu na řeč na světě, s více než 100 000 pětihvězdičkovými recenzemi a první příčkou v App Store v kategorii Zprávy a časopisy. V roce 2017 byl Weitzman zařazen na seznam Forbes 30 pod 30 za svou práci na zpřístupnění internetu lidem s poruchami učení. Cliff Weitzman byl uveden v EdSurge, Inc., PC Mag, Entrepreneur, Mashable a dalších předních médiích.