Czym jest Microsoft VALL-E?
Polecane w
Microsoft VALL-E to najnowsze osiągnięcie technologiczne, które może zapewnić całkowicie naturalnie brzmiące TTS. Oto szczegółowy opis tej technologii.
Technologia zamiany tekstu na mowę rozwija się w szybkim tempie, zwłaszcza w ostatnich latach. Dzięki postępom w sztucznej inteligencji, dzisiejsze TTS potrafią dostarczać wysokiej jakości odczyty imitujące ludzką mowę.
Microsoft VALL-E to najnowsze rozwiązanie technologiczne, które może sprawić, że zamiana tekstu na mowę będzie brzmiała wręcz niesamowicie. To model językowy oparty na kodowaniu neuronowym i uczeniu maszynowym bez potrzeby wcześniejszego treningu.
Jeśli to ostatnie zdanie brzmi jak technobełkot z science fiction, nie martw się. Rozłożymy złożone koncepcje stojące za VALL-E w poniższym artykule.
Wyjaśnienie Microsoft VALL-E
Modele AI rosną w siłę w szybkim tempie. Wszyscy już słyszeli o ChatGPT od OpenAI, który może być najbliższym, co mamy do AI przypominającej prawdziwą osobę. Prawdopodobnie widzieliście też sztukę generowaną przez AI z silnika DALL-E.
Oprócz startupów takich jak OpenAI, globalne firmy jak Microsoft są znaczącymi graczami w dziedzinie AI.
Badacze Microsoftu ostatnio pracowali nad postępami w syntezie mowy. VALL-E jest tego przykładem.
Nowa AI prawdopodobnie zrewolucjonizuje krajobraz TTS, ponieważ potrafi generować ludzką mowę na podstawie niewielkiej próbki dźwiękowej. Trzysekundowy akustyczny prompt wystarczy, aby VALL-E wychwycił specyficzne wzorce mówcy.
Po otrzymaniu promptu mówcy, AI potrafi naśladować ludzki głos, a nawet symulować jego emocjonalny ton. Równie imponujące jest to, że VALL-E zachowuje akustyczne środowisko niewidocznego mówcy.
Krótko mówiąc, model VALL-E wyróżnia się podobieństwem do mówcy. Można to usłyszeć w akcji na GitHubie, gdzie Microsoft udostępnił przykłady dźwiękowe wraz ze szczegółowym wyjaśnieniem AI.
Oczywiście, taka technologia ma wiele potencjalnych zastosowań, takich jak tworzenie podcastów i audiobooków. Potencjał może się jeszcze zwiększyć, gdy VALL-E połączy się z modelami generatywnymi, takimi jak GPT-3.
Jednak technologia taka jak VALL-E może być również używana do bardziej niecnych celów.
Ponieważ VALL-E może brzmieć przerażająco podobnie do prawdziwej osoby, łatwo sobie wyobrazić, jak złośliwi aktorzy mogliby wykorzystać tę technologię do oszustw, takich jak niekonsensualne, szkodliwe deepfake'i. Takie możliwości skłoniły Microsoft do wydania oświadczenia etycznego.
W oświadczeniu firma opowiada się za konkretnymi modelami edycji mowy, które zapewniłyby zgodę od oryginalnego mówcy.
Jednak kontrowersje wokół potencjalnych zastosowań VALL-E to kwestia przyszłości. Na razie jest bardziej ekscytujące pytanie na stole:
Jak AI replikuje złożone wzorce na podstawie jedynie trzysekundowej próbki dźwiękowej?
Nie jest zaskoczeniem, że odpowiedź jest dość skomplikowana.
VALL-E miał obszerne dane treningowe, składające się z tysięcy godzin angielskiej mowy. To przygotowało AI do płynnej symulacji mowy w języku angielskim. Jednak VALL-E nie jest zwykłym systemem TTS – jest napędzany najnowocześniejszą technologią uczenia maszynowego.
Już wspomnieliśmy nazwę tej technologii: model językowy oparty na kodowaniu neuronowym bez potrzeby wcześniejszego treningu. Przyjrzyjmy się, co te terminy oznaczają w praktyce.
Zrozumienie modeli językowych opartych na kodowaniu neuronowym bez potrzeby wcześniejszego treningu
Zaczynając od prostszego terminu, „bez potrzeby wcześniejszego treningu” odnosi się do specyficznej technologii dla silników zamiany tekstu na mowę. Pozwala na generowanie mowy przez AI na podstawie wcześniej nieznanych danych. Innymi słowy, komputer może odczytywać na głos tekst, którego nigdy wcześniej „nie widział”.
Co bardziej imponujące, technologia bez potrzeby wcześniejszego treningu pozwala maszynie na produkcję odczytów bez dodatkowego treningu. W zasadzie jest to podobne do tego, jak ludzie mogą czytać nieznany tekst w języku, który już znają.
Przechodząc do bardziej skomplikowanej części, „model językowy oparty na kodowaniu neuronowym” wymaga dalszego wyjaśnienia.
Silniki TTS polegają na kodekach audio, aby tworzyć fale dźwiękowe na podstawie tekstu pisanego. Kodek pomaga AI przetłumaczyć pisane litery, słowa i zdania na odpowiadające im dźwięki. Kodek neuronowy pełni tę samą funkcję, ale opiera się na solidnej sieci neuronowej.
Oczywiście, to rodzi dodatkowe pytanie: Czym jest sieć neuronowa?
Wyjaśnimy to tutaj w szerszych ramach, bez wchodzenia w jeszcze głębsze szczegóły. Sieć neuronowa próbuje naśladować, jak funkcjonuje ludzki mózg. Sieć składa się z sztucznych neuronów zwanych węzłami, które są połączone i zorganizowane w warstwy.
Złożona struktura umożliwia tak zwane głębokie uczenie, co sprawia, że maszyna jest bardziej zdolna do rozwijania i adaptacji nieznanych wzorców.
Neuralny kodek napędza model językowy, drugą część tej syntezy mowy równości.
Model językowy korzysta z zestawu danych, aby zrozumieć dowolny tekst w kontekście rzeczywistego języka. Innymi słowy, to sposób, w jaki maszyna „rozumie” tekst.
W przypadku VALL-E, LibriLight, biblioteka audio stworzona przez Meta z Facebooka, posłużyła jako podstawa modelu językowego AI.
Posłuchaj nowoczesnej technologii TTS w działaniu z Speechify
Chociaż VALL-E nie jest jeszcze dostępny dla publiczności, możesz usłyszeć, jak brzmi zaawansowany silnik syntezy mowy dzięki Speechify. Speechify to usługa TTS, która może czytać na głos tekst z praktycznie dowolnego źródła.
Niezależnie od tego, czy podasz mu tekst pisany, treść internetową, czy zeskanowaną stronę, Speechify przeczyta to natychmiast. Co więcej, silnik oferuje głosy narracyjne, które brzmią naturalnie. W przeciwieństwie do typowych robotycznych silników TTS, Speechify brzmi bardziej jak człowiek niż maszyna.
Dodatkowo możesz dostosować sposób, w jaki Speechify czyta. Wybierz preferowany język, narratora i prędkość czytania, i słuchaj tekstu dokładnie tak, jak chcesz.
Jeśli wszystko to brzmi ekscytująco, możesz wypróbować Speechify za darmo już dziś.
FAQ
Czy ludzie mogą używać Vall-E?
Istnieje wiele obaw dotyczących tego, jak VALL-E mógłby być nadużywany. Kradzież tożsamości jest szczególnie niepokojącą możliwością. Z tego powodu Microsoft zdecydował się nie udostępniać VALL-E publicznie.
Czym jest Microsoft AI?
Microsoft AI nie jest konkretnym produktem. Zamiast tego, program firmy służy jako ramy rozwoju AI. Microsoft AI obejmuje rozwiązania z zakresu nauki o danych, konwersacyjnej AI, robotyki, uczenia maszynowego i innych postępów w branży.
Czym jest interfejs sterowany głosem?
Interfejs sterowany głosem to dokładnie to, co sugeruje nazwa - interfejs użytkownika, z którym można się komunikować za pomocą poleceń głosowych. Ta technologia jest już powszechna w inteligentnych urządzeniach – pomyśl o Alexie od Amazona, Siri od Apple, Cortanie od Microsoftu czy Asystencie Google.
Czym jest robot?
Termin „robot” oznacza każdą maszynę, która działa automatycznie. Takie maszyny są zaprojektowane jako zamienniki ludzkiej pracy. Pomimo typowego przedstawienia w mediach popularnych, większość robotów nie ma humanoidalnego wyglądu. W rzeczywistości mogą nawet nie mieć fizycznej formy. Na przykład dzisiejsi popularni wirtualni asystenci również są uznawani za roboty.
Cliff Weitzman
Cliff Weitzman jest rzecznikiem dysleksji oraz CEO i założycielem Speechify, najpopularniejszej aplikacji do zamiany tekstu na mowę na świecie, z ponad 100 000 recenzji 5-gwiazdkowych i pierwszym miejscem w kategorii Wiadomości i Magazyny w App Store. W 2017 roku Weitzman został wyróżniony na liście Forbes 30 under 30 za swoją pracę na rzecz zwiększenia dostępności internetu dla osób z trudnościami w nauce. Cliff Weitzman był prezentowany w EdSurge, Inc., PC Mag, Entrepreneur, Mashable i innych czołowych mediach.