Social Proof

Microsoft VALL-E란 무엇인가?

Speechify는 세계 최고의 오디오 리더입니다. 책, 문서, 기사, PDF, 이메일 등 모든 읽을거리를 더 빠르게 처리하세요.

추천 매체

forbes logocbs logotime magazine logonew york times logowall street logo
이 기사를 Speechify로 들어보세요!
Speechify

Microsoft VALL-E는 완전히 자연스러운 TTS를 구현할 수 있는 최신 기술 발전을 의미합니다. 기술에 대한 자세한 설명을 확인하세요.

텍스트 음성 변환 기술은 특히 최근 몇 년 동안 크게 발전해 왔습니다. 인공지능의 발전에 힘입어 오늘날의 TTS는 인간의 음성을 모방하는 고품질의 읽기 기능을 제공합니다.

Microsoft의 VALL-E는 텍스트 음성을 놀라울 정도로 자연스럽게 들리게 할 수 있는 최신 기술 솔루션입니다. 이는 제로샷 머신러닝에 기반한 신경 코덱 언어 모델입니다.

마지막 문장이 공상과학 기술 용어처럼 들린다면 걱정하지 마세요. 아래 기사에서 VALL-E의 복잡한 개념을 자세히 설명하겠습니다.

Microsoft VALL-E 설명

AI 모델은 빠른 속도로 발전하고 있습니다. 이제 OpenAI의 ChatGPT에 대해 모르는 사람은 거의 없으며, 이는 AI가 실제 사람처럼 보이는 가장 가까운 사례일 수 있습니다. 또한 DALL-E 엔진에서 생성된 AI 기반 예술 작품도 보셨을 것입니다.

OpenAI와 같은 스타트업 외에도 Microsoft와 같은 글로벌 기업들은 AI 분야에서 중요한 역할을 하고 있습니다.

Microsoft의 연구원들은 최근 텍스트 음성 합성의 발전에 주력해 왔습니다. VALL-E는 바로 그 결과물입니다.

새로운 AI는 작은 오디오 샘플을 기반으로 인간과 같은 음성을 생성할 수 있기 때문에 TTS 분야에서 게임 체인저가 될 가능성이 큽니다. VALL-E는 3초의 음향 프롬프트만으로 특정 화자의 패턴을 파악할 수 있습니다.

화자 프롬프트를 받은 후, AI는 인간의 목소리를 모방하고 그들의 감정적 톤까지 시뮬레이션할 수 있습니다. 더욱 인상적인 것은 VALL-E가 보이지 않는 화자의 음향 환경을 보존한다는 점입니다.

간단히 말해, VALL-E 모델은 화자 유사성에서 뛰어납니다. Microsoft가 GitHub에 공유한 오디오 예제와 AI에 대한 자세한 설명을 통해 이를 직접 확인할 수 있습니다.

물론, 이러한 기술은 팟캐스트 및 오디오북 제작과 같은 다양한 잠재적 용도를 가지고 있습니다. VALL-E가 GPT-3와 같은 생성 모델과 결합되면 그 잠재력은 더욱 커질 수 있습니다.

하지만 VALL-E와 같은 기술은 악의적인 목적으로도 사용될 수 있습니다.

VALL-E가 실제 사람처럼 무섭게 들릴 수 있기 때문에, 악의적인 행위자들이 비동의적이고 해로운 딥페이크와 같은 사기 행위에 이 기술을 사용할 수 있다는 점은 쉽게 상상할 수 있습니다. 이러한 가능성 때문에 Microsoft는 윤리 성명을 발표했습니다.

성명에서 회사는 원래 화자의 동의를 보장할 수 있는 특정 음성 편집 모델을 권장합니다.

하지만 VALL-E의 잠재적 사용에 대한 논란은 미래의 문제입니다. 현재로서는 더 흥미로운 질문이 있습니다:

AI가 어떻게 3초의 오디오 샘플만으로 복잡한 패턴을 복제할 수 있을까요?

예상대로, 그 답은 상당히 복잡합니다.

VALL-E는 수천 시간의 영어 음성으로 구성된 방대한 훈련 데이터를 가지고 있었습니다. 이는 AI가 매끄러운 영어 음성 시뮬레이션을 준비하는 데 도움을 주었습니다. 그러나 VALL-E는 일반적인 TTS 시스템이 아닙니다. 최첨단 머신러닝 기술로 구동됩니다.

이미 언급했듯이, 이 기술의 이름은 제로샷 신경 코덱 언어 모델입니다. 이러한 용어가 실제로 무엇을 의미하는지 살펴보겠습니다.

제로샷 신경 코덱 언어 모델 이해하기

더 간단한 용어부터 시작하자면, "제로샷"은 텍스트 음성 엔진을 위한 특정 기술을 의미합니다. 이는 이전에 알지 못했던 데이터를 기반으로 AI 생성 음성을 가능하게 합니다. 즉, 컴퓨터가 이전에 "본" 적이 없는 텍스트를 소리 내어 읽을 수 있습니다.

더 인상적인 것은, 제로샷 기술이 추가 훈련 없이도 기계가 읽기를 생성할 수 있게 한다는 점입니다. 본질적으로, 이는 인간이 이미 알고 있는 언어로 낯선 텍스트를 읽을 수 있는 것과 유사합니다.

복잡한 부분으로 넘어가면, "신경 코덱 언어 모델"은 추가적인 설명이 필요합니다.

TTS 엔진은 오디오 코덱을 사용하여 작성된 텍스트를 기반으로 파형을 생성합니다. 코덱은 AI가 작성된 문자, 단어, 문장을 해당 소리로 변환하는 데 도움을 줍니다. 신경 코덱은 동일한 목적을 수행하지만 강력한 신경망에 기반합니다.

물론, 이는 추가적인 질문을 제기합니다: 신경망이란 무엇인가요?

더 깊이 들어가지 않고 여기서 넓은 범위로 설명하겠습니다. 신경망은 인간의 뇌가 작동하는 방식을 모방하려고 시도합니다. 이 네트워크는 노드라고 불리는 인공 뉴런으로 구성되어 있으며, 이들은 연결되어 층으로 조직됩니다.

복잡한 구조는 소위 딥러닝을 가능하게 하여 기계가 낯선 패턴을 개발하고 적응할 수 있게 합니다.

신경 코덱은 이 텍스트 음성 변환 방정식의 다른 부분인 언어 모델을 구동합니다.

언어 모델은 실제 언어의 맥락에서 텍스트 입력을 이해하기 위해 데이터셋을 활용합니다. 즉, 기계가 텍스트를 "이해"하는 방식입니다.

VALL-E의 경우, Facebook의 Meta가 컴파일한 오디오 라이브러리인 LibriLight가 AI의 언어 모델 기반으로 사용되었습니다.

Speechify로 최첨단 TTS 기술을 직접 들어보세요

VALL-E는 아직 대중에게 공개되지 않았지만, Speechify를 통해 고급 텍스트 음성 변환 엔진이 어떻게 들리는지 확인할 수 있습니다. Speechify는 거의 모든 소스의 텍스트를 소리 내어 읽어주는 TTS 서비스입니다.

글로 작성된 텍스트, 웹 콘텐츠, 스캔된 페이지 등 무엇을 주어도 Speechify는 즉시 읽어줍니다. 더 나아가, 엔진은 자연스러운 내레이션 목소리를 제공합니다. 일반적인 로봇 같은 TTS 엔진과 달리, Speechify는 기계보다 인간에 가깝게 들립니다.

또한, Speechify의 읽기 방식을 조정할 수 있습니다. 선호하는 언어, 내레이터, 읽기 속도를 선택하여 원하는 방식으로 텍스트를 들을 수 있습니다.

이 모든 것이 흥미롭게 들린다면, 오늘 Speechify를 무료로 체험해보세요.

자주 묻는 질문

사람들이 Vall-E를 사용할 수 있나요?

VALL-E가 악용될 수 있다는 많은 우려가 있습니다. 특히 신원 도용이 걱정되는 가능성입니다. 이러한 이유로 Microsoft는 VALL-E를 대중에게 공개하지 않기로 결정했습니다.

Microsoft AI란 무엇인가요?

Microsoft AI는 특정 제품이 아닙니다. 대신, 회사의 프로그램은 AI 개발 프레임워크로 작동합니다. Microsoft AI는 데이터 과학 솔루션, 대화형 AI, 로봇 공학, 기계 학습 및 산업의 다른 발전을 포함합니다.

음성 기반 인터페이스란 무엇인가요?

음성 기반 인터페이스는 말 그대로 음성 명령을 통해 상호작용하는 사용자 인터페이스입니다. 이 기술은 이미 스마트 기기에서 흔히 사용되고 있습니다 – 예를 들어, Amazon의 Alexa, Apple의 Siri, Microsoft의 Cortana, 또는 Google의 Assistant를 생각해보세요.

로봇이란 무엇인가요?

"로봇"이라는 용어는 자동으로 작동하는 모든 기계를 의미합니다. 이러한 기계는 인간 노동을 대체하도록 설계되었습니다. 대중 매체에서의 일반적인 묘사와 달리, 대부분의 로봇은 인간형 외모를 가지고 있지 않습니다. 사실, 물리적 형태조차 없을 수 있습니다. 예를 들어, 오늘날 인기 있는 가상 비서도 로봇으로 간주됩니다.

Cliff Weitzman

클리프 와이츠먼

클리프 와이츠먼은 난독증 옹호자이자 세계 최고의 텍스트 음성 변환 앱인 Speechify의 CEO 및 설립자입니다. 이 앱은 10만 개 이상의 5성급 리뷰를 받았으며, 앱 스토어의 뉴스 & 매거진 카테고리에서 1위를 차지했습니다. 2017년, 와이츠먼은 학습 장애가 있는 사람들이 인터넷을 더 쉽게 접근할 수 있도록 한 공로로 포브스 30세 이하 30인 리스트에 선정되었습니다. 클리프 와이츠먼은 EdSurge, Inc., PC Mag, Entrepreneur, Mashable 등 주요 매체에 소개되었습니다.