Social Proof

Что такое Microsoft VALL-E?

Speechify — аудиочиталка номер один в мире. Читайте книги, документы, статьи, PDF, электронные письма — всё, что вы читаете, быстрее.

Упоминается в

forbes logocbs logotime magazine logonew york times logowall street logo
Прослушать статью с помощью Speechify!
Speechify

Microsoft VALL-E представляет собой новейшее технологическое достижение, способное обеспечить полностью естественное звучание TTS. Вот подробный разбор технологии.

Технология преобразования текста в речь (TTS) стремительно развивается, особенно в последние годы. Благодаря улучшениям в области искусственного интеллекта, современные TTS могут выдавать высококачественные озвучки, имитирующие человеческую речь.

Microsoft VALL-E — это новейшее технологическое решение, которое может сделать преобразование текста в речь по-настоящему удивительным. Это нейронная кодек-модель языка, основанная на обучении без примеров.

Если последнее предложение звучит как научная фантастика, не волнуйтесь. Мы разберем сложные концепции, лежащие в основе VALL-E, в статье ниже.

Объяснение Microsoft VALL-E

Модели искусственного интеллекта быстро набирают мощь. Сейчас все знают о ChatGPT от OpenAI, который, возможно, ближе всего к тому, чтобы ИИ казался настоящим человеком. И вы, вероятно, видели искусство, созданное с помощью движка DALL-E.

Помимо стартапов, таких как OpenAI, глобальные компании, такие как Microsoft, играют значительную роль в области ИИ.

Исследователи Microsoft недавно работали над усовершенствованием синтеза речи. VALL-E представляет собой именно это.

Новый ИИ, вероятно, станет революцией в области TTS, поскольку он может генерировать речь, звучащую как человеческая, на основе небольшого аудиофрагмента. Трехсекундного акустического примера достаточно, чтобы VALL-E уловил особенности конкретного говорящего.

После получения примера голоса, ИИ может имитировать голос человека и даже воспроизводить его эмоциональный тон. Не менее впечатляюще, VALL-E сохраняет акустическую среду невидимого говорящего.

Проще говоря, модель VALL-E превосходит в сходстве с говорящим. Вы можете услышать её в действии на GitHub, где Microsoft поделилась аудиопримерами вместе с подробным объяснением ИИ.

Конечно, такая технология имеет множество потенциальных применений, таких как создание подкастов и аудиокниг. Потенциал может еще больше возрасти, когда VALL-E будет сочетаться с генеративными моделями, такими как GPT-3.

Но технология, подобная VALL-E, может также использоваться в более зловещих целях.

Поскольку VALL-E может звучать пугающе похоже на настоящего человека, легко представить, как злоумышленники могут использовать эту технологию для мошенничества, например, для создания вредоносных дипфейков без согласия. Такие возможности побудили Microsoft выпустить заявление об этике.

В заявлении компания выступает за использование моделей редактирования речи, которые обеспечат согласие от оригинального говорящего.

Но споры вокруг потенциальных применений VALL-E — это вопрос будущего. На данный момент есть более захватывающий вопрос на повестке дня:

Как ИИ воспроизводит сложные паттерны, имея в качестве базового примера всего трехсекундное аудио?

Неудивительно, что ответ довольно сложен.

VALL-E обучался на обширных данных, состоящих из тысяч часов английской речи. Это подготовило ИИ к безупречной симуляции речи на английском языке. Однако VALL-E — это не обычная система TTS, она основана на передовых технологиях машинного обучения.

Мы уже упоминали название технологии: нейронная кодек-модель языка без примеров. Давайте посмотрим, что эти термины означают на практике.

Понимание нейронных кодек-моделей языка без примеров

Начнем с более простого термина: «без примеров» относится к специфической технологии для движков преобразования текста в речь. Она позволяет генерировать речь на основе ранее неизвестных данных. Другими словами, компьютер может озвучивать текст, который он никогда раньше не «видел».

Еще более впечатляюще, технология без примеров позволяет машине выдавать озвучки без дополнительного обучения. По сути, это похоже на то, как люди могут читать незнакомый текст на языке, который они уже знают.

Переходя к более сложной части, «нейронная кодек-модель языка» требует дальнейшего разъяснения.

Движки TTS полагаются на аудиокодеки для создания звуковых волн на основе написанного текста. Кодек помогает ИИ переводить написанные буквы, слова и предложения в соответствующие звуки. Нейронный кодек выполняет ту же функцию, но основан на мощной нейронной сети.

Конечно, это вызывает дополнительный вопрос: что такое нейронная сеть?

Мы объясним это здесь в общих чертах, не углубляясь в детали. Нейронная сеть пытается имитировать работу человеческого мозга. Сеть состоит из искусственных нейронов, называемых узлами, которые соединены и организованы в слои.

Сложная структура позволяет так называемое глубокое обучение, делая машину более способной к разработке и адаптации незнакомых паттернов.

Нейронный кодек управляет языковой моделью, другой частью этого текст в речь уравнения.

Языковая модель использует набор данных, чтобы понять любой текст в контексте реального языка. Другими словами, это то, как машина «понимает» текст.

В случае VALL-E, LibriLight, аудиотека, собранная Meta от Facebook, служила основой языковой модели ИИ.

Послушайте передовые технологии TTS в действии с Speechify

Хотя VALL-E пока недоступен для широкой публики, вы можете услышать, как звучит продвинутый текст в речь движок с Speechify. Speechify — это сервис TTS, который может озвучивать текст практически из любого источника.

Будь то письменный текст, веб-контент или отсканированная страница, Speechify прочитает его мгновенно. Более того, движок предлагает голоса, которые звучат естественно. В отличие от типичных роботизированных TTS-движков, Speechify звучит больше как человек, чем машина.

Кроме того, вы можете настроить, как Speechify читает. Выберите предпочитаемый язык, диктора и скорость чтения, и слушайте текст именно так, как вам хочется.

Если все это звучит интересно, вы можете попробовать Speechify бесплатно уже сегодня.

Часто задаваемые вопросы

Могут ли люди использовать Vall-E?

Существует много опасений по поводу того, как VALL-E может быть использован в злоумышленных целях. Кража личности — особенно тревожная возможность. По этой причине Microsoft решила не делать VALL-E общедоступным.

Что такое Microsoft AI?

Microsoft AI — это не конкретный продукт. Вместо этого программа компании служит в качестве рамки для разработки ИИ. Microsoft AI включает решения в области науки о данных, разговорного ИИ, робототехники, машинного обучения и других достижений в индустрии.

Что такое голосовой интерфейс?

Голосовой интерфейс — это именно то, как он звучит - пользовательский интерфейс, с которым вы взаимодействуете с помощью голосовых команд. Эта технология уже широко распространена в умных устройствах – подумайте о Alexa от Amazon, Siri от Apple, Cortana от Microsoft или Assistant от Google.

Что такое робот?

Термин «робот» обозначает любую машину, которая работает автоматически. Такие машины разработаны как замена человеческому труду. Несмотря на типичное изображение в популярной культуре, большинство роботов не имеют гуманоидного облика. На самом деле, они могут даже не иметь физической формы. Например, сегодняшние популярные виртуальные помощники также считаются роботами.

Cliff Weitzman

Клифф Вайцман

Клифф Вайцман — защитник прав людей с дислексией, генеральный директор и основатель Speechify, ведущего в мире приложения для преобразования текста в речь, с более чем 100 000 отзывов на 5 звезд и первым местом в App Store в категории «Новости и журналы». В 2017 году Вайцман был включен в список Forbes «30 до 30» за его вклад в повышение доступности интернета для людей с нарушениями обучения. Клифф Вайцман был упомянут в таких изданиях, как EdSurge, Inc., PC Mag, Entrepreneur, Mashable и других ведущих СМИ.