Краткая история технологии преобразования текста в речь
Упоминается в
Технология синтеза голоса, более известная как преобразование текста в речь, стремительно развивалась на протяжении многих лет. Узнайте больше об истории этой технологии.
Синтез речи, или искусственное воспроизведение человеческого голоса, прошел долгий путь за последние 70 лет. Независимо от того, используете ли вы услуги преобразования текста в речь для прослушивания книг, учебы или проверки собственных текстов, нет сомнений, что эти услуги облегчили жизнь людям в различных профессиях.
Здесь мы рассмотрим, как работает обработка текста в речь и как эта вспомогательная технология изменилась со временем.
Введение
В 1700-х годах русский профессор Кристиан Кратценштейн создал акустические резонаторы, имитирующие звук человеческого голоса. Два десятилетия спустя, VODER (Voice Operating Demonstrator) произвел фурор на Всемирной выставке в Нью-Йорке, когда его создатель Гомер Дадли показал, как человеческую речь можно создать искусственными средствами. Устройство было сложно управлять — Дадли приходилось контролировать основную частоту с помощью ножных педалей.
В начале 1800-х годов Чарльз Уитстон разработал первый механический синтезатор речи. Это дало старт быстрому развитию инструментов и технологий артикуляционного синтеза.
Трудно точно определить, что делает программу преобразования текста в речь хорошей, но, как и во многих вещах в жизни, вы понимаете это, когда слышите. Качественная программа предлагает естественно звучащие голоса с реальной интонацией и тоном.
Технология преобразования текста в речь может помочь людям с нарушениями зрения и другими ограничениями получать необходимую информацию для успешной работы и общения с другими. Программное обеспечение также позволяет студентам и другим людям с большой нагрузкой на чтение слушать информацию в виде человеческой речи, когда они в пути. Синтетическая речь позволяет людям делать больше за меньшее время и может быть полезна в различных сферах, от создания видеоигр до помощи людям с различиями в обработке языка.
1950-е и 60-е годы
В конце 1950-х годов были созданы первые системы синтеза речи. Эти системы были основаны на компьютерах. В 1961 году физик Джон Ларри Келли младший из Bell Labs использовал компьютер IBM для синтеза речи. Его вокодер (синтезатор голосового регистратора) воспроизвел песню Daisy Bell.
В то время, когда Келли совершенствовал свой вокодер, Артур Кларк, автор «Космической одиссеи 2001 года», использовал демонстрацию Келли в сценарии своего фильма. В одной из сцен компьютер HAL 9000 поет Daisy Bell.
В 1966 году на сцену вышло линейное предсказательное кодирование. Эта форма кодирования речи начала разрабатываться под руководством Фумитада Итакуры и Сюдзо Сайто. Бишну С. Аталь и Манфред Р. Шредер также внесли свой вклад в развитие линейного предсказательного кодирования.
1970-е годы
В 1975 году Итакура разработал метод пар линейных спектров. Этот метод высококомпрессионного кодирования речи помог Итакуре лучше понять анализ и синтез речи, выявляя слабые места и находя способы их улучшения.
В этом году также была выпущена система MUSA. Эта автономная система синтеза речи использовала алгоритм для чтения текста на итальянском языке вслух. Версия, выпущенная три года спустя, могла петь на итальянском.
В 70-х годах был разработан первый артикуляционный синтезатор, основанный на человеческом голосовом тракте. Первый известный синтезатор был разработан Томом Баером, Полом Мермельштейном и Филипом Рубином в лабораториях Хаскинса. Трио использовало информацию из моделей голосового тракта, созданных в лабораториях Bell в 60-х и 70-х годах.
В 1976 году были представлены машины для чтения Курцвейла для слепых. Хотя эти устройства были слишком дорогими для широкой публики, библиотеки часто предоставляли их людям с нарушениями зрения для прослушивания книг.
Линейное предсказательное кодирование стало отправной точкой для чипов синтезаторов. Чипы LPC от Texas Instruments и игрушки Speak & Spell конца 1970-х годов использовали технологию чипов синтезаторов. Эти игрушки были примерами синтеза человеческого голоса с точной интонацией, отличающей голос от обычно роботизированных синтезированных голосов того времени. Многие портативные электронные устройства с возможностью синтеза речи стали популярными в этом десятилетии, включая калькулятор Telesensory Systems Speech+ для слепых. В 1979 году был выпущен Fidelity Voice Chess Challenger, шахматный компьютер, способный синтезировать речь.
1980-е годы
В 1980-х годах синтез речи начал завоевывать мир видеоигр. В 1980 году Sun Electronics выпустила Stratovox (аркадная игра в стиле шутера). Manbiki Shoujo (в переводе на английский «Девушка-клептоманка») стала первой компьютерной игрой с возможностью синтеза речи. Электронная игра Milton также была выпущена в 1980 году — это была первая электронная игра компании Milton Bradley, способная синтезировать человеческий голос.
В 1983 году появилась автономная акустико-механическая речевая машина под названием DECtalk. DECtalk понимала фонетические написания слов, что позволяло настраивать произношение необычных слов. Эти фонетические написания могли также включать индикатор тона, который DECtalk использовала при произнесении фонетических компонентов. Это позволяло DECtalk петь.
В конце 80-х Стив Джобс создал NeXT, систему, разработанную Trillium Sound Research. Хотя NeXT не получила широкого распространения, Джобс в итоге объединил программу с Apple в 90-х годах.
1990-е
Ранние версии систем синтеза текста в речь звучали явно роботизированно, но это начало меняться в конце 80-х и начале 90-х. Более мягкие согласные позволили речевым машинам утратить электронный оттенок и звучать более по-человечески. В 1990 году Энн Сирдал из AT&T Bell Laboratories разработала женский голос для синтезатора речи. Инженеры работали над тем, чтобы сделать голоса более естественными в 90-х годах.
В 1999 году Microsoft выпустила Narrator, решение для чтения с экрана, которое теперь включено в каждую копию Microsoft Windows.
2000-е
В 2000-х годах синтез речи столкнулся с некоторыми трудностями, так как разработчики пытались создать согласованные стандарты для синтезированной речи. Поскольку речь очень индивидуальна, людям по всему миру сложно договориться о правильном произношении фонем, дифонов, интонации, тона, воспроизведения паттернов и интонации.
Качество аудио синтеза речи на основе формант также стало более важным в 90-х годах, так как инженеры и исследователи заметили, что качество систем, используемых в лаборатории для воспроизведения синтезированной речи, часто было гораздо более продвинутым, чем оборудование, которым пользовался пользователь. Когда думают о синтезе речи, многие вспоминают синтезатор голоса Стивена Хокинга, который обеспечивал роботизированное звучание с малым количеством человеческого тона.
В 2005 году исследователи наконец пришли к некоторому согласию и начали использовать общий набор данных речи, что позволило им работать с одними и теми же основными идеалами при создании высокоуровневых систем синтеза речи.
В 2007 году было проведено исследование, показавшее, что слушатели могут определить, улыбается ли говорящий человек. Исследователи продолжают работать над тем, чтобы использовать эту информацию для создания программного обеспечения для распознавания и синтеза речи, которое будет более естественным.
2010-е
Сегодня продукты синтеза речи, использующие речевые сигналы, повсюду, от Siri до Alexa. Электронные синтезаторы речи не только упрощают жизнь, но и делают её более увлекательной. Независимо от того, используете ли вы систему TTS для прослушивания романов на ходу или приложения, которые облегчают изучение иностранного языка, вероятно, вы используете технологию преобразования текста в речь, чтобы ежедневно активировать свои нейронные сети.
Будущее
В ближайшие годы, вероятно, технологии синтеза голоса будут сосредоточены на создании модели мозга, чтобы лучше понять, как мы записываем речевые данные в нашем сознании. Технологии речи также будут работать над тем, чтобы лучше понять роль эмоций в речи, и использовать эту информацию для создания AI-голосов, которые неотличимы от настоящих человеческих.
Последние достижения в технологии синтеза голоса: Speechify
Изучая переходы от ранних технологий синтеза речи, удивительно представить, как далеко продвинулась наука. Сегодня такие приложения, как Speechify, позволяют легко переводить любой текст в аудиофайлы. Всего одним нажатием кнопки (или касанием в приложении) Speechify может взять веб-сайты, документы и изображения текста и перевести их в естественно звучащую речь. Библиотека Speechify синхронизируется на всех ваших устройствах, что упрощает обучение и работу в пути. Ознакомьтесь с приложением Speechify в App Store от Apple и Android Google Play.
Часто задаваемые вопросы
Кто изобрел технологию преобразования текста в речь?
Технология преобразования текста в речь для английского языка была изобретена Норико Умедой. Система была разработана в Электротехнической лаборатории в Японии в 1968 году.
Какова цель технологии преобразования текста в речь?
Многие люди используют технологию преобразования текста в речь. Для тех, кто предпочитает получать информацию в аудиоформате, технология TTS позволяет легко получать необходимую информацию для работы или обучения, не проводя часы за книгой. Занятые профессионалы также используют TTS технологию, чтобы оставаться в курсе своей работы, когда они не могут сидеть перед экраном компьютера. Многие виды технологии TTS изначально были разработаны для людей с нарушениями зрения, и TTS по-прежнему является отличным способом для людей, испытывающих трудности с видением, получать необходимую информацию.
Как синтезировать речь?
Фрагменты записанной речи хранятся в базе данных в различных единицах. Программное обеспечение подготавливает аудиофайлы через выбор единиц. Оттуда создается голос. Часто, чем больше диапазон вывода программы, тем сложнее программе обеспечить пользователям четкость голоса.
Тайлер Вайцман
Тайлер Вайцман — соучредитель, руководитель отдела искусственного интеллекта и президент Speechify, приложения для преобразования текста в речь №1 в мире, с более чем 100,000 отзывов на 5 звезд. Вайцман окончил Стэнфордский университет, где получил степень бакалавра математики и магистра компьютерных наук по направлению искусственного интеллекта. Он был выбран журналом Inc. как один из 50 лучших предпринимателей и был представлен в таких изданиях, как Business Insider, TechCrunch, LifeHacker, CBS и других. Исследования Вайцмана в рамках магистерской программы были сосредоточены на искусственном интеллекте и преобразовании текста в речь, а его итоговая работа была озаглавлена: «CloneBot: Персонализированные предсказания ответов в диалоге».