Синтезът на реч, познат още като текст към реч (TTS) синтез, е технология, която превръща писмен текст в изговорени думи. Тази технология намира най-различни приложения – от подпомагане на хора с увреждания, през изучаване на езици и GPS навигация, до още много други. С навлизането на отворения код се появиха множество инструменти за текст към реч. В тази статия ще надникнем в света на отворените гласови синтезатори.
Първо е важно да отбележим, че не всички инструменти за синтез на реч са с отворен код. Например, макар Google Text-to-Speech (TTS) да предлага мощен API за разработчици, той не е с отворен код. По подобен начин Amazon Polly, известен с естествено звучащите си гласове, също не е с отворен код.
От другата страна е Coqui AI – висококачествен набор от инструменти за TTS, който е отворен проект и е достъпен в GitHub. Той е наследник на проекта Mozilla TTS и предлага удобен интерфейс с команден ред за синтез на глас. Coqui AI определено има „глас“ – използва Tacotron2 за генериране на глас и се фокусира върху създаването на нови гласове чрез дълбоко обучение.
Microsoft Speech Platform, включително функциите си за синтез на реч, също не е с отворен код. Въпреки това Speech API (SAPI5) се предоставя на разработчици за Windows платформи.
За щастие, в света на отворения код не липсват инструменти за разпознаване на реч. Отличен пример е CMU Sphinx – набор от системи за разпознаване на реч, разработени в Университета Карнеги Мелън.
Когато става дума за висококачествени инструменти с отворен код за синтез на глас, няколко решения изпъкват:
- eSpeak: Компактен софтуерен синтезатор на реч с отворен код за английски и много други езици. Работи на Windows, Linux и е подходящ за приложения с малък размер, като роботи и вградени устройства.
- Mycroft: Гласов асистент с отворен код, който използва машинно обучение за функции като текст към реч и разпознаване на реч.
- MaryTTS: Гъвкава и многоезична платформа за синтез на реч с отворен код, разработена на Java.
- Mozilla TTS: Двигател за синтез на реч, базиран на дълбоко обучение, който е част от Common Voice проекта с цел създаване на база данни за обучение на приложения с гласово управление.
- Festival Speech Synthesis System: Разработена от Центъра за изследване на технологиите за реч във Великобритания, предлага обща рамка за изграждане на системи за синтез на реч и включва разнообразие от гласове.
- Flite (Festival-lite): Олекотен двигател за синтез на реч, базиран на Festival, подходящ за вградени системи и сървъри с голям обем реч.
- HTS: Системата за синтез на реч, базирана на скрити Марковски модели (HTS), се използва широко заради възможностите си за висококачествен синтез.
- Docker: Макар Docker да не е инструмент за текст към реч, заслужава да се отбележи, че много TTS инструменти, като Coqui, могат да се използват в Docker, което ги прави лесно преносими между различни платформи.
Всеки от тези инструменти има своите предимства и недостатъци. Отворените гласови синтезатори предоставят безплатна, персонализируема и поддържана от общността платформа както за разработчици, така и за крайни потребители. Често идват с предварително обучени модели, които позволяват използването на машинно и дълбоко обучение. Въпреки това те могат да изискват повече технически познания за настройка и работа. Освен това някои могат да отстъпват по качество, постоянство или езикова поддръжка спрямо комерсиалните инструменти.
С развитието на отворения код гласовите синтезатори и TTS системите ще продължат да се усъвършенстват. Те предлагат огромен потенциал за приложения в реално време и за бъдещото развитие на машинното обучение, дълбокото обучение и изкуствения интелект в системите за разпознаване и синтез на реч.

