Изследовател от Speechify AI Research Lab с приет доклад за PFluxTTS на ICASSP 2026

Speechify днес обяви, че изследователят от Speechify AI Research Lab Викентий Панков е съавтор на “PFluxTTS: Хибриден Flow Matching TTS с надеждно клониране на глас между езици и фюжън на модел по време на инференс”, доклад приет на IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2026.

В този труд се представя PFluxTTS – хибридна текст към реч система, създадена да подобри готовността за реална употреба при клониране на глас и многоезични заявки. В доклада се описва подход, който цели да реши три основни проблема при синтез на реч чрез flow matching: компромисът между стабилност и естественост, трудностите при запазване на идентичността на говорителя на различни езици, както и ограничената достоверност на вълновата форма при възстановяване на пълен аудио обхват от акустични характеристики с по-ниска извадкова честота.

Предпечатната версия на доклада е публично достъпна в arXiv, а аудио демонстрациите са налични на сайта на проекта.

Какво показва приемането на доклада на ICASSP 2026 за изследователската насока на Speechify?

ICASSP е една от водещите конференции за изследвания в областта на речта, аудиото и обработката на сигнали, а приемането е признание след рецензиране за технически приноси, които движат напред съвременните технологии. В контекста на Speechify и по-широката стратегия на компанията това приемане затвърждава позицията на Speechify като AI компания с фокус върху речта, която инвестира във фундаментални изследвания, а не само в продуктови функционалности.

Speechify разработва и усъвършенства технологии за глас в спектъра от текст към реч, реч към текст и глас към глас процеси, които са в основата на реални потребителски преживявания – за слушане на дълги текстове, бързо възпроизвеждане, диктовка и взаимодействие с документи чрез глас. Когато изследователите на Speechify публикуват работи, приети на големи конференции, това ясно показва, че Speechify работи на границата на научния прогрес и оформя бъдещето на гласовите системи.

Какво е PFluxTTS и какъв проблем решава?

PFluxTTS се описва като хибридна flow matching текст към реч система, която комбинира два типа модели в един процес на инференс. Според доклада единият път е воден от дължина, което повишава стабилността на подравняване и намалява проблеми като пропускане на думи. Другият е без подравняване, което води до по-добра плавност и по-естествено звучаща реч. PFluxTTS комбинира двете чрез векторен фюжън по време на инференс, тоест системата смесва насоките на двата модела по време на генериране, вместо да избере само един модел.

Това е важно, защото много екипи, които работят по гласови продукти, откриват, че модел, който звучи добре при кратки демо записи, може да се провали при реална употреба, особено при шумни, многоезични или разговорни заявки. В продукция гласовата система трябва да остане разбираема, да запази идентичността и да поддържа стабилен тайминг при различно съдържание и условия на запис.

Как PFluxTTS подобрява надеждността на клонирането на глас между езици?

Клонирането на глас между езици е трудно, защото идентичността на говорителя не е единен статичен вектор. Истинските характеристики на говорителя варират във времето, в различни фонетични контексти и според условията на записа. В доклада се твърди, че векторите с фиксирана размерност могат да пренебрегнат променящите се тембри, които стават важни, когато езикът на заявката се различава от езика-мишена.

PFluxTTS решава този проблем чрез условяване по последователност от вграждания на речеви заявки вътре в декодер на база FLUX, което позволява по-добро запазване на характеристиките на говорителя между езици, без да се изискват транскрипции на заявката.

Резултатът е система, която успешно пресъздава гласа на говорителя, дори когато заявката е на един език, а генерираната реч – на друг, и дори когато записът е направен в реални, а не студийни условия.

Какво означава “фюжън на модел по време на инференс” на прост език?

Повечето системи избират едно моделно семейство и се съобразяват с неговите слабости. PFluxTTS прилага хибриден подход по време на генериране. В доклада се описва как се сливат две независимо обучени векторни полета в рамките на една ODE интеграция, така че системата първоначално се уповава на пътя, воден от дължина, за стабилно подравняване, а после позволява пътят без подравняване да доминира за повече плавност и естественост.

С прости думи, системата е проектирана да започва стабилно и сигурно, а да завършва експресивно и естествено – практичен начин да се минимизира изборът между „стабилност или естественост“, пред който често са изправени екипите при използване на гласови модели в голям мащаб.

Как PFluxTTS се справя с качеството на звука и възстановяването на 48 kHz?

Много TTS системи генерират характеристики на mel спектрограми с резолюция, която не представя пълния високочестотен детайл, и после разчитат на вокодер за възстановяване на звука. В доклада се представя модифициран PeriodWave вокодер, който чрез суперрезолюционен подход позволява реконструкция на вълната с 48 kHz от mel характеристики с ниска пробна честота.

За ползвателите и разработчиците възстановяването с по-висока честотна лента води до по-ясно звучене на съскави звуци, по-чисти транзиенти и по-реалистична висока честота – особено при професионално озвучаване или дълго слушане, където артефактите стават все по-забележими с времето.

Какви са докладваните резултати в статията?

В обобщението на arXiv се съобщава, че на данни от реална среда с многоезичен глас PFluxTTS превъзхожда няколко налични open source базови модела, изброени в резюмето, и постига резултати, съпоставими с водеща база по естественост, като в същото време подобрява разпознаваемостта, а сходството с говорителя надвишава това на комерсиален референтен модел в описания експеримент.

Speechify насърчава изследователи, разработчици и партньори да оценят труда директно чрез публичния предпечат и аудио демонстрациите, които правят резултатите лесни за чуване и сравнение в реалистични многоезични сценарии.

Къде могат читателите да открият статията и демо записите за цитиране и споделяне?

Предпечатът на PFluxTTS е достъпен в арXiv под номер 2602.04160, а сайтът на проекта съдържа обобщение и аудио примери.

Защо това е важно за бъдещето на Voice AI в Speechify?

Voice AI преминава от ефектни демо решения към ежедневна инфраструктура. Това поставя по-високи изисквания. Системите трябва да са стабилни при дълги сесии, да обработват многоезични заявки, да пазят идентичността на говорителя и да осигуряват предвидима латентност и разбираемост в реални условия.

Speechify насочва изследователските си усилия според тези изисквания за продукция. Проекти като PFluxTTS показват насоката на съвременните изследвания в синтеза на реч: хибридни архитектури, които преодоляват границата между стабилност и естественост, по-добри методи за клониране на глас между езици и цялостни решения, които повишават крайното качество на аудиото, а не само междинните характеристики.

Speechify ще продължи да инвестира в изследвания, които движат напред практическото Voice AI, да публикува резултати в престижни среди и да превръща научните постижения в качествени продукти за потребителите и надеждна инфраструктура за разработчиците на гласови приложения.

За Speechify

Speechify е AI компания с фокус върху гласа, която помага на хората да четат, пишат и разбират информация чрез реч. Доверена от над 50 милиона потребители по света Speechify задвижва AI четене, AI писане, AI подкасти, AI водене на бележки, AI срещи и AI продуктивност за частни и бизнес клиенти. Proprietary гласови изследвания и моделни разработки на Speechify осигуряват естествена реч на повече от 60 езика и се използват глобално за широк спектър от задачи, свързани с знания и достъпност.