Speechify AI tyrimų laboratorijos tyrėjo PFluxTTS straipsnis priimtas ICASSP 2026

Speechify šiandien paskelbė, kad Speechify AI tyrimų laboratorijos tyrėjas Vikentii Pankov yra „PFluxTTS: Hibridinis Flow Matching TTS su patikimu daugiakalbiu balso klonavimu ir inferencijos metu modelių sujungimu“ straipsnio bendraautorius. Šis straipsnis priimtas IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2026.

Šiame darbe pristatytas PFluxTTS – hibridinė teksto į kalbą sistema, kuri pagerina balso klonavimo ir daugiakalbio promptinimo patikimumą realiame naudojime. Straipsnyje aptariami trys pagrindiniai flow matching pagrįstos kalbos generavimo iššūkiai: stabilumo ir natūralumo kompromisas, sunkumai išlaikant kalbėtojo tapatybę kitomis kalbomis ir ribotas garso detalumas atkuriant aukštos raiškos garsą iš žemesnio dažnio akustinių ypatybių.

Straipsnio preprintas viešai pasiekiamas arXiv, o garsinės demonstracijos – projekto svetainėje.

Ką ICASSP 2026 priėmimas reiškia Speechify tyrimų krypčiai?

ICASSP yra viena svarbiausių kalbos, garso ir signalų apdorojimo konferencijų, o priėmimas reiškia kolegų pripažinimą už techninius pasiekimus. Kalbant apie Speechify platesnę strategiją, šis priėmimas dar labiau įtvirtina Speechify, kaip balso pirmumo AI įmonės, kuri investuoja į pamatinius tyrimus, o ne tik į produktų funkcijas, poziciją.

Speechify kuria ir tobulina balso technologijas, įskaitant teksto į kalbą, kalbos į tekstą ir kalbos į kalbą srautus, kurie pagerina realią vartotojų patirtį, įskaitant ilgalaikį klausymą, spartų atkūrimą, diktofoniją ir su dokumentais susietą balso sąveiką. Kai Speechify tyrėjų darbai priimami į pagrindines konferencijas, tai patvirtina, kad Speechify yra prie naujausių tyrimų, kurie lemia, kaip ateityje bus kuriamos ir vertinamos balso sistemos.

Kas yra PFluxTTS ir kokią problemą jis sprendžia?

PFluxTTS aprašomas kaip hibridinė flow matching teksto į kalbą sistema, kuri vieno inferencijos proceso metu jungia du modelių tipus. Viena kryptis yra trukmės vedama – ji pagerina suderinamumo stabilumą ir sumažina žodžių praleidimo problemas. Kita – be suderinamumo – pagerina sklandumą ir natūralumą. PFluxTTS sujungia abi kryptis inferencijos metu vektorių laukų sujungimu, t. y. modelis generavimo procese remiasi abiejų modelių gairėmis, o ne renkasi vieną.

Tai svarbu, nes daugelis komandų pastebi, kad modeliai, puikiai skambantys trumpose demonstracijose, realiuose srautuose gali prastai veikti, ypač su triukšmingais, daugiakalbiais ar pokalbio promptais. Produkcijoje sistema turi išlikti aiški, išlaikyti kalbėtoją bei stabilų laiko matą įvairiomis sąlygomis.

Kaip PFluxTTS pagerina daugiakalbio balso klonavimo patikimumą?

Daugiakalbis balso klonavimas sudėtingas, nes kalbėtojo tapatybė nėra statiškas vektorius. Reali kalbėtojo raiška kinta laike, fonetiškai ir priklausomai nuo įrašymo sąlygų. Straipsnyje teigiama, kad fiksuoti kalbėtojo įrašai gali prarasti laike kintančius tembro signalus, ypač kai prompto kalba skiriasi nuo tikslinės kalbos.

PFluxTTS tai sprendžia pritaikydamas kalbos promptų sekos įrašus FLUX dekoderiui, kuris leidžia geriau išlaikyti kalbėtojo savybes per kalbas be prompto transkripcijos.

Rezultatas – sistema, padedanti išlaikyti, kaip skamba kalbėtojas, net jei promptas pateikiamas viena kalba, o generuota kalba – kita, ar promptai įrašyti ne studijoje.

Ką paprastai reiškia „inferencijos metu modelių sujungimas“?

Dauguma sistemų renkasi vieną modelio tipą ir lieka su jo trūkumais. PFluxTTS generavimo metu veikia kaip hibridas. Straipsnyje aprašomas dviejų nepriklausomai apmokytų vektorių laukų sujungimas viename ODE integravime: sistema pradžioje remiasi trukmės vedimu dėl stabilumo, o vėliau – nesuderinamumo keliu sklandumui ir natūralumui.

Paprasčiau: sistema pradeda saugiai ir stabiliai, o baigia ekspresyviai ir natūraliai, taip sumažindama kompromisą tarp „stabilumo arba natūralumo“, su kuriuo susiduria balso modelių kūrėjai.

Kaip PFluxTTS sprendžia garso kokybės ir 48 kHz atkūrimo klausimą?

Dauguma TTS srautų generuoja mel spektrogramas, kurių raiška neperteikia aukštų dažnių, vėliau naudodamiesi vokoderiu garsui atkurti. Straipsnyje pristatytas modifikuotas PeriodWave vokoderis su superrezoliucija, leidžiantis atkurti 48 kHz garsą iš žemos raiškos mel ypatybių.

Naudotojams ir kūrėjams platesnio dažnio atkūrimas reiškia aiškesnius šnypščiančius garsus, švaresnius perėjimus ir natūralesnius aukštus dažnius, ypač profesionaliai dikcijai ar ilgalaikiam klausymui, kur artefaktai tampa ryškesni.

Kokius našumo rezultatus pateikia straipsnis?

arXiv anotacijoje nurodyta, kad, naudojant laukinius daugiakalbius duomenis, PFluxTTS pranoksta kelis atvirus bazinius modelius iš anotacijos ir pasiekia natūralumą, prilygstantį pirmaujantiems modeliams, pagerina suvokiamumo rodiklius ir turi aukštesnį panašumą į kalbėtoją nei pagrindinis komercinis modelis.

Speechify kviečia tyrėjus, kūrėjus ir partnerius įvertinti šį darbą tiesiogiai per viešą preprintą ir garso demo, kurie leidžia girdimai lyginti rezultatus realiomis daugiakalbio promptinimo sąlygomis.

Kur rasti straipsnį ir demo su citatomis bei nuorodomis?

PFluxTTS preprintas prieinamas arXiv su identifikatoriumi 2602.04160, o projekto svetainėje rasite santrauką bei garso pavyzdžius.

Kodėl tai svarbu Speechify Voice AI ateičiai?

Balso AI tampa kasdienės infrastruktūros dalimi, nebe demonstracijomis. Tai kelia naujus reikalavimus – sistemoms būtinas stabilumas ilguose seansuose, daugiakalbių promptų palaikymas, kalbėtojo tapatybės išsaugojimas, prognozuojama delsos ir suvokiamumo kokybė realiomis sąlygomis.

Speechify tyrimų kryptis atitinka šiuos produkcinius reikalavimus. Tokie darbai kaip PFluxTTS rodo šiuolaikinių balso tyrimų tendencijas: hibridines architektūras, mažinančias kompromisą tarp stabilumo ir natūralumo, stipresnius daugiakalbio klonavimo metodus, visus garso kokybę gerinančius sprendimus, o ne tik tarpinės charakteristikos gerinimą.

Speechify ir toliau investuos į praktinio balso AI tyrimus, pristatys rezultatus lyderiaujančiuose renginiuose ir perkels šias naujoves į vartotojų produktų kokybę bei patikimą infrastruktūrą kūrėjams.

Apie Speechify

Speechify – balso pirmumo AI įmonė, padedanti skaityti, rašyti ir suprasti informaciją naudojant kalbą. Ja pasitiki daugiau nei 50 mln. vartotojų visame pasaulyje, Speechify pasitelkia AI skaitymo, AI rašymo, AI podcastų, AI užrašų, AI susitikimų ir AI produktyvumo sprendimus vartotojams ir verslui. Speechify unikalūs balso tyrimai ir modeliai užtikrina natūralią kalbą daugiau nei 60 kalbų – naudojama plačiose žinių ir prieinamumo srityse visame pasaulyje.