Výzkumník Speechify AI Research Lab má článek o PFluxTTS přijatý na ICASSP 2026

Speechify dnes oznámilo, že výzkumník Speechify AI Research Lab Vikentii Pankov je autorem článku „PFluxTTS: Hybridní Flow Matching TTS s robustním mezijazykovým klonováním hlasu a fúzí modelů během inference“, který byl přijat na IEEE Mezinárodní konferenci o akustice, řeči a zpracování signálů (ICASSP) 2026.

Práce představuje PFluxTTS, hybridní systém text na řeč navržený pro zlepšení připravenosti na produkční nasazení při klonování hlasu a vícejazyčném zadávání. Článek popisuje přístup, který se zaměřuje na tři přetrvávající nedostatky v generování řeči založeném na flow matching: kompromis mezi stabilitou a přirozeností, obtíže při zachování identity mluvčího napříč jazyky a omezenou věrnost zvukové vlny při rekonstrukci plnopásmového audia z akustických rysů nižšího rozlišení.

Preprint článku je veřejně dostupný na arXiv a doprovodné zvukové ukázky jsou k dispozici na webových stránkách projektu.

Co znamená přijetí na ICASSP 2026 pro další směřování výzkumu ve Speechify?

ICASSP je jednou z předních konferencí v oblasti výzkumu řeči, zvuku a zpracování signálu a přijetí odráží uznání technického přínosu na základě recenzního řízení. V kontextu širší strategie Speechify toto přijetí upevňuje pozici Speechify jako AI společnosti, která klade důraz na hlasové technologie a investuje do základního výzkumu, nejen do produktových funkcí.

Speechify vyvíjí a vylepšuje hlasové technologie napříč oblastmi text na řeč, řeč na text a workflow řeč na řeč, které umožňují reálné uživatelské zážitky včetně poslechu dlouhých textů, vysokorychlostního přehrávání, diktování a hlasové interakce s dokumenty. Když výzkumníci Speechify publikují články přijaté na významné konference, potvrzuje to, že Speechify aktivně utváří budoucnost hlasových systémů a standardů jejich hodnocení v příštích letech.

Co je PFluxTTS a jaký problém řeší?

PFluxTTS je popsán jako hybridní flow matching systém text na řeč, který kombinuje dva typy modelů v jediném inferenčním procesu. Podle článku je jedna větev řízená délkou, což obvykle vede ke zvýšení stability zarovnání a omezuje problémy, jako je vynechávání slov. Druhá větev je bez nutnosti zarovnání, což zlepšuje plynulost a vnímanou přirozenost. PFluxTTS spojuje obě cesty díky fúzi vektorových polí během inference, což znamená, že systém při generování kombinuje vedení obou modelů, místo aby si vybíral jen jednu rodinu modelů.

To je zásadní, protože mnoho týmů vyvíjejících hlasové produkty zjišťuje, že model, který zní dobře v krátkých ukázkách, může v reálných workflow stále selhávat – zejména pokud jsou vstupy šumové, vícejazyčné nebo konverzační. V produkčním nasazení musí hlasový systém zůstat srozumitelný, zachovat identitu mluvčího a udržet stabilní časování napříč různým obsahem a podmínkami nahrávání.

Jak PFluxTTS zvyšuje spolehlivost mezijazykového klonování hlasu?

Mezijazykové klonování hlasu je náročné, protože identitu mluvčího nelze popsat jediným statickým vektorem. Skutečné hlasové rysy se mění v čase, v různých fonetických kontextech i při různých podmínkách nahrávání. Článek uvádí, že embeddingy mluvčího s pevnou dimenzí mohou ztrácet časově proměnlivé informace o barvě hlasu, které jsou klíčové, když se jazyk vstupu a výstupu liší.

PFluxTTS toto řeší tím, že v rámci FLUX dekodéru podmiňuje dekodér posloupností embeddingů řečového promptu, což lépe zachovává vlastnosti mluvčího napříč jazyky bez nutnosti přepisu promptu.

Výsledkem je systém navržený tak, aby zachoval podobu hlasu mluvčího i tehdy, když je prompt v jiném jazyce než generovaná řeč a když je prompt pořízen v běžném prostředí, nikoli ve studiu.

Co znamená „fúze modelů během inference“ v jednoduché češtině?

Většina systémů volí jednu rodinu modelů a smiřuje se s jejími slabinami. PFluxTTS však během generování používá hybridní přístup. Článek popisuje slučování dvou nezávisle trénovaných vektorových polí v rámci jediné ODE integrace, takže se systém v počátečních krocích opírá o cestu řízenou délkou kvůli stabilizaci a v pozdějších krocích převládá cesta bez zarovnání, která zajišťuje plynulost a přirozenost.

Jednoduše řečeno, systém je navržen tak, aby začínal bezpečně a stabilně a končil expresivně a přirozeně – což je praktický způsob, jak zmírnit kompromis „buď stabilní, nebo přirozený“, kterému mnohé týmy čelí při nasazování hlasových modelů ve velkém měřítku.

Jak PFluxTTS řeší kvalitu zvuku a rekonstrukci na 48 kHz?

Mnoho TTS pipeline generuje charakteristiky mel spektrogramu v rozlišení, které plně nezachycuje vysokofrekvenční detaily, a spoléhá na vokodér pro rekonstrukci audia. Článek představuje upravený PeriodWave vokodér, který využívá přístup super-rezoluce k produkci zvukové vlny o 48 kHz z mel charakteristik s nízkou vzorkovací frekvencí.

Pro uživatele a vývojáře může vyšší šířka pásma znamenat jasnější sykavky, čistší přechodové jevy a realističtější vysokofrekvenční texturu – zvlášť u profesionálního namlouvání či dlouhodobého poslechu, kde jsou artefakty časem znatelnější.

Jaké výsledky článek uvádí?

Abstrakt na arXiv uvádí, že na mezijazykových datech z reálného prostředí PFluxTTS překonává několik open source základních modelů a dosahuje výsledků srovnatelných s předním baseline modelem v přirozenosti, současně však zlepšuje metriky srozumitelnosti a vykazuje vyšší podobnost hlasu než významná komerční reference v uvedeném nastavení.

Speechify vyzývá výzkumníky, vývojáře a partnery, aby výsledky přímo zhodnotili prostřednictvím veřejného preprintu a zvukových ukázek, které jsou navrženy pro srozumitelné a srovnatelné výstupy ve skutečných mezijazykových podmínkách.

Kde mohou čtenáři najít článek a ukázky pro citaci nebo sdílení?

Preprint PFluxTTS je dostupný na arXiv pod identifikátorem 2602.04160 a projektový web obsahuje shrnutí článku i zvukové ukázky.

Proč je to důležité pro budoucnost hlasové AI ve Speechify?

Hlasová AI se posouvá od ukázkových dem k infrastruktuře pro každodenní použití. Tento posun zvyšuje nároky – systémy musí vydržet dlouhé relace, zvládat vícejazyčné zadání, zachovat identitu mluvčího a poskytovat předvídatelnou latenci i srozumitelnost v reálných podmínkách.

Speechify se ve svém výzkumu zaměřuje právě na tyto produkční požadavky. Práce jako PFluxTTS odrážejí směr moderního výzkumu řeči: hybridní architektury, které zmenšují rozdíl mezi stabilitou a přirozeností, pokročilé metody klonování hlasu napříč jazyky a end-to-end pipeline, které vylepšují finální kvalitu zvuku, nejen mezivýstupy.

Speechify bude dál investovat do výzkumu, který posouvá praktickou hlasovou AI vpřed, publikovat výsledky na špičkových konferencích a převádět tyto pokroky do vyšší kvality produktu pro uživatele a do spolehlivé hlasové infrastruktury pro vývojáře, kteří stavějí hlasové aplikace.

O Speechify

Speechify je AI společnost zaměřená na hlas, která lidem pomáhá číst, psát a lépe porozumět informacím pomocí řeči. Důvěřuje jí více než 50 milionů uživatelů po celém světě a Speechify pohání AI čtení, AI psaní, AI podcasty, AI poznámky, AI schůzky i AI produktivitu napříč spotřebitelskými i firemními platformami. Vlastní výzkum hlasu a modelů společnosti Speechify umožňuje realistickou řeč ve více než 60 jazycích a je využíván po celém světě při znalostní práci i v oblasti přístupnosti.