Cercetător al Laboratorului de Cercetare AI Speechify are lucrarea PFluxTTS acceptată la ICASSP 2026

Speechify a anunțat astăzi că cercetătorul Laboratorului de Cercetare AI Speechify, Vikentii Pankov, este autorul lucrării „PFluxTTS: Hybrid Flow Matching TTS with Robust Cross Lingual Voice Cloning and Inference Time Model Fusion”, acceptată la IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2026.

Lucrarea introduce PFluxTTS, un sistem hibrid de text to speech conceput pentru a îmbunătăți pregătirea pentru producție în clonarea vocii și solicitări multilingvistice. Lucrarea descrie o abordare care vizează trei provocări persistente în generarea de vorbire bazată pe flow matching: compromisurile dintre stabilitate și naturalețe, dificultatea de a păstra identitatea vorbitorului între limbi și fidelitatea limitată a formei de undă la reconstruirea audio de bandă largă din caracteristici acustice cu rată redusă.

Un preprint al lucrării este disponibil public pe arXiv, iar demonstrațiile audio asociate pot fi ascultate pe site-ul proiectului.

Ce semnifică acceptarea la ICASSP 2026 pentru direcția de cercetare Speechify?

ICASSP este una dintre cele mai importante conferințe de cercetare în vorbire, audio și procesarea semnalelor, iar acceptarea reflectă recunoașterea prin evaluare colegială a contribuțiilor tehnice care împing mai departe stadiul tehnicii. În contextul strategiei mai ample a Speechify, această acceptare consolidează poziția Speechify ca o companie AI orientată pe voce care investește în cercetare fundamentală, nu doar în funcționalități de produs.

Speechify dezvoltă și îmbunătățește tehnologii de voce pentru text to speech, speech to text și fluxuri de lucru speech to speech care fac posibile experiențe reale pentru utilizatori, precum ascultarea de lungă durată, redarea rapidă, dictare și interacțiune vocală bazată pe documente. Când cercetătorii Speechify publică lucrări acceptate la conferințe majore, devine clar că Speechify participă activ la frontiera cercetării care va modela modul în care sistemele de voce vor fi construite și evaluate în următorii ani.

Ce este PFluxTTS și ce problemă rezolvă?

PFluxTTS este prezentat ca un sistem hibrid de flow matching pentru text to speech, care combină două tipuri de modele într-un singur proces de inferență. Conform lucrării, o ramură este ghidată de durată, ceea ce tinde să îmbunătățească stabilitatea alinierii și să reducă probleme precum sărirea cuvintelor. Cealaltă ramură nu folosește aliniere, îmbunătățind astfel fluența și naturalețea percepută. PFluxTTS combină ambele modele prin fuziunea câmpului vectorial la timpul inferenței, adică sistemul îmbină indicațiile celor două modele în timpul generării, nu alege doar una dintre familii.

Acest lucru este important deoarece multe echipe care dezvoltă produse de voce descoperă că un model care sună bine în demo-uri scurte poate eșua totuși în scenarii reale, mai ales când solicitările sunt zgomotoase, cross-lingvistice sau conversaționale. În producție, un sistem vocal trebuie să rămână inteligibil, să păstreze identitatea și să mențină stabilitatea temporală pentru conținut și condiții de înregistrare diverse.

Cum crește PFluxTTS fiabilitatea clonării vocii cross-lingvistice?

Clonarea vocii cross-lingvistice este dificilă deoarece identitatea vorbitorului nu este un singur vector static. Trăsăturile reale ale vorbitorului variază în timp, în funcție de contextul fonetic și de condițiile de înregistrare. Lucrarea susține că embedding-urile de vorbitor cu dimensiune fixă pot pierde indicii de timbru care se schimbă în timp și devin esențiale atunci când limba promptului diferă de limba țintă.

PFluxTTS abordează această problemă condiționând pe o secvență de embedding-uri vocale ale promptului într-un decoder bazat pe FLUX, conceput astfel încât să păstreze mai bine trăsăturile vocale ale vorbitorului între limbi, fără a necesita transcrierea promptului.

Rezultatul este un sistem conceput să redea fidel cine este vorbitorul, chiar dacă promptul este într-o limbă și vorbirea generată este în alta, inclusiv atunci când prompturile sunt înregistrate în condiții reale, nu doar în studio.

Ce înseamnă „fuziune de modele la timpul inferenței” pe înțelesul tuturor?

Majoritatea sistemelor aleg o singură familie de modele și acceptă limitele acesteia. PFluxTTS rulează în schimb o abordare hibridă la timpul generării. Lucrarea descrie fuziunea a două câmpuri vectoriale antrenate independent în timpul unei singure integrări ODE, astfel încât sistemul poate folosi la început ghidarea bazată pe durată pentru stabilizare, iar ulterior să lase ramura fără aliniere să preia controlul pentru fluență și naturalețe.

Spus mai simplu, sistemul este conceput să înceapă într-un mod sigur și stabil, apoi să se încheie expresiv și natural – o soluție practică pentru a reduce compromisul „ori stabil, ori natural” cu care se confruntă mulți dezvoltatori când implementează modele vocale la scară.

Cum abordează PFluxTTS calitatea audio și reconstrucția la 48 kHz?

Multe TTS folosesc pipeline-uri care generează caracteristici de tip mel spectrogram la o rezoluție ce nu surprinde integral detaliile de înaltă frecvență, apelând ulterior la un vocoder pentru a reconstrui audio-ul. Lucrarea introduce un vocoder PeriodWave modificat, care folosește o abordare de super-rezoluție pentru a produce reconstrucție de formă de undă la 48 kHz din caracteristici mel de rată scăzută.

Pentru utilizatori și dezvoltatori, reconstrucția cu bandă largă poate însemna consoane și șuierături mai clare, tranziții mai curate și o textură de înaltă frecvență mai realistă, mai ales pentru narațiunea profesională sau ascultarea de lungă durată, unde artefactele devin evidente în timp.

Ce rezultate de performanță raportează lucrarea?

Rezumatul arXiv arată că, pe date cross-lingvistice din mediul real, PFluxTTS depășește mai multe baseline-uri open source menționate în lucrare și obține rezultate comparabile cu un baseline de top privind naturalețea, îmbunătățind în plus metricele de inteligibilitate și raportând o similaritate ridicată de vorbitor față de o referință comercială majoră în același setup.

Speechify încurajează cercetătorii, dezvoltatorii și partenerii să evalueze direct lucrarea prin preprint-ul public și demonstrațiile audio, concepute pentru a face rezultatele audibile și comparabile în condiții cross-lingvistice realiste.

Unde pot cititorii să găsească lucrarea și demonstrațiile pentru a o cita și distribui?

Preprint-ul PFluxTTS este disponibil pe arXiv cu identificatorul 2602.04160, iar site-ul proiectului oferă rezumatul lucrării și mostre audio.

De ce contează acest lucru pentru viitorul Voice AI la Speechify?

Voice AI trece de la demo-uri de tip noutate la infrastructură folosită zi de zi. Această tranziție ridică ștacheta. Sistemele trebuie să rămână stabile în sesiuni lungi, să gestioneze prompturi multilingvistice, să păstreze identitatea vorbitorului și să ofere latență și inteligibilitate predictibile în condiții reale.

Speechify își aliniază direcția de cercetare cu aceste cerințe de producție. Lucrări precum PFluxTTS reflectă direcția cercetării moderne în vorbire: arhitecturi hibride care micșorează distanța dintre stabilitate și naturalețe, metode de clonare vocală mai robuste între limbi și pipeline-uri end-to-end care cresc calitatea audio finală, nu doar a caracteristicilor intermediare.

Speechify va continua să investească în cercetare pentru a avansa AI de voce într-un mod practic, să publice rezultatele în cele mai importante forumuri și să transforme aceste progrese în calitate de produs pentru utilizatori și infrastructură vocală fiabilă pentru dezvoltatorii care creează experiențe axate pe voce.

Despre Speechify

Speechify este o companie AI orientată pe voce care ajută oamenii să citească, să scrie și să înțeleagă informații folosind vorbirea. De încredere pentru peste 50 de milioane de utilizatori din întreaga lume, Speechify alimentează citirea AI, scrierea AI, podcasturi AI, luarea de notițe AI, întâlniri AI și productivitate AI pe platforme consumer și enterprise. Cercetarea și modelele vocale proprietare ale Speechify oferă vorbire naturală în peste 60 de limbi și sunt folosite global într-o mare varietate de domenii de knowledge work și accesibilitate.