Speechify ha anunciat avui que el seu investigador del Laboratori d'IA, Vikentii Pankov, és coautor de “PFluxTTS: Hybrid Flow Matching TTS with Robust Cross Lingual Voice Cloning and Inference Time Model Fusion”, un article acceptat a la Conferència Internacional IEEE d’Acústica, Parla i Processament de Senyals (ICASSP) 2026.
El treball presenta PFluxTTS, un sistema híbrid de text a veu dissenyat per millorar la preparació per a producció en clonació de veu i instruccions multilingües. L'article descriu un enfocament per abordar tres mancances persistents en la creació de veu basada en matching de fluxos: equilibri entre estabilitat i naturalitat, dificultat per conservar la identitat de l'orador entre idiomes i limitacions de fidelitat d'ona a l'hora de reconstruir àudio de banda ampla a partir de característiques acústiques de menor taxa.
El preprint de l'article és disponible públicament a arXiv, i al web del projecte hi ha demostracions d'àudio.
Què significa aquesta acceptació a l'ICASSP 2026 per al rumb de recerca de Speechify?
L'ICASSP és una de les conferències capdavanteres en veu, àudio i processament de senyals, i l'acceptació reflecteix el reconeixement revisat per experts de contribucions tècniques que fan avançar l'estat de l'art. En el context de l'estratègia de Speechify, aquest èxit reforça Speechify com a empresa de veu amb IA que aposta per la recerca fonamental, no només per noves funcionalitats de producte.
Speechify desenvolupa i millora tecnologies de veu per a text a veu, veu a text i fluxos de veu a veu per a experiències reals d'usuari, incloent-hi escolta de llarga durada, reproducció ràpida, dictats i interacció per veu basada en documents. Quan els investigadors de Speechify publiquen articles acceptats en congressos importants, queda clar que Speechify treballa a la frontera de la recerca en veu, definint com es crearan i avaluaran els sistemes de veu els propers anys.
Què és PFluxTTS i quin problema resol?
PFluxTTS es descriu com un sistema híbrid de text a veu amb matching de fluxos que combina dos estils de model en un sol procés d'inferència. Segons l'article, una via es guia per la durada, millora l'estabilitat d'alineació i evita errors com ometre paraules. L'altra via no requereix alineació i millora la fluïdesa i la naturalitat percebuda. PFluxTTS combina ambdues mitjançant fusió de camps vectorials en temps d'inferència, de manera que es barregen les dues guies durant la generació en lloc de triar una única família de models.
Això és important perquè molts equips veuen que models bons en demos poden fallar en casos reals, sobretot si les indicacions són sorolloses, multilingües o conversacionals. En producció, el sistema de veu ha de ser entenedor, mantenir la identitat i l'estabilitat temporal en continguts variats i sota condicions de gravació diverses.
Com millora PFluxTTS la fiabilitat de la clonació de veu entre idiomes?
La clonació de veu multilingüe és difícil perquè la identitat de l'orador no és un únic vector estàtic. Els trets reals de la veu varien amb el temps, el context fonètic i les condicions de gravació. L'article argumenta que encastres de veu de dimensions fixes poden descartar matisos de timbre que són crucials quan l'idioma de la indicació i l'objectiu són diferents.
PFluxTTS ho aborda condicionant la decodificació FLUX en una seqüència d'encastres de veu, dissenyada per conservar els trets de l'orador entre idiomes sense necessitat de transcriure la indicació.
El resultat és un sistema que manté la personalitat de l'orador, encara que la indicació sigui en una llengua i la veu generada en una altra, i fins i tot si la mostra es grava fora d'estudi.
Què vol dir “fusió de models en temps d'inferència” en llenguatge planer?
La majoria de sistemes trien una família de models i n'assumeixen les mancances. PFluxTTS opta per un enfoc híbrid durant la generació. L'article explica la fusió de dos camps vectorials entrenats independentment en una sola integració ODE, de manera que el sistema usa la guia per durada al principi per establir l'alineació i, més endavant, la via sense alineació per aconseguir més fluïdesa i naturalitat.
Dit planerament, el sistema comença estable i segur, i acaba sent expressiu i natural, i redueix el clàssic dilema “o estable o natural” que sovint afronten els equips en desplegar models de veu a escala.
Com aborda PFluxTTS la qualitat d'àudio i reconstrucció a 48 kHz?
Molts sistemes de TTS generen espectrograms mels amb resolució insuficient per captar detalls d'alta freqüència i depenen d'un vocoder per reconstruir l'àudio. L'article presenta un vocoder PeriodWave modificat amb superresolució capaç de reconstruir una ona a 48 kHz a partir de característiques mel de baixa taxa.
Per a usuaris i desenvolupadors, la reconstrucció d'alta banda pot suposar esses més clares, atacs més nets i un so d'alta freqüència més realista, especialment en narració professional o escolta llarga, on els artefactes es perceben més.
Quins resultats de rendiment reporta l'article?
El resum a arXiv indica que, amb dades multilingües en condicions reals, PFluxTTS supera diversos referents open source i iguala un líder en naturalitat, alhora que millora la intel·ligibilitat i supera una referència comercial en similitud d'orador.
Speechify anima investigadors, desenvolupadors i socis a avaluar directament el treball amb el preprint o les demos, pensades perquè els resultats siguin audibles i comparables amb consignes multilingües reals.
On poden trobar lectors l'article i les demos per citar o enllaçar?
El preprint de PFluxTTS es pot trobar a arXiv amb l'identificador 2602.04160, i al web del projecte hi ha el resum de l'article i mostres d'àudio.
Per què és rellevant per al futur de la veu amb IA de Speechify?
La IA de veu ha passat de ser una novetat a esdevenir infraestructura del dia a dia. Això fa pujar el llistó: els sistemes han de ser estables en sessions llargues, admetre consignes multilingües, mantenir la identitat sonora i garantir latència i intel·ligibilitat amb condicions reals.
El focus de recerca de Speechify s'alinea amb aquests reptes de producció. PFluxTTS reflecteix la tendència de la recerca moderna en veu: arquitectures híbrides que acosten estabilitat i naturalitat, millors mètodes de clonació multilingüe i fluxos capaços de millorar l'àudio final, no només les característiques intermèdies.
Speechify continuarà invertint en recerca per fer avançar la IA de veu pràctica, publicar resultats en fòrums rellevants i transformar els avenços en qualitat de producte per als usuaris i en infraestructura de veu sòlida per als desenvolupadors.
Sobre Speechify
Speechify és una companyia d'IA de veu que ajuda a llegir, escriure i comprendre informació mitjançant la veu. Amb la confiança de més de 50 milions d'usuaris arreu del món, Speechify impulsa lectura amb IA, escriptura amb IA, podcasts amb IA, presa de notes amb IA, reunions amb IA i productivitat amb IA a plataformes de consum i empresa. La recerca i els models propis de Speechify permeten veu natural en més de 60 idiomes i s'usen globalment en treball del coneixement i casos d'accessibilitat.