Speechify AI Research Lab-onderzoeker krijgt PFluxTTS-paper geaccepteerd op ICASSP 2026

Speechify heeft vandaag bekendgemaakt dat Speechify AI Research Lab-onderzoeker Vikentii Pankov mede-auteur is van “PFluxTTS: Hybrid Flow Matching TTS met Robuuste Cross-Linguale Voice Cloning en Inference Time Model Fusion,” een paper die is geaccepteerd voor presentatie op de IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2026.

Het werk introduceert PFluxTTS, een hybride tekst-naar-spraak-systeem dat is ontworpen om de inzetbaarheid in productie voor voice cloning en meertalige prompts te verbeteren. De paper beschrijft een aanpak die zich richt op drie hardnekkige knelpunten bij flow matching-gebaseerde spraakgeneratie: de afweging tussen stabiliteit en natuurlijkheid, de uitdaging om sprekersidentiteit over meerdere talen te behouden, en beperkingen in golfvormkwaliteit bij het reconstrueren van volledig breedbandaudio uit akoestische kenmerken met een lage sample rate.

Een preprint van de paper is openbaar beschikbaar op arXiv en bijbehorende audiovoorbeelden zijn te vinden op de projectwebsite.

Wat betekent deze ICASSP 2026-acceptatie voor de onderzoeksrichting van Speechify?

ICASSP is een van de toonaangevende conferenties voor spraak-, audio- en signaalverwerkingsonderzoek. Acceptatie betekent dat de technische bijdrage na peerreview wordt erkend als vooruitstrevend. In het licht van Speechify’s bredere strategie versterkt deze acceptatie Speechify’s positie als voice-first AI-bedrijf dat investeert in fundamenteel onderzoek, en niet alleen in productfeatures.

Speechify ontwikkelt en verbetert spraaktechnologieën op het gebied van tekst-naar-spraak, spraak-naar-tekst en spraak-naar-spraak-workflows die echte gebruikerservaringen mogelijk maken, inclusief lang luisteren, hoge afspeelsnelheid, dicteren en documentgebaseerde spraakinteractie. Wanneer Speechify-onderzoekers publicaties geaccepteerd krijgen op grote conferenties, onderstreept dit duidelijk dat Speechify meedraait aan het onderzoeksfront dat de toekomst van spraaksystemen vormgeeft en bepaalt hoe deze de komende jaren worden gebouwd en geëvalueerd.

Wat is PFluxTTS en welk probleem lost het op?

PFluxTTS wordt omschreven als een hybride flow matching-tekst-naar-spraak-systeem dat twee modelstijlen combineert in één enkele inferentie. Volgens de paper is het ene pad duurtegestuurd, wat de uitlijning stabiliseert en problemen zoals het overslaan van woorden vermindert. Het andere pad is uitlijningsvrij en verbetert de vloeiendheid en de waargenomen natuurlijkheid. PFluxTTS combineert beide met vectorveld-fusie tijdens de inferentie, wat betekent dat het systeem de begeleiding van beide modellen mengt tijdens het genereren, in plaats van slechts één type te kiezen.

Dit is van belang omdat veel teams die voice-producten ontwikkelen merken dat een model dat goed klinkt in korte demo’s alsnog kan falen in echte workflows, vooral wanneer prompts rommelig, meertalig of conversatiegericht zijn. In productie moet een spraaksysteem verstaanbaar blijven, de identiteit behouden en de timing stabiel houden bij uiteenlopende inhoud en opname-omstandigheden.

Hoe verbetert PFluxTTS de betrouwbaarheid van cross-linguale voice cloning?

Cross-linguale voice cloning is moeilijk omdat sprekersidentiteit niet één statisch kenmerk is. Echte sprekerseigenschappen veranderen door de tijd heen, tussen fonetische contexten en tussen opnamecondities. In de paper wordt gesteld dat sprekersembeddings met vaste dimensies tijdelijke nuances in timbre kunnen missen die juist belangrijk worden als de prompttaal verschilt van de doeltaal.

PFluxTTS pakt dit aan door te conditioneren op een reeks spraakprompt-embeddings binnen een op FLUX gebaseerde decoder, die specifiek ontworpen is om sprekerseigenschappen over talen heen beter te behouden zonder transcripties van de prompts nodig te hebben.

Het resultaat is een systeem dat erop gericht is te behouden wie de spreker is, zelfs als de prompt in de ene taal is en de gegeneerde spraak in een andere, en zelfs als de prompts buiten een studio zijn opgenomen.

Wat betekent “inference time model fusion” in gewone taal?

De meeste systemen kiezen één modeltype en nemen de bijbehorende zwakheden voor lief. PFluxTTS kiest tijdens het genereren voor een hybride aanpak. De paper beschrijft het samenvoegen van twee onafhankelijk getrainde vectorvelden tijdens één ODE-integratie, zodat het systeem eerst kan leunen op het duurtegestuurde pad voor een stabiele uitlijning en daarna het uitlijningsvrije pad de overhand kan laten krijgen voor vloeiendheid en natuurlijkheid.

Kort gezegd: het systeem is ontworpen om veilig en stabiel te beginnen en expressief en natuurlijk te eindigen, wat een praktische manier is om het compromis ‘ofwel stabiel ofwel natuurlijk’ te verkleinen bij het grootschalig inzetten van spraakmodellen.

Hoe pakt PFluxTTS audiokwaliteit en reconstructie op 48 kHz aan?

Veel TTS-pijplijnen genereren mel-spectrogramkenmerken in een resolutie die niet alle hoge frequentiedetails bevat, waarna een vocoder het geluid reconstrueert. De paper introduceert een aangepaste PeriodWave-vocoder die een superresolutie-aanpak gebruikt om 48 kHz-golfvormen te reconstrueren uit mel-features met een lage sample rate.

Voor gebruikers en ontwikkelaars betekent reconstructie met hogere bandbreedte helderdere sisklanken, schonere transiënten en realistischer hoge frequentietexturen, vooral bij professionele voice-overs of langdurig luisteren waarbij artefacten op den duur meer opvallen.

Welke prestatieclaims doet de paper?

Het arXiv-abstract meldt dat PFluxTTS op cross-linguale ‘in the wild’-data meerdere open-sourcebaselines, genoemd in het abstract, overtreft en resultaten behaalt die een toonaangevende baseline in natuurlijkheid evenaren, terwijl de verstaanbaarheidsmetrics verbeteren. Ook meldt het hogere sprekersgelijkenis dan een belangrijk commercieel referentiemodel in de geteste opzet.

Speechify roept onderzoekers, ontwikkelaars en partners op om het werk direct te evalueren via de openbare preprint en de audiovoorbeelden, die zijn bedoeld om resultaten hoorbaar en vergelijkbaar te maken in realistische cross-linguale promptcondities.

Waar kunnen lezers de paper en de demo’s vinden om naar te verwijzen en naar te linken?

De PFluxTTS-preprint is beschikbaar op arXiv onder nummer 2602.04160 en de projectwebsite biedt een samenvatting van de paper plus audiovoorbeelden.

Waarom is dit van belang voor de toekomst van Speechify’s Voice AI?

Voice AI beweegt van opvallende demo’s naar dagelijkse infrastructuur. Die verschuiving stelt hogere eisen. Systemen moeten langdurig stabiel blijven, meertalige prompts verwerken, sprekersidentiteit behouden en voorspelbare vertraging en verstaanbaarheid leveren onder reële omstandigheden.

Speechify’s onderzoek sluit aan bij die productievereisten. Werk als PFluxTTS weerspiegelt de richting van modern spraakonderzoek: hybride architecturen die de kloof tussen stabiliteit en natuurlijkheid dichten, krachtigere voice cloning-methodes die taaloverstijgend werken, en end-to-end-pijplijnen die de uiteindelijke audiokwaliteit verbeteren, niet alleen tussentijdse kenmerken.

Speechify blijft investeren in onderzoek dat praktische voice-AI vooruithelpt, publiceert bevindingen op topcongressen en vertaalt deze stappen naar productkwaliteit voor gebruikers en betrouwbare voice-infrastructuur voor ontwikkelaars van voice-first-oplossingen.

Over Speechify

Speechify is een voice-first AI-bedrijf dat mensen helpt lezen, schrijven en informatie verwerken met behulp van spraak. Vertrouwd door meer dan 50 miljoen gebruikers wereldwijd, Speechify biedt AI-lezen, AI-schrijven, AI-podcasts, AI-notities, AI-vergaderingen en AI-productiviteit voor zowel consumenten als bedrijven. Speechify’s eigen voice-onderzoek en modellen leveren levensechte spraak in meer dan 60 talen en worden wereldwijd gebruikt in uiteenlopende kenniswerk- en toegankelijkheids-toepassingen.