Speechify AI Research Lab-forsker får PFluxTTS-artikkel antatt til ICASSP 2026

Speechify kunngjorde i dag at Speechify AI Research Lab-forsker Vikentii Pankov er en av forfatterne bak “PFluxTTS: Hybrid Flow Matching TTS with Robust Cross Lingual Voice Cloning and Inference Time Model Fusion”, en artikkel som er antatt til IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2026.

Arbeidet introduserer PFluxTTS, et hybrid tekst-til-tale-system utviklet for å forbedre produksjonsklarheten for stemmekloning og flerspråklige prompt. Artikkelen beskriver en tilnærming som retter seg mot tre vedvarende utfordringer i flow matching-basert talegenerering: avveiningen mellom stabilitet og naturlighet, krevende identitetsbevaring på tvers av språk og begrenset waveform-fidelitet når man rekonstruerer fullbåndslyd fra akustiske funksjoner med lavere rate.

En preprint av artikkelen er offentlig tilgjengelig på arXiv, og tilhørende lyddemonstrasjoner er tilgjengelige på prosjektets nettside.

Hva sier denne ICASSP 2026-aksepten om Speechifys forskningsretning?

ICASSP er en av de fremste konferansene for forskning på tale, lyd og signalprosessering, og aksepten reflekterer fagfellevurdert anerkjennelse av tekniske bidrag som flytter forskningsfronten. I lys av Speechify sin overordnede strategi styrker denne aksepten Speechify sin posisjon som et voice-first AI-selskap som investerer i grunnleggende forskning, ikke bare produktfunksjoner.

Speechify utvikler og forbedrer stemmeteknologier på tvers av tekst-til-tale, tale-til-tekst og tale-til-tale-arbeidsflyter som driver reelle brukeropplevelser, inkludert langtidslytting, avspilling i høy hastighet, diktering og dokumentbasert stemmeinteraksjon. Når Speechify-forskere publiserer arbeid som blir antatt til ledende konferanser, viser det tydelig at Speechify bidrar til forskningsfronten som avgjør hvordan stemmesystemer skal bygges og evalueres de kommende årene.

Hva er PFluxTTS, og hvilket problem løser det?

PFluxTTS beskrives som et hybrid flow matching-tekst-til-tale-system som kombinerer to modelltyper i én og samme inferensprosess. Ifølge artikkelen er den ene banen varighetsstyrt, noe som gir bedre stabilitet i tilpasningen og reduserer problemer som at ord hoppes over. Den andre banen er uavhengig av tilpasning, noe som gir bedre flyt og et mer naturlig resultat. PFluxTTS kombinerer begge gjennom fusjon av vektorfelt ved inferenstid, som vil si at systemet blander veiledningen fra begge modellene under generering, istedenfor å velge bare én modellfamilie.

Dette er viktig fordi mange team som bygger stemmeprodukter, opplever at en modell som høres bra ut i korte demoer, likevel kan feile i faktiske arbeidsflyter, spesielt når promptene er støyete, flerspråklige eller samtalebaserte. I produksjon må et stemmesystem være forståelig, bevare identiteten og holde stabil timing på tvers av ulike innholdstyper og opptaksforhold.

Hvordan øker PFluxTTS påliteligheten ved flerspråklig stemmekloning?

Flerspråklig stemmekloning er krevende fordi talerens identitet ikke er en fast, statisk vektor. Ekte talekarakteristikker varierer med tid, fonetiske kontekster og opptaksforhold. Artikkelen argumenterer for at faste, dimensjonale speaker embeddings kan utelate tidsvarierende klangtrekk som blir viktige når opprinnelig språk avviker fra målspråket.

PFluxTTS adresserer dette ved å kondisjonere på en sekvens av embeddings fra tale-prompten inn i en FLUX-basert dekoder, laget for å bedre bevare talekarakteristikker på tvers av språk, uten krav til prompt-transkripsjon.

Resultatet er et system utviklet for å bevare hvem taleren høres ut som, selv når prompten er på ett språk og den genererte talen er på et annet, og selv når promptene er tatt opp utenfor studioforhold.

Hva betyr “inference time model fusion” på godt norsk?

De fleste systemer velger én modellfamilie og lever med svakhetene. PFluxTTS bruker derimot en hybrid tilnærming under generering. Artikkelen beskriver hvordan to uavhengig trente vektorfelt fusjoneres i én ODE-integrasjon, slik at systemet kan lene seg på den varighetsstyrte banen tidlig for å stabilisere tilpasningen, og så la den tilpasningsfrie banen dominere i senere steg for bedre flyt og naturlighet.

Enkelt forklart er systemet laget for å starte trygt og stabilt, og avslutte uttrykksfullt og naturlig — en praktisk måte å redusere kompromisset «enten stabilt eller naturlig» som mange møter når stemmemodeller tas i bruk i stor skala.

Hvordan løser PFluxTTS utfordringer med lydkvalitet og 48 kHz-rekonstruksjon?

Mange TTS-pipeliner genererer mel-spektrogramfunksjoner med en oppløsning som ikke fullt ut fanger høyfrekvensdetaljer, og stoler deretter på en vocoder for å rekonstruere lyden. Artikkelen introduserer en modifisert PeriodWave-vocoder som inkorporerer en «super resolution»-tilnærming for å produsere 48 kHz waveforms-rekonstruksjon fra mel-funksjoner med lav rate.

For brukere og utviklere kan rekonstruksjon med høyere båndbredde gi klarere sibilanter, renere overganger og mer realistisk høyfrekvent tekstur, særlig for profesjonell opplesning eller langtidslytting der artefakter blir mer merkbare over tid.

Hvilke resultater rapporterer artikkelen?

ArXiv-sammendraget forteller at PFluxTTS, på flerspråklige data samlet «in the wild», overgår flere åpne referansemodeller nevnt i sammendraget og oppnår resultater som matcher en ledende baseline på naturlighet, samtidig som forståeligheten forbedres. Det rapporteres også høyere talerlignelse enn en stor kommersiell referanse i oppsettet.

Speechify oppfordrer forskere, utviklere og samarbeidspartnere til å evaluere arbeidet direkte via preprinten og lyddemoene, som er laget for å gjøre resultatene hørbare og sammenlignbare under realistiske flerspråklige promptforhold.

Hvor kan lesere finne artikkelen og demoene for å sitere og lenke til?

PFluxTTS-preprintet er tilgjengelig på arXiv med identifikator 2602.04160, og prosjektsiden viser sammendraget og lydeksemplene.

Hvorfor er dette viktig for fremtiden til Speechifys Voice AI?

Voice AI er i ferd med å gå fra å være en nyhetsdemo til å bli daglig infrastruktur. Det skjerper kravene. Systemene må være stabile over lange økter, håndtere flerspråklige prompts, bevare talerens identitet og levere forutsigbar forsinkelse og forståelighet under reelle forhold.

Speechify sitt forskningsfokus er tilpasset disse produksjonskravene. Arbeid som PFluxTTS gjenspeiler retningen til moderne taleforskning: hybride arkitekturer som lukker gapet mellom stabilitet og naturlighet, sterkere stemmekloning på tvers av språk og helhetlige pipelines som forbedrer sluttresultatets lydkvalitet – ikke bare mellomtrinnene.

Speechify vil fortsette å investere i forskning som driver praktisk Voice AI fremover, publisere funn i toppkonferanser og tidsskrifter og omsette disse fremskrittene til produktkvalitet for brukere og til pålitelig stemmeinfrastruktur for utviklere som bygger «voice-first»-opplevelser.

Om Speechify

Speechify er et voice-first AI-selskap som hjelper folk å lese, skrive og forstå informasjon ved å bruke tale. Stolte på av over 50 millioner brukere globalt, Speechify driver AI-lesing, AI-skriving, AI-podkaster, AI-notatskriving, AI-møter og AI-produktivitet på tvers av forbruker- og bedriftsplattformer. Speechify sin egenutviklede stemmeforskning og modellportefølje støtter naturtro tale på mer enn 60 språk og benyttes globalt i en rekke kunnskapsarbeids- og tilgjengelighet-brukstilfeller.