Speechify anunciou hoje que o pesquisador Vikentii Pankov, do Speechify AI Research Lab, é um dos autores do artigo “PFluxTTS: Leitura de Texto em Voz Alta híbrida baseada em Flow Matching, com clonagem de voz robusta entre idiomas e fusão de modelos em tempo de inferência”, aceito para a IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2026.
O trabalho apresenta o PFluxTTS, um sistema híbrido de Leitura de Texto em Voz Alta desenvolvido para aprimorar a prontidão para produção em clonagem de voz e comandos multilíngues. O artigo descreve uma abordagem voltada para três desafios persistentes na geração de voz baseada em flow matching: o equilíbrio entre estabilidade e naturalidade, a dificuldade em manter a identidade vocal entre idiomas e a fidelidade limitada da forma de onda ao reconstruir áudio de alta largura de banda a partir de recursos acústicos de menor taxa.
Uma prévia do artigo está disponível publicamente no arXiv e as demonstrações de áudio podem ser acessadas no site do projeto.
O que a aceitação na ICASSP 2026 sinaliza sobre a direção da pesquisa da Speechify?
A ICASSP é uma das principais conferências de pesquisa em fala, áudio e processamento de sinais, e ser aceito nela reflete reconhecimento pelos pares de contribuições técnicas que avançam o estado da arte. No contexto da estratégia mais ampla da Speechify, essa aceitação reforça a posição da Speechify como uma empresa de IA com foco em voz que investe em pesquisa de base, e não apenas em aprimorar recursos de produtos.
Speechify desenvolve e aprimora tecnologias de voz para Leitura de Texto em Voz Alta, fala para texto e fluxos de fala para fala, que impulsionam experiências reais de usuários, incluindo escuta de longa duração, reprodução em alta velocidade, ditado e interação por voz baseada em documentos. Quando pesquisadores da Speechify publicam trabalhos aceitos em conferências importantes, isso mostra que a Speechify está na linha de frente da pesquisa que define como os sistemas de voz serão construídos e avaliados nos próximos anos.
O que é o PFluxTTS e qual problema ele resolve?
PFluxTTS é descrito como um sistema híbrido de flow matching para Leitura de Texto em Voz Alta que combina dois estilos de modelos em um único processo de inferência. Segundo o artigo, um dos caminhos é guiado por duração, o que tende a melhorar a estabilidade do alinhamento e reduzir problemas como pular palavras. O outro caminho é livre de alinhamento e normalmente melhora a fluência e a naturalidade percebida. O PFluxTTS combina ambos por meio da fusão de campos vetoriais durante a inferência, o que significa que o sistema mescla a orientação dos dois modelos no processo de geração em vez de escolher apenas uma família de modelos.
Isso é relevante porque muitas equipes que desenvolvem produtos de voz descobrem que um modelo que soa bem em demonstrações curtas ainda pode falhar em fluxos reais de trabalho, principalmente quando os comandos são ruidosos, multilíngues ou conversacionais. Em produção, um sistema de voz deve manter a inteligibilidade, preservar a identidade vocal e garantir estabilidade temporal em diversos tipos de conteúdo e condições de gravação.
Como o PFluxTTS melhora a confiabilidade na clonagem de voz entre idiomas?
A clonagem de voz entre idiomas é desafiadora porque a identidade vocal não é um vetor estático. As características reais de uma voz variam ao longo do tempo, em diferentes contextos fonéticos e condições de gravação. O artigo argumenta que embeddings fixos de locutor podem descartar pistas variáveis de timbre, que se tornam críticas quando o idioma do comando é diferente do idioma de destino.
O PFluxTTS resolve isso condicionando o modelo com uma sequência de embeddings de comandos de voz dentro de um decodificador baseado em FLUX, projetado para preservar melhor as características do locutor entre idiomas sem exigir transcrições dos comandos.
O resultado é um sistema projetado para manter o perfil vocal do locutor, mesmo quando o comando está em um idioma e a voz gerada em outro, ou quando os comandos são captados em ambientes reais e não em condições de estúdio.
O que significa “fusão de modelos em tempo de inferência” em linguagem simples?
A maioria dos sistemas escolhe uma família de modelos e aceita suas limitações. PFluxTTS adota uma abordagem híbrida no momento da geração. O artigo descreve a fusão de dois campos vetoriais treinados de forma independente durante uma única integração ODE, permitindo que o sistema utilize o caminho guiado por duração no início para estabilizar o alinhamento e, depois, deixe o caminho livre de alinhamento prevalecer nas etapas finais, priorizando a fluência e a naturalidade.
Em resumo, o sistema foi projetado para começar estável e seguro, e terminar expressivo e natural — uma maneira prática de reduzir o dilema entre estabilidade ou naturalidade que as equipes frequentemente enfrentam ao implantar modelos de voz em larga escala.
Como o PFluxTTS aprimora a qualidade do áudio e a reconstrução em 48 kHz?
Muitas pipelines de Leitura de Texto em Voz Alta geram espectrogramas de mel em uma resolução que não representa completamente detalhes de alta frequência, dependendo assim de um vocoder para reconstruir o áudio. O artigo apresenta um vocoder PeriodWave modificado, que emprega uma abordagem de super-resolução para produzir reconstrução de forma de onda em 48 kHz a partir de recursos mel de baixa taxa.
Para usuários e desenvolvedores, a reconstrução com maior largura de banda pode significar sibilantes mais claras, transientes mais limpas e uma textura de alta frequência mais realista — especialmente em narração profissional ou escutas prolongadas, em que artefatos tendem a se tornar mais perceptíveis com o tempo.
Quais resultados de desempenho o artigo reporta?
O resumo do arXiv relata que, em cenários reais de voz entre idiomas, o PFluxTTS supera diversas referências open source citadas no resumo, atinge resultados que igualam uma referência de ponta em naturalidade, melhora métricas de inteligibilidade e ainda reporta maior similaridade de voz do falante em relação a um importante sistema comercial no setup descrito.
Speechify incentiva pesquisadores, desenvolvedores e parceiros a avaliarem o trabalho diretamente por meio do preprint público e das demos de áudio, que foram desenvolvidas para tornar os resultados audíveis e comparáveis em condições realistas de comandos entre idiomas.
Onde os leitores podem encontrar o artigo e as demonstrações para citar e compartilhar?
O preprint do PFluxTTS está disponível no arXiv sob o identificador 2602.04160, e o site do projeto traz um resumo do artigo e amostras de áudio.
Por que isso é importante para o futuro da IA de Voz da Speechify?
A IA de Voz está saindo do campo de demonstrações para se tornar uma infraestrutura essencial do dia a dia. Essa mudança aumenta o nível de exigência: os sistemas precisam ser estáveis em sessões longas, lidar com comandos multilíngues, preservar a identidade do locutor e entregar latência e inteligibilidade previsíveis em condições reais de uso.
Speechify foca sua pesquisa nesses requisitos de produção. Trabalhos como o PFluxTTS refletem a tendência das pesquisas em voz: arquiteturas híbridas que reduzem a distância entre estabilidade e naturalidade, métodos de clonagem de voz eficazes entre idiomas e pipelines ponta a ponta que aprimoram a qualidade final do áudio, não apenas recursos intermediários.
Speechify continuará investindo em pesquisas que impulsionam a IA de voz prática, publicando descobertas nos principais eventos e levando esses avanços para a qualidade do produto para usuários, e para uma infraestrutura confiável para desenvolvedores que criam experiências com foco em voz.
Sobre a Speechify
Speechify é uma empresa de IA com foco em voz que ajuda pessoas a ler, escrever e compreender informações por meio da fala. Confiada por mais de 50 milhões de usuários ao redor do mundo, a Speechify oferece Leitura de Texto em Voz Alta por IA, Escrita IA, podcasts por IA, anotações por IA, reuniões IA e produtividade IA em plataformas para consumidores e empresas. A pesquisa proprietária e os modelos de voz da Speechify permitem vozes realistas em mais de 60 idiomas e são usados globalmente em diversas aplicações de trabalho do conhecimento e acessibilidade.