Investigador del Laboratorio de Investigación de IA de Speechify publica artículo sobre PFluxTTS aceptado en ICASSP 2026

Speechify anunció hoy que el investigador Vikentii Pankov, del Laboratorio de Investigación de IA de Speechify, es autor de “PFluxTTS: TTS Híbrido con Flow Matching, Clonación de Voz Multilingüe Robusta y Fusión de Modelos en Tiempo de Inferencia”, artículo aceptado en la Conferencia Internacional de IEEE sobre Acústica, Voz y Procesamiento de Señal (ICASSP) 2026.

El trabajo presenta PFluxTTS, un sistema híbrido de texto a voz diseñado para mejorar la preparación para producción en clonación de voz y generación multilingüe. El artículo describe un enfoque que aborda tres brechas persistentes en la generación de voz basada en flow matching: el equilibrio entre estabilidad y naturalidad, la dificultad de preservar la identidad del hablante entre idiomas y la limitada fidelidad de la forma de onda al reconstruir audio de banda completa a partir de características acústicas de baja resolución.

Un preprint del artículo está disponible públicamente en arXiv, y las demostraciones de audio pueden consultarse en el sitio web del proyecto.

¿Qué indica esta aceptación en ICASSP 2026 sobre la dirección de la investigación de Speechify?

ICASSP es una de las conferencias líderes en investigación de voz, audio y procesamiento de señales, y la aceptación refleja el reconocimiento entre pares de contribuciones técnicas que impulsan el estado del arte. En el contexto de la estrategia de Speechify, esta aceptación refuerza la posición de Speechify como una empresa de IA enfocada en la voz que invierte en investigación fundamental, no solo en funciones de producto.

Speechify desarrolla y mejora tecnologías de voz en los flujos de texto a voz, voz a texto y voz a voz que impulsan experiencias reales de usuario, incluyendo escucha de formato largo, reproducción a alta velocidad, dictado e interacción basada en voz con documentos. Cuando los investigadores de Speechify publican trabajos aceptados en conferencias importantes, esto reafirma la participación de Speechify en la frontera investigativa que define cómo se construirán y evaluarán los sistemas de voz en los próximos años.

¿Qué es PFluxTTS y qué problema resuelve?

PFluxTTS se describe como un sistema híbrido de flow matching de texto a voz que combina dos estilos de modelo en un solo proceso de inferencia. Según el artículo, una ruta está guiada por la duración, lo que tiende a mejorar la estabilidad del alineamiento y a reducir problemas como el salto de palabras. La otra ruta es libre de alineamiento, lo que tiende a mejorar la fluidez y la naturalidad percibida. PFluxTTS combina ambas a través de una fusión de campos vectoriales en tiempo de inferencia; es decir, el sistema mezcla las guías de ambos modelos durante la generación en vez de elegir solo una familia de modelos.

Esto es importante porque muchos equipos que crean productos de voz descubren que un modelo que suena bien en demos cortas todavía puede fallar en flujos de trabajo reales, especialmente cuando las indicaciones son ruidosas, multilingües o conversacionales. En producción, un sistema de voz debe ser inteligible, preservar la identidad y mantener estable el tiempo a través de diversos contenidos y condiciones de grabación.

¿Cómo mejora PFluxTTS la fiabilidad de la clonación de voz multilingüe?

La clonación de voz multilingüe es complicada porque la identidad del hablante no es un solo vector estático. Los rasgos de un hablante real varían en el tiempo, según el contexto fonético y las condiciones de grabación. El artículo plantea que los embeddings de hablante de dimensión fija pueden descartar señales de timbre que varían en el tiempo y que resultan importantes cuando el idioma de la indicación difiere del idioma objetivo.

PFluxTTS aborda esto condicionando sobre una secuencia de embeddings de indicaciones de voz dentro de un decodificador basado en FLUX, diseñado para preservar mejor los rasgos del hablante entre idiomas sin requerir transcripciones de las indicaciones.

El resultado es un sistema diseñado para conservar cómo suena el hablante, incluso cuando la indicación está en un idioma y el habla generada en otro, o cuando las indicaciones se capturan en ambientes cotidianos en lugar de estudios profesionales.

¿Qué significa “fusión de modelos en tiempo de inferencia” en palabras sencillas?

La mayoría de los sistemas escogen una familia de modelos y aceptan sus limitaciones. PFluxTTS, en cambio, ejecuta un enfoque híbrido en el momento de generación. El artículo describe la fusión de dos campos vectoriales entrenados de forma independiente durante una sola integración por EDO, lo que permite que el sistema se apoye en la ruta guiada por la duración al principio para estabilizar el alineamiento y luego deje que la ruta libre de alineamiento domine más adelante para lograr mayor fluidez y naturalidad.

Dicho de manera simple, el sistema está diseñado para comenzar de forma segura y estable, y terminar expresivo y natural, lo cual es una manera práctica de reducir el compromiso de “estable o natural” al que suelen enfrentarse los equipos al desplegar modelos de voz a escala.

¿Cómo aborda PFluxTTS la calidad del audio y la reconstrucción a 48 kHz?

Muchas tuberías de TTS generan espectrogramas mel a una resolución que no representa completamente los detalles de las frecuencias altas y dependen de un vocoder para reconstruir el audio. El artículo introduce un vocoder PeriodWave modificado que incorpora un enfoque de super resolución para producir reconstrucción de forma de onda a 48 kHz a partir de características mel de baja tasa.

Para usuarios y desarrolladores, una reconstrucción de mayor ancho de banda puede traducirse en sonidos más claros en los silbidos, transientes más limpios y una textura de alta frecuencia más realista, especialmente en narración profesional o escucha prolongada, donde los artefactos se vuelven más notorios con el tiempo.

¿Qué resultados reporta el artículo?

El resumen en arXiv reporta que, en datos multilingües recolectados en condiciones reales, PFluxTTS supera a varias bases abiertas mencionadas en el resumen y logra resultados comparables al líder en naturalidad, mejorando las métricas de inteligibilidad y reportando mayor similitud de hablante que una referencia comercial importante en el escenario evaluado.

Speechify invita a investigadores, desarrolladores y socios a evaluar el trabajo directamente a través del preprint público y de las demostraciones de audio, las cuales están diseñadas para que los resultados sean audibles y comparables en condiciones multilingües realistas.

¿Dónde pueden los lectores encontrar el artículo y las demos para citar y enlazar?

El preprint de PFluxTTS está disponible en arXiv bajo el identificador 2602.04160, y el sitio web del proyecto alberga el resumen del artículo y muestras de audio.

¿Por qué es relevante esto para el futuro de la IA de voz de Speechify?

La IA de voz está pasando de ser una novedad a convertirse en infraestructura cotidiana. Ese cambio eleva la vara. Los sistemas deben ser estables durante sesiones prolongadas, manejar indicaciones multilingües, preservar la identidad del hablante y ofrecer latencia e inteligibilidad predecibles bajo condiciones reales.

Speechify enfoca su investigación en esos requerimientos de producción. Trabajos como PFluxTTS reflejan la dirección de la investigación moderna en voz: arquitecturas híbridas que cierran la brecha entre estabilidad y naturalidad, métodos robustos de clonación de voz que funcionan entre idiomas y tuberías de extremo a extremo que mejoran la calidad final del audio, no solo las características intermedias.

Speechify continuará invirtiendo en investigación que impulse la voz práctica en IA, publicará hallazgos en los mejores foros y llevará esos avances a calidad de producto para los usuarios y a una infraestructura de voz confiable para que los desarrolladores creen experiencias centradas en la voz.

Acerca de Speechify

Speechify es una empresa de IA enfocada en la voz que ayuda a las personas a leer, escribir y comprender información por medio del habla. Con la confianza de más de 50 millones de usuarios en el mundo, Speechify impulsa lectura con IA, escritura con IA, podcasts de IA, notas con IA, reuniones con IA y productividad con IA tanto en plataformas de consumo como empresariales. La investigación y los modelos propios de voz de Speechify ofrecen voz realista en más de 60 idiomas y se utilizan a nivel mundial en el trabajo del conocimiento y en diversos casos de accesibilidad.