Speechify AI 연구소 연구원, ICASSP 2026에서 PFluxTTS 논문 채택

Speechify는 오늘 Speechify AI 연구소의 연구원 Vikentii Pankov가 “PFluxTTS: 견고한 다국어 음성 클로닝과 추론 시 모델 융합을 지원하는 하이브리드 플로우 매칭 TTS”라는 논문의 저자임을 밝혔습니다. 이 논문은 IEEE 국제 음향, 음성, 신호처리 학회(ICASSP) 2026에서 채택되었습니다.

이 연구는 PFluxTTS라는 하이브리드 텍스트 투 스피치 시스템을 소개하며, 음성 클로닝과 다국어 프롬프트를 실제 서비스에 쓸 수 있도록 설계되었습니다. 논문에서는 플로우 매칭 기반 음성 생성에서 꾸준히 발견되는 세 가지 문제—안정성과 자연스러움 간의 균형, 다국어 환경에서 화자 고유성 유지의 어려움, 저해상도 음향 특성에서 전체 대역폭 오디오를 재구성할 때 파형 충실도의 한계—를 해결하기 위한 접근을 설명합니다.

이 논문의 프리프린트는 arXiv에서 공개되어 있으며, 오디오 데모는 프로젝트 웹사이트에서 확인하실 수 있습니다.

ICASSP 2026 채택은 Speechify 연구 방향에 어떤 의미가 있나요?

ICASSP는 음성, 오디오, 신호처리 연구 분야를 대표하는 국제 학회 중 하나로, 논문 채택은 기술적 기여에 대한 동료 평가와 인정을 의미합니다. Speechify의 폭넓은 전략 안에서 이번 논문 채택은 Speechify가 단순히 제품 기능 개발에 그치지 않고, 기초 연구에 꾸준히 투자하는 '보이스 퍼스트 AI 기업'임을 다시 한 번 보여줍니다.

Speechify는 텍스트 투 스피치, 스피치 투 텍스트, 음성 간 전환 워크플로우 등 다양한 음성 기술을 개발·고도화하며, 이를 통해 긴 듣기, 고속 재생, 음성 입력, 문서 기반 음성 상호작용을 포함한 실제 사용자 경험을 제공합니다. Speechify 연구진이 주요 학회에 논문을 게재한다는 것은, Speechify가 앞으로 수년간 보이스 시스템이 구축·평가되는 최전선 연구에 진정으로 함께하고 있다는 점을 더욱 분명히 합니다.

PFluxTTS란 무엇이며, 어떤 문제를 해결하나요?

PFluxTTS는 두 가지 모델 스타일을 하나의 추론(인퍼런스) 과정에서 결합한 하이브리드 플로우 매칭 텍스트 투 스피치 시스템입니다. 논문에 따르면, 한 경로는 길이(발화 시간) 정보를 이용해 정렬 안정성을 높이고 단어 생략과 같은 문제를 줄여 줍니다. 다른 경로는 정렬 제약에서 자유로워 유창함과 자연스러운 발화를 높입니다. PFluxTTS는 추론 시 벡터 필드 융합을 통해 이 두 모델의 가이던스를 혼합해, 단일 모델이 아닌 두 모델의 강점을 동시에 활용합니다.

이는 많은 음성 제품 개발팀이 겪는 현실적인 문제와 맞닿아 있습니다. 짧은 데모에서는 훌륭하게 들리는 모델도 실제 워크플로우(특히 노이즈가 있거나 다국어, 대화형 프롬프트에서는)에서는 쉽게 실패할 수 있기 때문입니다. 실제 운영 환경에서 음성 시스템은 다양한 콘텐츠와 녹음 조건에서도 명료함, 화자 고유성, 타이밍 안정성을 안정적으로 유지해야 합니다.

PFluxTTS는 다국어 음성 클로닝의 신뢰성을 어떻게 개선하나요?

다국어 음성 클로닝이 어려운 이유는 화자 고유성이 고정된 하나의 벡터로 표현될 수 있는 속성이 아니기 때문입니다. 실제 화자 특성은 시간, 음성 환경, 녹음 상황에 따라 달라집니다. 논문에서는 고정 차원의 화자 임베딩이 프롬프트 언어와 대상 언어가 다를 때, 시간에 따라 변하는 중요한 음색 정보를 버릴 수 있다고 지적합니다.

PFluxTTS는 FLUX 기반 디코더 내에서 음성 프롬프트 임베딩의 연속 시퀀스를 조건으로 활용해, 프롬프트 스크립트가 없어도 언어 간 화자 특성 보존을 강화합니다.

그 결과, 프롬프트와 생성 음성의 언어가 다르더라도, 또는 스튜디오가 아닌 실제 환경에서 프롬프트가 녹음되더라도 화자의 고유한 발성을 유지하는 시스템을 만들 수 있습니다.

“추론 시 모델 융합”이란 쉽게 말해 무엇인가요?

대부분의 시스템은 하나의 모델 계열을 선택하고, 그에 따른 약점을 감수합니다. PFluxTTS는 생성 과정에서 하이브리드 방식을 택합니다. 논문에서는 독립적으로 학습된 두 개의 벡터 필드를 하나의 ODE 적분 과정에서 융합해, 초기에는 길이(발화 시간) 기반 경로로 정렬을 안정화시키고, 이후 단계에서는 정렬 제약이 없는 경로가 유창함과 자연스러움을 높이도록 합니다.

즉, 이 시스템은 초반에는 안전하고 안정적으로 시작해, 끝으로 갈수록 표현력 있고 자연스럽게 마무리되도록 설계되어, 대규모 음성 모델 배포 시 흔히 겪는 '안정성 vs. 자연스러움' 딜레마를 줄여 줍니다.

PFluxTTS는 오디오 품질과 48kHz 재구성을 어떻게 처리하나요?

많은 TTS 파이프라인은 고주파 특성을 충분히 담지 못하는 해상도의 멜 스펙트로그램 특성을 생성한 뒤, 보코더에 의존해 오디오를 재구성합니다. 논문에서는 저해상도 멜 특성으로부터 48kHz 파형을 재구성할 수 있도록 슈퍼 레졸루션 방식을 접목한 개선된 PeriodWave 보코더를 소개합니다.

사용자와 개발자에게 고대역폭 재구성은 더 선명한 치찰음, 깔끔한 트랜지언트, 그리고 더욱 사실적인 고주파 텍스처를 의미합니다. 특히 전문 성우 내레이션이나 장시간 청취처럼 시간이 지날수록 인공적인 느낌이 쉽게 드러나는 상황에서 큰 차이를 만들어 줍니다.

논문에서 보고된 성능은 무엇인가요?

arXiv 초록에 따르면, 자연환경의 다국어 음성 데이터에 대해 PFluxTTS는 여러 오픈소스 기준 모델(초록에 명시됨)을 능가했으며, 자연스러움에서는 선도 기준과 동급의 결과를, 명료성에서는 더 높은 점수를, 그리고 발표 환경에서 주요 상용 기준 모델보다 더 높은 화자 유사도를 보여주었습니다.

Speechify는 연구자, 개발자, 파트너가 퍼블릭 프리프린트와 오디오 데모를 통해 직접 해당 연구를 평가해 보기를 권합니다. 이 데모들은 현실적인 다국어 프롬프트 환경에서 결과를 실제로 들어 보고 비교할 수 있도록 설계되었습니다.

논문과 데모, 인용 및 링크 정보는 어디에서 확인하나요?

PFluxTTS 프리프린트는 arXiv에서 식별자 2602.04160으로 공개되어 있으며, 프로젝트 웹사이트에서 논문 요약과 오디오 샘플도 함께 제공됩니다.

이것이 Speechify의 Voice AI 미래에 중요한 이유는?

Voice AI는 단순한 데모 수준을 넘어 일상 인프라로 자리 잡아 가고 있습니다. 그만큼 기준도 높아지고 있습니다. 시스템은 장시간 세션에서도 안정적으로 동작해야 하고, 다국어 프롬프트를 처리하며, 화자 고유성을 보존하고, 실제 환경에서 예측 가능한 지연과 명확성을 제공해야 합니다.

Speechify의 연구 방향은 이러한 서비스 요구와 정확히 맞물립니다. PFluxTTS와 같은 연구는 현대 음성 연구의 핵심 흐름인 하이브리드 아키텍처(안정성과 자연스러움 간의 간극 해소), 언어를 가로질러 작동하는 강력한 음성 클로닝, 그리고 최종 오디오 품질을 끌어올리는 엔드 투 엔드 파이프라인을 잘 보여 줍니다.

Speechify는 앞으로도 실용적인 보이스 AI를 발전시키는 연구에 지속적으로 투자하고, 최고 수준의 학회에 연구 결과를 발표하며, 그 성과를 사용자 제품 품질과 보이스 중심 서비스 인프라 개선에 적극 반영할 것입니다.

Speechify 소개

Speechify는 보이스 퍼스트 AI 기업으로, 사람들이 음성을 통해 정보를 읽고, 쓰고, 이해할 수 있도록 돕고 있습니다. 전 세계 5천만 명이 신뢰하는 Speechify는 AI 읽기, AI 쓰기, AI 팟캐스트, AI 필기, AI 미팅, AI 생산성을 컨슈머와 엔터프라이즈 전반에 걸쳐 제공합니다. Speechify만의 독자적 보이스 연구와 모델링은 60개 이상의 언어에서 생생한 음성을 구현하며, 전 세계 다양한 지식 노동 및 접근성 사용 사례에 폭넓게 활용되고 있습니다.