Speechify AI研究实验室研究员PFluxTTS论文被ICASSP 2026录用

Speechify今日宣布，Speechify AI研究实验室研究员Vikentii Pankov作为论文“PFluxTTS：混合流匹配TTS结合强健的跨语言声音克隆与推理时模型融合”的作者之一，该论文已被IEEE国际声学、语音与信号处理会议（ICASSP）2026录用。

该研究提出了PFluxTTS，这是一种混合型文本转语音系统，旨在提升声音克隆和多语言提示的生产可用性。论文介绍了一种方法，着力解决流匹配语音生成中长期存在的三大难题：稳定性与自然度的权衡、跨语言说话人身份保持的难度，以及从低采样率声学特征重建全带宽音频时波形保真度不足的问题。

论文预印本已在arXiv公开，配套音频演示可在项目网站上获取。

ICASSP 2026的录用对Speechify研究意味着什么？

ICASSP是语音、音频和信号处理领域的顶级会议之一，入选意味着研究成果在推动技术前沿方面获得了同行认可。在Speechify更宏观的战略布局中，这次录用进一步巩固了Speechify作为一家以语音为核心、重视基础研究而非只追逐产品功能点的AI公司的定位。

Speechify专注于构建和打磨文本转语音、语音转文本以及语音到语音等工作流，这些技术支撑了真实使用场景中的体验，例如长文收听、高速播放、语音输入和基于文档的语音交互。当Speechify研究员的成果被顶级会议录用时，也就表明Speechify正在积极参与塑造未来数年语音系统构建和评估方式的前沿研究。

什么是PFluxTTS？它解决了哪些问题？

PFluxTTS被描述为一种混合流匹配的文本转语音系统，在一次推理过程中结合了两种模型范式。根据论文介绍，一条路径是时长引导的，有助于提高对齐稳定性并减少单词跳读等问题；另一条路径则为无对齐，能够增强流畅度和自然感。PFluxTTS通过在推理时进行向量场融合，将两条模型路径在生成过程中进行混合，而非二选一。

这一点尤为关键，因为许多团队会发现，声音产品背后的模型即便在短演示中表现亮眼，在真实场景下仍可能“翻车”，尤其是在提示内容嘈杂、涉及多语言或多轮对话时。在实际应用中，语音系统必须始终保持清晰、保留说话者身份，并在不同内容和录音条件下维持稳定的时序。

PFluxTTS如何提升跨语言声音克隆的可靠性？

跨语言声音克隆之所以困难，是因为说话者身份并非一个静态的单一向量。真实的说话人特征会随时间、语音环境和录音条件而变化。论文指出，定长的说话人嵌入向量可能丢失在目标语言和提示语言不同时尤为重要的音色线索。

PFluxTTS通过在基于FLUX的解码器内部，以一系列语音提示嵌入为条件进行建模，能够在无需提示转录文本的情况下，更好地保持跨语言的说话人特征。

最终效果是，即便提示语言与生成语言不一致，且录音环境不是录音棚而是自然环境，该系统也能尽量保持说话者的声音特性。

“推理时模型融合”到底是什么？

大多数系统都会选定一种模型族并接受其局限性，而PFluxTTS则在生成阶段采用混合策略。论文介绍了在单次ODE积分过程中融合两组独立训练的向量场：系统先依赖时长引导路径以稳定对齐，随后再由无对齐路径主导，以提升流畅度和自然性。

简而言之，这套系统的设计是“起步稳健、结尾生动”，为大规模部署语音模型时常见的“稳定”和“自然”难以兼得的痛点提供了一条可行路径。

PFluxTTS如何提升音质及48 kHz音频重建？

许多TTS流程生成的mel谱特征分辨率有限，无法完整保留高频细节，之后需依赖vocoder重建音频。论文提出了改进版PeriodWave vocoder，将超分辨率技术引入，实现了由低分辨率mel特征生成48 kHz波形。

对用户和开发者而言，更高带宽的音频重建意味着更清晰的齿擦音、更干净的瞬态，以及更加真实的高频纹理，尤其是在专业播音或长时间聆听场景下，时间积累所暴露出的音频瑕疵会显得尤为明显。

论文报告了哪些性能指标？

根据arXiv摘要，在真实环境下采集的跨语言数据上，PFluxTTS优于多项开源基线系统（具体见摘要），在自然度达到领先基线水平的同时提升了可懂度指标，并在相关实验设置中取得了高于主流商用参考的说话人相似度。

Speechify鼓励研究人员、开发者及合作伙伴通过公开预印本和音频demo直接评估这项工作，这些demo旨在让成果在真实的跨语言提示条件下可被听到、可被对比。

读者可以在哪里找到论文和演示以进行引用和链接？

PFluxTTS论文预印本可在arXiv上（编号2602.04160）查阅，项目网站同时提供论文摘要及音频样本。

这对Speechify语音AI的未来有何意义？

语音AI正在从炫技式的小程序演示，迈向日常基础设施。这一转型显著抬高了门槛。系统需要在长时间使用下依然稳定，能够处理多语言提示，保留说话者身份，并在真实环境中提供可预测的延迟和可懂度。

Speechify的研究重点与这些生产级需求高度契合。诸如PFluxTTS之类的研究工作代表了当前语音研究的大方向：通过混合架构弥合稳定性与自然度之间的鸿沟、更强的跨语言声音克隆能力，以及面向最终音质的端到端流程——而非只盯着中间特征。

Speechify将持续投入实用语音AI的前沿研究，在顶级会议发表成果，并将技术进步转化为用户可感知的产品质量提升，以及供开发者构建语音优先体验所依赖的可靠语音基础设施。

关于 Speechify

Speechify是一家以语音为核心的AI公司，致力于帮助用户通过语音进行阅读、写作与理解信息。全球超过5000万用户信赖Speechify，其产品涵盖AI阅读、AI写作、AI播客、AI记笔记、AI会议及AI效率提升等面向消费者和企业的产品与平台。Speechify自研的语音技术与模型支持60多种语言的拟真人语音，广泛应用于全球知识型工作及无障碍场景。