Speechify 今日宣布,Speechify AI 研究实验室的研究员 Vikentii Pankov 是论文“PFluxTTS: 混合流匹配TTS 兼具强大跨语言语音克隆及推理时模型融合”的作者之一,该论文已被 IEEE 国际声学、语音与信号处理大会(ICASSP)2026 接收。
本研究介绍了 PFluxTTS,这是一种混合型文本转语音系统,旨在提升语音克隆和多语言提示在真实生产环境中的实用性与适应性。论文提出了一种针对流匹配语音生成中三个长期难题的方案:稳定性与自然度之间的权衡、跨语言场景下说话人身份难以保持,以及从低采样率声学特征重建全带宽音频时波形保真度受限的问题。
该论文的预印本已在 arXiv 公开发布,相关音频演示也已在项目网站上线。
ICASSP 2026 论文被接收对 Speechify 的研究方向有何意义?
ICASSP 是语音、音频与信号处理领域顶级会议之一,论文被接收意味着技术贡献通过了严格的同行评审,并推动了该领域的前沿发展。在Speechify更广泛的战略布局中,此次接收进一步巩固了Speechify作为一家深耕语音、重视基础研究而不仅停留在产品功能层面的 AI 公司的领先地位。
Speechify 不断开发和打磨覆盖文本转语音、语音转文本和语音转语音等完整流程,为真实使用场景提供支持,包括长文聆听、高速播放、语音输入及基于文档的语音交互。当Speechify研究员的成果被顶级会议收录,也意味着Speechify正深度参与当下语音技术研究前沿,引领未来语音系统的构建和评估范式。
PFluxTTS 是什么?解决了哪些痛点?
PFluxTTS 被描述为混合流匹配文本转语音系统,在一次推理过程中融合两种模型风格。根据论文描述,一条路径是基于时长引导的,可提升对齐稳定性并减少漏词现象;另一条是无对齐路径,可增强语音的流畅度和自然度。PFluxTTS 通过在推理阶段进行矢量场融合,把二者的优势糅合进生成过程,而不是二选一。
这一点尤为关键,因为许多语音产品团队会发现,那些在短演示里表现亮眼的模型,落地到实际应用中(尤其是提示复杂、多语种或偏对话场景时)仍可能“翻车”。在生产环境下,语音系统必须在多样内容和录音条件下依然保持可懂度、身份一致性以及时间对齐的稳定性。
PFluxTTS 如何提升跨语言语音克隆的可靠性?
跨语言语音克隆的难点在于,说话人身份并不是一个静态不变的向量。真实的说话人特征会随时间、语境和录音条件而变化。论文指出,固定维度的说话人嵌入可能会丢失随时间变化的音色线索,尤其当提示语言和目标语言不同的时候,这些信息尤为关键。
PFluxTTS 针对此问题,在基于 FLUX 的解码器内部对语音提示嵌入序列进行条件建模,无需提示文本即可更好地保留说话人在跨语言场景下的个性特征。
最终得到的是一套能够准确还原说话人音色的系统——无论提示使用何种语言、生成语音为何种语言,也无论提示是现场环境录音还是录音棚条件。
“推理时模型融合”用大白话怎么理解?
多数系统会选择单一模型范式,同时默认接受它的短板。PFluxTTS 则在生成阶段采用混合思路。论文介绍,在一次 ODE 积分过程中融合两组独立训练的矢量场,这样系统可以在早期步骤中主要依赖时长引导路径来稳定对齐,随后在后续步骤由无对齐路径接管,从而获得更高的流畅度和自然度。
通俗地说,就是让系统“稳稳起步、自然收尾”:先以安全、稳定的方式开始生成,再以更具表现力、更自然的效果结束,尽量化解团队在大规模部署语音模型时常见的“要稳定还是要自然”的两难取舍。
PFluxTTS 如何提升音质和 48 kHz 重建能力?
许多TTS流程在生成 mel 频谱特征时分辨率有限,难以充分刻画高频细节,并依赖声码器还原音频。该论文提出了一种改良版 PeriodWave 声码器,通过超分辨率方法,将低采样率 mel 特征恢复为 48 kHz 波形。
对用户和开发者而言,更高带宽的重建意味着更清晰的咝音、更干净的瞬态、更逼真的高频纹理表现,尤其适用于专业播讲或长时间聆听等对音质要求更高、又容易产生听觉疲劳的场景。
论文报告了哪些性能表现?
根据 arXiv 摘要,在真实场景的跨语言数据上,PFluxTTS 超越了多项开源基线,在自然度方面达到领先基线水准的同时提升了可懂度指标,并在所报告的实验中,相比主流商业参考获得更高的说话人相似度评分。
Speechify 鼓励研究者、开发者和合作伙伴通过公开预印本和音频演示亲自评估这项工作,这些演示旨在真实的跨语言条件下,让结果“用耳朵就能听出来、方便横向对比”。
读者可在哪里查阅论文与演示以供引用和链接?
PFluxTTS 预印本可在 arXiv(编号 2602.04160)检索,项目网站则提供论文摘要及音频样例。
这对 Speechify 未来的语音 AI 有何意义?
语音 AI 正在从新奇演示走向日常基础设施。这一转变大幅抬高了行业门槛:系统既要保证长时会话稳定,又要能处理多语种提示、保留说话人特征,并在真实世界中交付可预期的延迟和可懂度。
Speechify 的研究重点与生产一线需求高度同频。像 PFluxTTS 这样的成果,代表了现代语音研究的走向:用混合架构弥合稳定性与自然度之间的鸿沟,用更强的跨语言语音克隆方法提升说话人一致性,并通过端到端流程拉高最终音质,而不只是优化中间特征。
Speechify 将持续投入推动实用语音 AI 发展的研究,在顶级会议发表成果,并把这些突破转化为用户侧能切实感知的产品体验,以及开发者所需的语音基础设施能力。
关于 Speechify
Speechify 是一家以语音为先的 AI 公司,通过语音帮助人们阅读、书写和理解信息。全球逾 5000 万用户信赖 Speechify,其 AI 阅读、AI 写作、AI 播客、AI 速记、AI 会议和 AI生产力产品广泛服务于个人及企业平台。Speechify 拥有自主研发的语音技术和模型,支持 60 多种语言的拟真语音,在全球知识工作及无障碍应用场景中得到广泛使用。