Nhà nghiên cứu của Phòng thí nghiệm Nghiên cứu AI Speechify có bài báo PFluxTTS được chấp nhận tại ICASSP 2026

Speechify hôm nay thông báo rằng tại Speechify AI Research Lab, nhà nghiên cứu Vikentii Pankov là đồng tác giả của bài báo “PFluxTTS: Hybrid Flow Matching TTS với Nhân Bản Giọng Nói Đa Ngôn Ngữ Mạnh Mẽ và Kết Hợp Mô Hình Lúc Suy Luận,” một bài báo đã được chấp nhận tại Hội nghị Quốc tế về Âm học, Giọng nói và Xử lý Tín hiệu (ICASSP) 2026.

Công trình này giới thiệu PFluxTTS, một hệ thống chuyển văn bản thành giọng nói lai được thiết kế nhằm nâng cao mức độ sẵn sàng cho môi trường sản xuất đối với nhân bản giọng nói và nhắc đa ngôn ngữ. Bài báo mô tả cách tiếp cận nhằm giải quyết ba điểm yếu thường gặp trong tạo giọng nói dựa trên flow matching: cân bằng giữa tính ổn định và tự nhiên, khó bảo toàn đặc tính người nói khi chuyển ngôn ngữ, và hạn chế về độ trung thực của dạng sóng khi tái tạo âm thanh băng thông rộng từ các đặc trưng âm thanh ở tốc độ thấp.

Bản preprint của bài báo hiện được công khai trên arXiv, và các bản demo âm thanh đi kèm đã được đăng tải trên trang dự án.

Việc được chấp nhận tại ICASSP 2026 cho thấy điều gì về định hướng nghiên cứu của Speechify?

ICASSP là một trong những hội nghị hàng đầu về nghiên cứu giọng nói, âm thanh và xử lý tín hiệu, và việc được chấp nhận phản ánh sự công nhận qua bình duyệt đối với những đóng góp kỹ thuật tiên tiến. Trong bối cảnh chiến lược rộng hơn của Speechify, thành tựu này củng cố vị thế của Speechify như một công ty AI lấy giọng nói làm trọng tâm, đầu tư vào nghiên cứu nền tảng chứ không chỉ đơn thuần là bổ sung tính năng sản phẩm.

Speechify phát triển và nâng cấp công nghệ giọng nói trên các quy trình chuyển văn bản thành giọng nói, chuyển giọng nói thành văn bản và quy trình giọng nói sang giọng nói, phục vụ trải nghiệm thực tế của người dùng như nghe nội dung dài tập, phát lại tốc độ cao, nhập liệu bằng giọng nói, và tương tác bằng giọng nói dựa trên văn bản tài liệu. Khi các nhà nghiên cứu của Speechify công bố các công trình được chấp nhận tại những hội nghị lớn, điều này khẳng định rằng Speechify đang tham gia vào lĩnh vực nghiên cứu mũi nhọn, góp phần định hình cách xây dựng và đánh giá hệ thống giọng nói trong tương lai.

PFluxTTS là gì và giải quyết vấn đề nào?

PFluxTTS được mô tả là một hệ thống chuyển văn bản thành giọng nói sử dụng flow matching lai, kết hợp hai kiểu mô hình trong một quá trình suy luận duy nhất. Theo bài báo, một nhánh dựa vào hướng dẫn theo độ dài, giúp tăng sự ổn định căn chỉnh và giảm lỗi thiếu chữ. Nhánh còn lại là không phụ thuộc căn chỉnh, tăng độ trôi chảy và tự nhiên cho giọng nói. PFluxTTS kết hợp cả hai thông qua hợp nhất trường vector trong quá trình suy luận, nghĩa là hệ thống trộn hướng dẫn từ cả hai mô hình khi sinh giọng nói, thay vì chỉ chọn một.

Điều này quan trọng bởi vì nhiều nhóm phát triển sản phẩm giọng nói nhận thấy rằng mô hình nghe rất hay trong các bản demo ngắn vẫn có thể thất bại trong quy trình thực tế, đặc biệt khi nhắc lệnh bị nhiễu, đa ngôn ngữ hoặc mang tính hội thoại. Trong môi trường sản xuất, hệ thống giọng nói phải giữ được độ rõ ràng, bảo toàn bản sắc người nói và duy trì sự ổn định theo thời gian qua nhiều điều kiện nội dung và thu âm khác nhau.

PFluxTTS cải thiện độ tin cậy của nhân bản giọng nói đa ngôn ngữ như thế nào?

Nhân bản giọng nói đa ngôn ngữ là một bài toán rất khó vì nhận diện người nói không chỉ gói gọn trong một vector tĩnh. Đặc điểm người nói thực sự thay đổi theo thời gian, theo ngữ cảnh âm vị và tùy điều kiện thu âm. Bài báo cho rằng embedding người nói có chiều cố định có thể bỏ qua các dấu hiệu sắc thái thay đổi theo thời gian, vốn rất quan trọng khi ngôn ngữ nhắc lệnh khác với ngôn ngữ mục tiêu.

PFluxTTS giải quyết điều này bằng cách điều kiện hóa trên chuỗi embedding nhắc lệnh giọng nói trong bộ giải mã dựa trên FLUX, giúp bảo toàn đặc điểm người nói qua các ngôn ngữ mà không cần bản chép nhắc lệnh.

Kết quả là một hệ thống được thiết kế để giữ giọng người nói một cách ổn định, ngay cả khi nhắc lệnh bằng ngôn ngữ này nhưng giọng sinh ra bằng ngôn ngữ khác, cũng như khi nhắc lệnh được thu ngoài thực tế thay vì trong phòng thu chuyên nghiệp.

"Hợp nhất mô hình lúc suy luận" nghĩa là gì?

Hầu hết các hệ thống chỉ chọn một họ mô hình duy nhất và chấp nhận điểm yếu của nó. PFluxTTS thay vào đó sử dụng phương pháp lai khi sinh giọng nói. Bài báo mô tả việc hợp nhất hai trường vector được huấn luyện riêng biệt trong một quá trình tích phân ODE duy nhất, giúp hệ thống có thể sử dụng đường dẫn hướng dẫn theo độ dài ở giai đoạn đầu để ổn định căn chỉnh, sau đó chuyển sang nhánh không căn chỉnh để tăng độ tự nhiên và lưu loát ở giai đoạn sau.

Nói một cách đơn giản, hệ thống được thiết kế để khởi đầu an toàn và ổn định, sau đó kết thúc biểu cảm và tự nhiên, nhằm giảm bớt sự đánh đổi giữa "ổn định hoặc tự nhiên" mà các nhóm thường gặp khi triển khai mô hình giọng nói quy mô lớn.

PFluxTTS xử lý chất lượng âm thanh và tái tạo 48 kHz như thế nào?

Nhiều pipeline TTS tạo ra các đặc trưng dạng phổ mel ở độ phân giải không đủ để tái hiện chi tiết tần số cao, sau đó mới dựa vào vocoder để tái tạo âm thanh. Bài báo giới thiệu một vocoder PeriodWave đã được cải tiến, ứng dụng kỹ thuật siêu phân giải để tái tạo dạng sóng ở 48 kHz từ đặc trưng mel ở tốc độ thấp.

Đối với người dùng và nhà phát triển, việc tái tạo băng thông cao hơn có thể mang lại những âm bật rõ ràng hơn, quá trình chuyển âm sạch sẽ hơn và cảm giác tự nhiên ở dải cao chính xác hơn, đặc biệt hữu ích cho thuyết minh chuyên nghiệp hoặc nghe nội dung dài tập, nơi các hiện tượng méo/hỏng âm dễ bị nhận ra theo thời gian.

Bài báo công bố những số liệu hiệu năng nào?

Phần tóm tắt trên arXiv báo cáo rằng, trên dữ liệu đa ngôn ngữ ngoài thực địa, PFluxTTS vượt qua nhiều baseline mã nguồn mở được nêu trong tóm tắt và đạt hiệu quả tương đương baseline hàng đầu về độ tự nhiên, đồng thời cải thiện chỉ số rõ ràng và cho thấy độ tương tự người nói cao hơn so với một mô hình thương mại nổi bật trong thiết lập thử nghiệm.

Speechify khuyến khích các nhà nghiên cứu, nhà phát triển và đối tác tự mình đánh giá công trình thông qua bản preprint công khai và các demo âm thanh, được thiết kế để giúp so sánh kết quả một cách thực tiễn trong điều kiện nhắc lệnh đa ngôn ngữ ngoài đời thực.

Độc giả có thể tìm bài báo và các demo để trích dẫn và liên kết ở đâu?

Bản preprint PFluxTTS có sẵn trên arXiv với mã định danh 2602.04160, và website dự án đăng tải tóm tắt bài báo cùng các mẫu âm thanh.

Tại sao điều này lại quan trọng với tương lai của Voice AI tại Speechify?

Voice AI đang chuyển từ những demo thú vị sang hạ tầng phục vụ sử dụng hàng ngày. Sự chuyển đổi này kéo theo những tiêu chuẩn khắt khe hơn. Hệ thống phải ổn định suốt các phiên dài, xử lý nhắc lệnh đa ngôn ngữ, bảo toàn danh tính người nói và cung cấp độ trễ cũng như độ rõ ràng có thể dự đoán được trong điều kiện thực tế.

Speechify tập trung nghiên cứu đúng với những yêu cầu sản xuất thực tế đó. Những nghiên cứu như PFluxTTS thể hiện hướng đi của nghiên cứu hiện đại: kiến trúc lai thu hẹp khoảng cách giữa ổn định và tự nhiên, kỹ thuật nhân bản giọng nói mạnh mẽ áp dụng được cho đa ngôn ngữ, cùng các pipeline đầu-cuối giúp nâng cao chất lượng âm thanh đầu ra, không chỉ các đặc trưng trung gian.

Speechify sẽ tiếp tục đầu tư vào nghiên cứu thúc đẩy thực tiễn Voice AI, công bố kết quả tại các hội nghị hàng đầu và chuyển giao những tiến bộ đó thành chất lượng sản phẩm cho người dùng cùng hạ tầng giọng nói đáng tin cậy để nhà phát triển xây dựng các trải nghiệm lấy giọng nói làm trung tâm.

Về Speechify

Speechify là một công ty AI lấy giọng nói làm cốt lõi, giúp mọi người đọc, viết và hiểu thông tin thông qua giọng nói. Được hơn 50 triệu người trên toàn cầu tin dùng, Speechify cung cấp các giải pháp đọc AI, viết AI, podcast AI, ghi chú AI, họp AI và nâng cao năng suất bằng AI cho cả khách hàng cá nhân lẫn doanh nghiệp. Speechify với công nghệ và nghiên cứu độc quyền hỗ trợ giọng nói tự nhiên trên hơn 60 ngôn ngữ và được ứng dụng toàn cầu trong nhiều lĩnh vực lao động tri thức và tiếp cận cho người khuyết tật.