Speechify bugün yaptığı açıklamayla Speechify AI Araştırma Laboratuvarı araştırmacısı Vikentii Pankov'un "PFluxTTS: Sağlam Çapraz Dilli Ses Klonlama ve Çıkarım Zamanı Model Birleşimi ile Hibrit Flow Matching TTS" başlıklı makalesinin IEEE Uluslararası Akustik, Konuşma ve Sinyal İşleme Konferansı (ICASSP) 2026'da kabul edildiğini açıkladı.
Çalışmada, üretime hazır ses klonlama ve çok dilli istemler için geliştirilen hibrit bir metinden sese sistemi olan PFluxTTS tanıtılıyor. Makale, flow matching tabanlı konuşma üretiminde uzun süredir devam eden üç temel açığı hedefleyen bir yaklaşımı anlatıyor: stabilite ile doğallık arasındaki denge, konuşmacı kimliğini diller arasında koruma zorluğu ve düşük frekanslı akustik özelliklerden tam bant genişliğinde ses yeniden kurulduğunda ortaya çıkan sınırlı dalga formu doğruluğu.
Makaleye ait bir ön baskı arXiv'de herkese açıktır ve ilgili sesli demolar da proje web sitesinde mevcuttur.
ICASSP 2026'daki bu kabul, Speechify’ın araştırma vizyonu hakkında ne söylüyor?
ICASSP, konuşma, ses ve sinyal işleme araştırmaları için önde gelen konferanslardan biridir ve kabul edilmek, teknik katkıların hakemli olarak alandaki gelişmeleri ileriye taşıdığının güçlü bir göstergesidir. Speechify’nın daha geniş stratejik vizyonu bağlamında bu kabul, Speechify’ın yalnızca ürün özelliklerine değil, aynı zamanda temel araştırmaya da yatırım yapan ses odaklı bir AI şirketi olarak konumunu pekiştiriyor.
Speechify, metinden sese, sesten metine ve sesten sese iş akışlarında gerçek kullanıcı deneyimlerini besleyen ses teknolojileri geliştirir ve iyileştirir. Buna uzun biçimli dinleme, yüksek hızlı oynatma, dikte ve doküman tabanlı sesli etkileşim gibi özellikler dahildir. Speechify araştırmacılarının önemli konferanslarda kabul edilen çalışmalar yayımlamaları, Speechify’ın önümüzdeki yıllarda ses sistemlerinin nasıl inşa edilip değerlendirileceğine yön verecek araştırma sınırında yer aldığını gösteriyor.
PFluxTTS nedir ve hangi sorunu çözüyor?
PFluxTTS, iki ayrı model tarzını tek bir çıkarım sürecinde birleştiren hibrit flow matching bir metinden sese sistemi olarak tanımlanıyor. Makaleye göre, yollardan biri süreye rehberlik ederek hizalama stabilitesini artırmaya ve kelime atlama gibi sorunları azaltmaya yardımcı oluyor. Diğer yol ise hizalama gerektirmeden akıcılığa ve algılanan doğallığa katkı sağlıyor. PFluxTTS, çıkarım zamanında vektör alan birleştirme ile bu iki yolu bir araya getiriyor; yani sistem, yalnızca tek bir model ailesini seçmek yerine üretim sırasında iki modelin rehberliğini birlikte kullanıyor.
Bu önemlidir çünkü ses ürünü geliştiren pek çok ekip, kısa demolarında iyi ses veren bir modelin gerçek iş akışlarında tökezleyebildiğini görüyor; özellikle istemler gürültülü, çapraz dilli veya konuşma odaklı olduğunda. Üretimde bir ses sistemi, anlaşılır kalmalı, kimliği korumalı ve çeşitlendirilmiş içerik ile kayıt koşullarında zamanlamasını stabil tutmalıdır.
PFluxTTS çapraz dilli ses klonlama güvenilirliğini nasıl artırıyor?
Çapraz dilli ses klonlama zordur çünkü konuşmacı kimliği tek bir statik vektöre indirgenemez. Gerçek konuşmacı özellikleri zaman içinde, fonetik bağlama ve kayıt koşullarına göre değişir. Makalede, sabit boyutlu konuşmacı gömülü vektörlerinin, özellikle istem dili hedef dilden farklı olduğunda kritik hale gelen zamana bağlı tını ipuçlarını kaybedebileceğinden bahsediliyor.
PFluxTTS, FLUX tabanlı bir kod çözücü içinde konuşma istemi gömülü dizisini koşullandırma bilgisi olarak kullanarak, istemin metin transkriptine ihtiyaç duymadan konuşmacı formantlarını diller arasında daha iyi koruyacak şekilde tasarlanmıştır.
Ortaya çıkan sistem, konuşmacının sesini, istem ve üretilen konuşma farklı dillerde olsa bile ve istemler stüdyo dışı, doğal ortamlarda kaydedilmiş olsa dahi tanınabilir biçimde koruyacak şekilde tasarlanmıştır.
“Çıkarım zamanı model birleşimi” basitçe ne anlama geliyor?
Çoğu sistem tek bir model ailesini seçer ve onun zayıflıklarıyla yaşamak zorunda kalır. PFluxTTS ise üretim sırasında hibrit bir yaklaşım uygular. Makalede, bağımsız olarak eğitilmiş iki vektör alanının tek bir ODE entegrasyonu sırasında birleştirildiği, sistemin ilk aşamalarda hizalama stabilitesine katkı için süreye rehberlik eden yolu kullandığı, daha sonra ise akıcılık ve doğallık için hizalama gerektirmeyen yolun baskın hale geldiği anlatılıyor.
Özetle sistem, güvenli ve stabil başlayıp doğal ve ifade gücü yüksek bir çıktıyla sonlanıyor. Böylece ekiplerin büyük ölçekte ses modeli dağıtırken sıkça karşılaştığı “ya stabil ya doğal” ikilemini önemli ölçüde hafifletmek mümkün oluyor.
PFluxTTS ses kalitesi ve 48 kHz yeniden yapımına nasıl yaklaşıyor?
Birçok TTS hattı, yüksek frekans detaylarını tam yansıtmayan çözünürlükte mel spektrogram özellikleri üretir ve ardından sesi yeniden oluşturmak için bir vokoder kullanır. Makalede, düşük oranlı mel özelliklerinden 48 kHz dalga formunu yeniden oluşturmayı sağlayan süper çözünürlük yaklaşımı içeren, modifiye edilmiş bir PeriodWave vokoder tanıtılıyor.
Kullanıcılar ve geliştiriciler için daha yüksek bant genişliğinde yeniden yapılandırma; daha net sibilantlar, daha temiz geçici sesler ve daha gerçekçi yüksek frekans dokusu anlamına gelebilir. Bu da özellikle profesyonel anlatımlarda veya uzun dinlemelerde, artefaktların zamanla daha belirgin hale geldiği durumlarda fark yaratır.
Makalede hangi performans iddiaları raporlanıyor?
arXiv özetinde, doğal ortamlardan alınan çapraz dilli veriler üzerinde PFluxTTS'nin, özet bölümünde adı geçen çok sayıda açık kaynak temel sistemden daha iyi performans gösterdiği; doğallık açısından önde gelen bir temeli yakaladığı, anlaşılırlık metriklerinde iyileşme sağladığı ve rapor edilen senaryoda büyük bir ticari referansa kıyasla daha yüksek konuşmacı benzerliği sunduğu bildiriliyor.
Speechify, araştırmacıları, geliştiricileri ve iş ortaklarını çalışmayı doğrudan herkese açık önyazı ve ses demoları üzerinden değerlendirmeye davet ediyor; bu demolar, sonuçların gerçekçi çapraz dilli istem koşullarında duyulup karşılaştırılabilir olmasını amaçlıyor.
Okuyucular makaleye ve demolarına nereden ulaşabilir, nasıl atıf ve bağlantı verebilir?
PFluxTTS ön baskısı arXiv'de 2602.04160 numarasıyla mevcuttur; ayrıca proje sitesinde makale özeti ve ses örnekleri yer alıyor.
Bu, Speechify’ın Sesli AI geleceği için neden önemli?
Sesli AI, yalnızca çarpıcı demolar üretilen bir alan olmaktan çıkıp günlük altyapının parçası haline geliyor. Bu değişim beklentiyi yükseltiyor. Sistemlerin uzun oturumlarda stabil kalması, çok dilli istemleri işlemesi, konuşmacı kimliğini koruması ve gerçek dünya koşullarında öngörülebilir gecikmeyle yüksek anlaşılırlık sunması gerekiyor.
Speechify’ın araştırma odağı bu üretim gereksinimleriyle uyumlu. PFluxTTS gibi çalışmalar, modern konuşma araştırmalarının yönünü yansıtıyor: stabilite ile doğallık arasındaki açığı kapatan hibrit mimariler, diller arasında da etkin çalışan daha güçlü ses klonlama yöntemleri ve yalnızca ara özellikleri değil, nihai ses kalitesini de iyileştiren uçtan uca hatlar.
Speechify, pratik Sesli AI'yı ileriye taşıyan araştırmalara yatırım yapmaya, bulguları en iyi platformlarda yayımlamaya ve bu yenilikleri kullanıcılar için ürün kalitesine, geliştiriciler için ise güvenilir ses altyapısına dönüştürmeye devam edecek.
Speechify Hakkında
Speechify, insanların konuşma yoluyla okumasına, yazmasına ve bilgiyi anlamasına yardımcı olan ses odaklı bir AI şirketidir. Dünya genelinde 50 milyondan fazla kullanıcı tarafından tercih edilen Speechify, AI okuma, AI yazma, AI podcast, AI not alma, AI toplantılar ve AI verimlilik çözümlerini bireysel ve kurumsal platformlarda bir arada sunar. Speechify'ın kendine özgü ses araştırmaları ve modelleri, 60’tan fazla dilde gerçekçi konuşma üretir ve dünya çapında çok çeşitli bilgi işleri ile erişilebilirlik kullanım senaryolarında aktif olarak kullanılır.