1. मुखपृष्ठ
  2. समाचार
  3. Speechify AI रिसर्च लैब के शोधकर्ता का PFluxTTS पेपर ICASSP 2026 में स्वीकार हुआ
13 फ़रवरी 2026

Speechify AI रिसर्च लैब के शोधकर्ता का PFluxTTS पेपर ICASSP 2026 में स्वीकार हुआ

Speechify ने घोषणा की कि उसके शोधकर्ता का PFluxTTS पेपर ICASSP 2026 में स्वीकृत हो गया है, जिसमें हाइब्रिड फ्लो मैचिंग TTS, मजबूत क्रॉस-लिंगुअल वॉयस क्लोनिंग और 48 kHz डेमो का विवरण दिया गया है।

Speechify ने आज घोषणा की कि Speechify AI रिसर्च लैब के शोधकर्ता विकेंटी पैंकोव "PFluxTTS: हाइब्रिड फ्लो मैचिंग TTS विद रोबस्ट क्रॉस-लिंगुअल वॉयस क्लोनिंग एंड इन्फेरेंस टाइम मॉडल फ्यूजन" नामक पेपर के लेखक हैं, जिसे IEEE इंटरनेशनल कॉन्फ्रेंस ऑन एकॉस्टिक्स, स्पीच एंड सिग्नल प्रोसेसिंग (ICASSP) 2026 के लिए स्वीकार किया गया है। 

यह काम PFluxTTS पेश करता है, जो एक हाइब्रिड टेक्स्ट-टू-स्पीच सिस्टम है, जिसे वॉयस क्लोनिंग और मल्टीलिंगुअल प्रॉम्प्टिंग के प्रोडक्शन-स्तर के उपयोग के लिए बनाया गया है। पेपर ऐसी पद्धति का वर्णन करता है जो फ्लो मैचिंग आधारित स्पीच जेनरेशन में तीन बड़ी चुनौतियों को सीधे निशाना बनाती है: स्थिरता और प्राकृतिकता के बीच संतुलन, भाषाओं के बीच स्पीकर पहचान को बनाए रखने की मुश्किल, और कम रेट एकॉस्टिक फीचर्स से फुल बैंडविड्थ ऑडियो दुबारा बनाते समय सीमित वेवफॉर्म गुणवत्ता। 

पेपर का प्रीप्रिंट सार्वजनिक रूप से arXiv पर उपलब्ध है, और उससे जुड़े ऑडियो डेमो प्रोजेक्ट वेबसाइट पर सुने जा सकते हैं। 

ICASSP 2026 में स्वीकृति से Speechify के रिसर्च डायरेक्शन के बारे में क्या संकेत मिलता है?

ICASSP भाषण, ऑडियो और सिग्नल प्रोसेसिंग अनुसंधान के लिए प्रमुख सम्मेलनों में से एक है, और स्वीकृति इस काम के तकनीकी योगदानों की पीयर-रिव्यू मान्यता को दर्शाती है, जो शोध के क्षेत्र को आगे बढ़ाती है। Speechify की व्यापक रणनीति के संदर्भ में, यह स्वीकृति Speechify की स्थिति को एक वॉयस-फर्स्ट AI कंपनी के रूप में और मजबूत करती है, जो सिर्फ प्रोडक्ट फीचर्स ही नहीं, बल्कि बुनियादी रिसर्च में भी लगातार निवेश करती है।

Speechify टेक्स्ट-टू-स्पीच, स्पीच-टू-टेक्स्ट और स्पीच-टू-स्पीच वर्कफ़्लो जैसे क्षेत्रों में वॉयस टेक्नोलॉजी बनाता और बेहतर करता है, जो असली यूज़र अनुभवों को संभव बनाते हैं, जैसे लंबे समय तक सुनना, हाई-स्पीड प्लेबैक, डिक्टेशन और दस्तावेज़-आधारित वॉयस इंटरैक्शन। जब Speechify के शोधकर्ताओं का काम बड़े सम्मेलनों में स्वीकार होता है, तो यह साफ करता है कि Speechify उस रिसर्च फ्रंटियर का हिस्सा है, जो तय करता है कि आने वाले वर्षों में वॉयस सिस्टम कैसे बनाए और परखे जाएंगे।

PFluxTTS क्या है और यह कौन सी समस्या हल कर रहा है?

PFluxTTS को एक हाइब्रिड फ्लो मैचिंग टेक्स्ट-टू-स्पीच सिस्टम के रूप में वर्णित किया गया है, जो एक ही इन्फेरेंस प्रक्रिया में दो मॉडल शैलियों को जोड़ता है। पेपर के अनुसार, एक पथ ड्यूरेशन-गाइडेड है, जो अलाइनमेंट स्थिरता को बेहतर बनाता है और वर्ड स्किपिंग जैसे मुद्दों को कम करता है। दूसरा पथ अलाइनमेंट-फ्री है, जिससे प्रवाहिता और प्राकृतिकता बढ़ती है। PFluxTTS दोनों को इन्फेरेंस टाइम वेक्टर फील्ड फ्यूजन के जरिए जोड़ता है, यानी सिस्टम जेनरेशन प्रक्रिया के दौरान दोनों मॉडलों के मार्गदर्शन को साथ लेकर चलता है, सिर्फ किसी एक को चुनने के बजाय। 

यह इसलिए अहम है क्योंकि कई वॉयस प्रोडक्ट बनाने वाली टीमें देखती हैं कि कोई मॉडल जो छोटी डेमो में बहुत अच्छा लगता है, असली वर्कफ़्लो में लड़खड़ा सकता है, खासकर जब प्रॉम्प्ट शोरगुल वाले, क्रॉस-लिंगुअल या बहुत बातचीत वाले हों। प्रोडक्शन में, किसी वॉयस सिस्टम को अलग-अलग तरह की सामग्री और रिकॉर्डिंग परिस्थितियों में समझने योग्य, पहचान-सुरक्षित और टाइमिंग के लिहाज से स्थिर रहना पड़ता है।

PFluxTTS क्रॉस-लिंगुअल वॉयस क्लोनिंग की विश्वसनीयता को कैसे सुधारता है?

क्रॉस-लिंगुअल वॉयस क्लोनिंग मुश्किल है क्योंकि स्पीकर पहचान कोई स्थिर वेक्टर नहीं होती। असली स्पीकर की आवाज़ की खूबियाँ समय, ध्वन्यात्मक संदर्भ और रिकॉर्डिंग की परिस्थितियों के साथ बदलती रहती हैं। पेपर में तर्क दिया गया है कि स्थिर आयाम वाले स्पीकर एम्बेडिंग्स समयानुसार बदलने वाले टिम्बर संकेतों को दबा सकते हैं, जो खास तौर पर तब ज़्यादा अहम हो जाते हैं जब प्रॉम्प्ट भाषा लक्ष्य भाषा से अलग हो।

PFluxTTS इसे FLUX-बेस्ड डिकोडर के अंदर भाषण प्रॉम्प्ट एम्बेडिंग्स के अनुक्रम पर कंडीशनिंग करके हल करता है, जिसे अलग-अलग भाषाओं में भी स्पीकर की विशेषताओं को बिना प्रॉम्प्ट ट्रांस्क्रिप्ट की ज़रूरत के बरकरार रखने के लिए डिज़ाइन किया गया है। 

नतीजतन, सिस्टम इस तरह से तैयार किया गया है कि वह स्पीकर की आवाज़ को बनाए रखता है, भले ही प्रॉम्प्ट एक भाषा में हो और जेनरेट की गई स्पीच दूसरी भाषा में, और भले ही प्रॉम्प्ट स्टूडियो के बजाय वास्तविक परिस्थितियों में रिकॉर्ड किया गया हो।

"इन्फेरेंस टाइम मॉडल फ्यूजन" का सीधा अर्थ क्या है?

अधिकतर सिस्टम एक ही मॉडल परिवार चुनते हैं और फिर उसकी कमियों के साथ समझौता कर लेते हैं। PFluxTTS इसके बजाय जेनरेशन के समय हाइब्रिड तरीका अपनाता है। पेपर में बताया गया है कि दो स्वतंत्र रूप से प्रशिक्षित वेक्टर फील्ड्स को एक ही ODE इंटीग्रेशन के दौरान जोड़ दिया जाता है, ताकि सिस्टम शुरुआती चरणों में ड्यूरेशन-गाइडेड पथ पर ज़्यादा निर्भर रह सके और अलाइनमेंट स्थिरता सुनिश्चित कर सके, और फिर बाद के चरणों में प्रवाहिता और प्राकृतिकता के लिए अलाइनमेंट-फ्री पथ को ज़्यादा असरदार होने दे। 

सीधे शब्दों में कहें तो, सिस्टम को इस तरह डिज़ाइन किया गया है कि वह शुरुआत में सुरक्षा और स्थिरता को तरजीह दे और अंत में ज़्यादा अभिव्यक्तिपूर्ण और प्राकृतिक ढंग से बोले, जो बड़े पैमाने पर वॉयस मॉडल तैनात करते समय टीमों के सामने आने वाले "या तो स्थिर या प्राकृतिक" वाले समझौते को व्यावहारिक रूप से कम करता है।

PFluxTTS ऑडियो गुणवत्ता और 48 kHz पुनर्निर्माण को कैसे संबोधित करता है?

कई TTS पाइपलाइन्स ऐसे मेल स्पेक्ट्रोग्राम फीचर्स जेनरेट करती हैं, जिनकी रिज़ॉल्यूशन उच्च आवृत्ति विस्तार को पूरी तरह कैप्चर नहीं कर पाती, और फिर ऑडियो पुनर्निर्माण के लिए वोकाडर पर निर्भर रहती हैं। पेपर में एक संशोधित PeriodWave वोकाडर पेश किया गया है, जिसमें सुपर-रेज़ोल्यूशन दृष्टिकोण शामिल किया गया है, जो कम रेट मेल फीचर्स से 48 kHz वेवफॉर्म पुनर्निर्माण करने में सक्षम है। 

यूज़र्स और डेवलपर्स के लिए, हाई-बैंडविड्थ पुनर्निर्माण का मतलब हो सकता है ज़्यादा साफ सिबिलेंट्स, कम शोर वाले ट्रैंजिएंट्स और अधिक यथार्थवादी उच्च आवृत्ति बनावट, खास तौर पर प्रोफेशनल वाचन या लंबे समय तक सुनने के लिए, जहां समय के साथ आर्टिफैक्ट्स ज़्यादा साफ दिखने लगते हैं।

पेपर में कौन से प्रदर्शन दावे किए गए हैं?

arXiv सारांश में बताया गया है कि जंगली क्रॉस-लिंगुअल डेटा पर, PFluxTTS ने सारांश में वर्णित कई ओपन सोर्स बेसलाइनों की तुलना में बेहतर प्रदर्शन किया, प्राकृतिकता में एक प्रमुख बेसलाइन के बराबर स्तर हासिल किया और इंटेलिजिबिलिटी मेट्रिक्स में सुधार दर्ज किया, साथ ही रिपोर्ट किए गए सेटअप में एक अहम कमर्शियल रेफरेंस की तुलना में ज़्यादा स्पीकर समानता दिखाई। 

Speechify शोधकर्ताओं, डेवलपर्स और पार्टनर्स को प्रोत्साहित करता है कि वे सीधे पब्लिक प्रीप्रिंट और ऑडियो डेमो के ज़रिए इस काम का मूल्यांकन करें, जिन्हें यथार्थवादी क्रॉस-लिंगुअल प्रॉम्प्टिंग परिस्थितियों में सुनकर और तुलना योग्य नतीजों के लिए तैयार किया गया है। 

पाठक पेपर और डेमो कहाँ पा सकते हैं जिन्हें उद्धृत या लिंक किया जा सके?

PFluxTTS का प्रीप्रिंट arXiv पर 2602.04160 पहचानकर्ता के तहत उपलब्ध है, और प्रोजेक्ट साइट पर पेपर का सारांश और ऑडियो सैंपल सुने जा सकते हैं। 

Speechify की Voice AI के भविष्य के लिए यह क्यों महत्वपूर्ण है?

Voice AI अब सिर्फ नवाचार नहीं, बल्कि रोज़मर्रा के इन्फ्रास्ट्रक्चर का हिस्सा बनती जा रही है। यह बदलाव मानक को और ऊँचा कर देता है। सिस्टम्स को लंबे सत्रों के दौरान स्थिर रहना चाहिए, मल्टीलिंगुअल प्रॉम्प्ट्स संभालने चाहिए, स्पीकर की पहचान बरकरार रखनी चाहिए, और वास्तविक परिस्थितियों में भरोसेमंद लेटेंसी और समझने की क्षमता देनी चाहिए।

Speechify का रिसर्च फोकस इन्हीं प्रोडक्शन ज़रूरतों के अनुरूप है। PFluxTTS जैसा काम आधुनिक स्पीच रिसर्च की दिशा दिखाता है: हाइब्रिड आर्किटेक्चर जो स्थिरता और प्राकृतिकता के बीच की खाई पाटते हैं, मजबूत वॉयस क्लोनिंग मेथड्स जो भाषाओं के बीच भी काम करते हैं, और ऐसे एंड-टू-एंड पाइपलाइन जो सिर्फ बीच के फीचर्स नहीं, बल्कि अंतिम ऑडियो गुणवत्ता को बेहतर बनाते हैं।

Speechify व्यावहारिक वॉयस AI को आगे बढ़ाने वाले रिसर्च में निवेश करने, शीर्ष सम्मेलनों में शोध प्रकाशित करने और उन उपलब्धियों को यूज़र्स के लिए प्रोडक्ट गुणवत्ता और डेवलपर्स के लिए भरोसेमंद वॉयस इन्फ्रास्ट्रक्चर में बदलते रहने के लिए प्रतिबद्ध है।

Speechify के बारे में

Speechify एक वॉयस-फर्स्ट AI कंपनी है, जो लोगों को जानकारी पढ़ने, लिखने और समझने में भाषण के ज़रिए मदद करती है। 5 करोड़ से ज़्यादा यूज़र्स द्वारा भरोसा किया गया Speechify AI रीडिंग, AI राइटिंग, AI पॉडकास्ट, AI नोट-टेकिंग, AI मीटिंग्स और AI प्रोडक्टिविटी को कंज़्यूमर और एंटरप्राइज़ प्लेटफॉर्म्स पर संभव बनाता है। Speechify का स्वामित्व वाला वॉयस रिसर्च और मॉडल कार्य 60 से अधिक भाषाओं में असली जैसी स्पीच को सक्षम करता है और दुनिया भर में व्यापक नॉलेज वर्क और एक्सेसिबिलिटी उपयोग मामलों में काम आता है।