Speechify AI კვლევითი ლაბორატორიის მკვლევარს PFluxTTS ნაშრომი მიიღეს ICASSP 2026-ზე

Speechify დღეს აცხადებს, რომ Speechify AI Research Lab-ის მკვლევარი ვიკენტი პანკოვი ავტორია ნაშრომისა “PFluxTTS: ჰიბრიდული Flow Matching TTS გამძლე მრავალენოვანი ხმის კლონირებით და ინფერენციის დროს მოდელების შერწყმით.” ეს ნაშრომი მიღებულია IEEE-ის ICASSP 2026 კონფერენციაზე.

ეს კვლევა წარმოადგენს PFluxTTS-ს — ჰიბრიდულ ტექსტიდან სიტყვაზე სისტემას, რომელიც აუმჯობესებს მზადყოფნას ხმების კლონირებისა და მრავალენოვანი მითითებებისთვის. ნაშრომი გვთავაზობს მიდგომას, რომელიც სამ მთავარ ასპექტში ავითარებს flow matching ტექნოლოგიას: სტაბილურობისა და ბუნებრივობის ბალანსი, სპიკერის იდენტობის შენარჩუნების სირთულე ენებს შორის და მთლიან სპექტრში აუდიოს მაღალი ხარისხის შენარჩუნება დაბალი სიხშირის აღდგენისას.

ნაშრომის წინაბეჭდვა საჯაროდ ხელმისაწვდომია arXiv-ზე, ხოლო აუდიო დემოები განთავსებულია პროექტის ვებგვერდზე.

რას ნიშნავს ეს ICASSP 2026 მიღება Speechify-ის კვლევისთვის?

ICASSP ერთ-ერთი წამყვანი კონფერენციაა მეტყველების, აუდიოსა და სიგნალების დამუშავების კვლევაში და მიღება ტექნიკური პროგრესის აღიარებაა. Speechify-ის სტრატეგიაში ეს მიღება კიდევ უფრო აძლიერებს Speechify-ის პოზიციას როგორც ხმის-პირველი AI კომპანიისა, რომელიც რეალურად ახორციელებს ვეებერთელა მუშაობას კვლევაში და არა მხოლოდ მზა პროდუქტების დამატებაში.

Speechify ქმნის და აუმჯობესებს ხმოვან ტექნოლოგიებს ტექსტიდან ხმამდე, ხმიდან ტექსტამდე და ხმიდან ხმამდე პროცესებისთვის, რომლებიც რეალურ, ყოველდღიურ გამოცდილებას უზრუნველყოფს — მათ შორის ხანგრძლივი მოსმენა, სწრაფი დაკვრა, დიკტანტი და დოკუმენტებზე ხმოვანი ურთიერთქმედება. როცა Speechify-ის მკვლევარები საერთაშორისო კონფერენციაზე ნაშრომს აქვეყნებენ, ეს ამტკიცებს, რომ Speechify ჩართულია იმ კვლევაში, რომელიც წყვეტს, როგორ განვითარდება ხმოვანი სისტემები მომავალში.

რა არის PFluxTTS და რა პრობლემას წყვეტს?

PFluxTTS აღწერილია როგორც ჰიბრიდული flow matching ტექსტიდან სიტყვაზე სისტემა, რომელიც ერთიან ინფერენციულ პროცესში აერთიანებს ორ მოდელს. ერთი არის დიურაციაზე ორიენტირებული, რაც აუმჯობესებს სტაბილურობას და ამცირებს სიტყვების გამოტოვებას. მეორე არის თავისუფალი გასწრების, რაც ზრდის გამართულობასა და ბუნებრივობას. PFluxTTS აერთიანებს ორივეს მოდელების ვექტორული სფეროების შერწყმით რეალურ დროში, ანუ სისტემა ქმნის ნარევს, ვიდრე მხოლოდ ერთ მოდელზე ეყრდნებოდეს.

ეს მნიშვნელოვანია, რადგან ხშირად ხმის პროდუქტების მოდელი, რომელიც პატარა დემოში კარგად ჟღერს, რეალურ მუშაობაში შეიძლება ჩავარდეს, როცა მითითებები ხმაურიანია, მრავალენოვანია ან საუბრის სტილშია. წარმოებაში სისტემა უნდა დარჩეს გასაგები, შეინარჩუნოს ოდენობა და დროის სტაბილურობა რთულ პირობებშიც.

როგორ აძლიერებს PFluxTTS მრავალენოვანი ხმის კლონირების სანდოობას?

მრავალენოვანი ხმის კლონირება რთულია, რადგან სპიკერის იდენტობა სტატიკური არ არის. რეალური თვისებები იცვლება დროში, ფონეტიკურ პირობებსა და ჩაწერის გარემოში. ნაშრომში ნათქვამია, რომ ფიქსირებული სპიკერის ემბედინგები კარგავს დროში ცვალებად ნიუანსებს, რაც განსაკუთრებით მნიშვნელოვანია, როცა მითითების ენა განსხვავდება მიზნობრივი ენისგან.

PFluxTTS ამას აგვარებს იმით, რომ FLUX-ი დეკოდერში მიჰყვება ამონახსნის ემბედინგების მიმდევრობას, რითაც უკეთ ინარჩუნებს ხმის თვისებებს მეტ ენაზე, დამატებითი მითითების გარეშე.

შედეგად სისტემა ინარჩუნებს სპიკერის უნიკალურობას, თუნდაც მითითება ერთ ენაზე იყოს, ხოლო გენერირებული საუბარი — მეორეზე, ან როცა მითითებები სტუდიის გარეთაა ჩაწერილი.

რა ნიშნავს „ინფერენციის დროში მოდელების შერწყმა“ მარტივად?

ბევრი სისტემა ირჩევს მხოლოდ ერთ მოდელს თავისი პლიუს-მინუსებით. PFluxTTS გენერაციისას ჰიბრიდულ მიდგომას იყენებს. ნაშრომში აღწერილია ორი ვექტორული სფეროს სინთეზი ერთ ამოცანაში: დასაწყისში დიურაციაზე დაფუძნებული გზა ამყარებს გასწრებას, შემდგომ კი თავისუფალი გასწრება გადადის უფრო ბუნებრივ ჟღერადობაზე.

მოკლედ, სისტემა იწყებს სტაბილურობით და ასრულებს ბუნებრივობით, რაც ამცირებს ტრადიციულ კომპრომისს "ან სტაბილური ან ბუნებრივი" მასშტაბურად ხმის დამუშავებისას.

როგორ აუმჯობესებს PFluxTTS აუდიოხარისხსა და 48 kHz აღდგენას?

ბევრი TTS ქვეპროცესი ქმნის მელ-სპექტროგრამას ისე, რომ აკლია მაღალი სიხშირის დეტალები და შემდეგ ვოკოდერი აღადგენს აუდიოს. ნაშრომი გვთავაზობს შეცვლილ PeriodWave ვოკოდერს, რომელიც იყენებს სუპერ რეზოლუციას და ქმნის 48 kHz ტალღას დაბალი სიხშირის მელ-ფუნქციებიდან.

მომხმარებლისთვის და დეველოპერებისთვის მეტი ბენდი ნიშნავს უფრო მკვეთრ ბგერებს, სუფთა ტრანზიენტებს და რეალისტურ ტექსტურას, განსაკუთრებით ხანგრძლივი მოსმენისას, სადაც ხმოვანი დეტალები ყველაზე შესამჩნევია.

რას აჩვენებს ნაშრომის შედეგები?

arXiv-ის ანოტაცია ამბობს, რომ მრავალენოვან რეალურ მონაცემებზე PFluxTTS სჯობს რამდენიმე ღია ბაზისურ მოდელს, აღწერილს ანოტაციაში, აღწევს იგივე ბუნებრივობას როგორც წამყვანი მოდელი, აუმჯობესებს გასაგებადობას და აქვს უფრო მაღალი სპიკერის მსგავსება, ვიდრე კომერციულ ეტალონთან.

Speechify მოუწოდებს მკვლევრებს, დეველოპერებსა და პარტნიორებს თავად შეაფასონ შედეგი — საჯარო წინაბეჭდვისა და აუდიო დემოების მეშვეობით, რომლებიც რეალური მრავალენოვანი პირობებისთვისაა გამიზნული.

სად შეიძლება ნახოთ ნაშრომი და დემოები ციტირებისა თუ გაზიარებისთვის?

PFluxTTS-ის წინაბეჭდვა arXiv-ზეა (2602.04160), ხოლო პროექტის გვერდზე განთავსებულია მოკლე შინაარსი და აუდიო ნიმუშები.

რატომ არის ეს მნიშვნელოვანი Speechify Voice AI-ს მომავალისთვის?

Voice AI novelty-დან ყოველდღიურ ტექნოლოგიად იქცა. ეს სტანდარტს ამაღლებს: სისტემებმა უნდა შეინარჩუნონ სტაბილურობა დიდხანს, მოემსახურონ მრავალ ენას, აკონტროლონ სპიკერის იდენტობა და ქონდეთ პროგნოზირებადი ქცევა რეალურ პირობებში.

Speechify-ის მთავარი მიზანიც ამ მოთხოვნებს ერგება. PFluxTTS ასახავს თანამედროვე მეტყველების კვლევის მიმართულებას: ჰიბრიდული არქიტექტურები სტაბილურობასა და ბუნებრივობას შორის, ძლიერი კლონირება მრავალ ენაში და E2E პროცესები, რომლებიც მიმართულია აუდიოს საბოლოო ხარისხზე და არა მხოლოდ შუალედურ პარამეტრებზე.

Speechify აგრძელებს ინვესტირებას პრაქტიკული Voice AI კვლევასა და განვითარებაში, აქვეყნებს მიღწევებს წამყვან ვენიუებში და გარდაქმნის ამ მიღწევებს მომხმარებლის პროდუქტის ხარისხად და დეველოპერებისთვის სანდო ხმის ინფრასტრუქტურად.

Speechify-ის შესახებ

Speechify არის AI კომპანია ხმოვან ტექნოლოგიაში, რომელიც ეხმარება მომხმარებლებს კითხვის, წერის და ინფორმაციის გაგებაში ხმოვანი რეჟიმით. 50 მილიონზე მეტ მომხმარებელს ენდობა, Speechify უზრუნველყოფს AI წაკითხვას, წერას, AI პოდკასტებს, AI ქოუჩინგს, AI შეხვედრებს და AI პროდუქტიულობას როგორც პირად, ისე კორპორაციულ პლატფორმებზე. Speechify-ის ექსკლუზიური ხმის კვლევა და მოდელები უახლოვდება მეტყველების ბუნებრივ იმიტაციას 60-ზე მეტ ენაზე და ფართოდ გამოიყენება ცოდნისა და მიწვდომადობისთვის.