Speechify أعلنت اليوم أن الباحث في مختبر الذكاء الاصطناعي لديها Vikentii Pankov هو مؤلف بحث “PFluxTTS: تحويل النص إلى كلام بالتدفق الهجين مع استنساخ صوتي قوي متعدد اللغات ودمج النماذج أثناء الاستدلال”، وهو بحث تم قبوله في المؤتمر الدولي للصوتيات والكلام ومعالجة الإشارة IEEE ICASSP 2026.
يقدم هذا العمل نظام PFluxTTS، وهو نظام هجين لتحويل النص إلى كلام مصمم لتحسين جاهزية الإنتاج لاستنساخ الأصوات والاستجابة متعددة اللغات. يصف البحث منهجية تستهدف ثلاث فجوات مستمرة في أنظمة تحويل النص إلى كلام المعتمدة على مطابقة التدفق: المقايضة بين الاستقرار والطبيعية، وصعوبة الحفاظ على هوية المتحدث بين اللغات، والقيود على جودة الموجة الصوتية عند إعادة بناء الصوت كامل النطاق من ميزات أقل جودة.
نسخة ما قبل النشر من البحث متاحة للجمهور على arXiv، مع عروض صوتية توضيحية على موقع المشروع.
ماذا يعني قبول البحث في مؤتمر ICASSP 2026 بالنسبة لتوجهات أبحاث Speechify؟
يُعد ICASSP واحداً من أهم المؤتمرات في أبحاث الكلام والصوتيات ومعالجة الإشارة، ويعكس القبول فيه اعترافاً من المحكّمين بمساهمات تقنية متقدمة. في سياق استراتيجية Speechify الأوسع، يعزز هذا القبول مكانة Speechify كشركة ذكاء اصطناعي تركز على الصوت وتستثمر في الأبحاث الأساسية، وليس فقط في تطوير الميزات.
Speechify تطور وتحسن تقنيات الصوت عبر تحويل النص إلى كلام، وتحويل الكلام إلى نص، وسير العمل من صوت إلى صوت التي تدعم تجارب استخدام حقيقية، بما في ذلك الاستماع المطوّل، وسرعات التشغيل المرتفعة، والإملاء الصوتي، والتفاعل مع المستندات صوتياً. عندما ينشر باحثو Speechify أبحاثاً تُقبل في مؤتمرات كبرى، فإن ذلك يبرز وجود Speechify في طليعة الأبحاث التي ستشكّل طرق تطوير وتقييم أنظمة الصوت في السنوات المقبلة.
ما هو PFluxTTS وما المشكلة التي يحلّها؟
يقدَّم نظام PFluxTTS بوصفه نظاماً هجينا لمطابقة التدفق في تحويل النص إلى كلام، يجمع بين نمطين من النماذج في عملية استدلال واحدة. ووفقاً للبحث، أحد المسارين موجه بالمدة، مما يحسن استقرار المحاذاة ويقلل من مشكلات مثل تخطي الكلمات، بينما يعمل المسار الآخر دون توجيه المحاذاة، مما يعزز الطلاقة والطبيعة السمعية. يجمع PFluxTTS بين المسارين من خلال دمج حقول المتجه أثناء وقت الاستدلال، أي أن النظام يمزج توجيهات النموذجين أثناء عملية التوليد بدلاً من الاعتماد على نموذج واحد فقط.
تتجلى أهمية ذلك في أن العديد من الفرق التي تطوّر منتجات صوتية تكتشف أن النموذج الذي يبدو جيداً في العروض القصيرة قد يفشل في الواقع العملي، خاصة عند وجود مدخلات مشوَّشة أو متعددة اللغات أو حوارية. في بيئة الإنتاج، يجب أن يبقى نظام الصوت واضحاً، ويحافظ على هوية المتحدث، ويضمن استقرار التوقيت عبر محتوى متنوع وبيئات تسجيل مختلفة.
كيف يحسن PFluxTTS موثوقية استنساخ الصوت متعدد اللغات؟
يُعد استنساخ الصوت عبر لغات مختلفة مهمة صعبة لأن هوية المتحدث ليست متجهاً ثابتاً. فالصفات الحقيقية للمتحدث تتغير مع الزمن، والسياق الصوتي، وظروف التسجيل. يشير البحث إلى أن تمثيلات المتحدث ذات الأبعاد الثابتة قد تُهمل مؤشرات التيمبر المتغيرة زمنياً التي تزداد أهميتها عندما تختلف لغة المدخل عن اللغة المستهدفة.
يعالج PFluxTTS هذه القضية عبر الاعتماد على تسلسل تمثيلات لفّات الكلام داخل مفكك FLUX، المصمم للحفاظ بشكل أفضل على سمات المتحدث عبر اللغات من دون الحاجة لنصوص المدخل.
والنتيجة نظام مصمم للحفاظ على هوية المتحدث، حتى عندما تكون المدخلات بلغة والجمل المنتجة بلغة أخرى، وأيضاً عندما تُسجَّل المدخلات في ظروف واقعية خارج الاستوديو.
ما معنى “دمج النماذج أثناء وقت الاستدلال” بلغة بسيطة؟
معظم الأنظمة تختار فئة نموذج واحدة ثم تحاول التكيّف مع نقاط ضعفها، بينما يستخدم PFluxTTS نهجاً هجينا عند وقت التوليد. يصف البحث دمج حقلين متجهين مدرَّبين بشكل مستقل ضمن تكامل ODE واحد، بحيث يمكن للنظام الاعتماد على المسار الموجّه بالمدة لضبط المحاذاة في البداية، ثم السماح لمسار الطلاقة غير الموجَّه بالمحاذاة أن يسود في الخطوات الأخيرة من أجل طلاقة أكبر وصوت أكثر طبيعية.
بعبارة أبسط، صُمم النظام ليبدأ بشكل آمن ومستقر، ثم ينتهي بتعبيرات أكثر طبيعية، وهي طريقة عملية لتقليل المقايضة بين "الثبات أو الطبيعية" التي تواجهها الفرق غالباً عند نشر نماذج الصوت على نطاق واسع.
كيف يتعامل PFluxTTS مع جودة الصوت وإعادة البناء بدقة 48 كيلوهرتز؟
تنتج العديد من خطوط تحويل النص إلى كلام ميزات طيف ميل بدقة لا تمثل التفاصيل عالية التردد بشكل كامل، ثم تعتمد على vocoder لإعادة بناء الصوت. يقدم البحث نسخة معدلة من vocoder PeriodWave تدمج نهج الدقة الفائقة لإنتاج موجات صوتية بدقة 48 كيلوهرتز من ميزات ميل منخفضة الدقة.
بالنسبة للمستخدمين والمطورين، يمكن لإعادة البناء ضمن حيز ترددي أعلى أن تعني أصوات صفير أوضح، وانتقالات أنظف، وملمساً عالَي التردد أكثر واقعية، خاصة في السرد الاحترافي أو الاستماع لفترات طويلة حيث تصبح العيوب أكثر وضوحاً بمرور الوقت.
ما هي ادعاءات الأداء التي يطرحها البحث؟
يلخّص ملخص البحث على arXiv أن نظام PFluxTTS يتفوّق في بيانات استنساخ الصوت متعددة اللغات في البيئات الواقعية على عدة نماذج مفتوحة المصدر مذكورة في الملخص، ويحقق نتائج تضاهي النماذج الرائدة من حيث الطبيعية مع تحسن في مقاييس الوضوح، إضافة إلى تحقيقه درجة أعلى في تشابه المتحدث مع مرجع تجاري كبير ضمن الإعدادات المذكورة.
Speechify تشجع الباحثين والمطورين والشركاء على تقييم البحث مباشرة عبر نسخة ما قبل النشر والعروض الصوتية، التي صُممت لجعل النتائج مسموعة وقابلة للمقارنة في ظروف واقعية لاستنساخ متعدد اللغات.
أين يمكن للقراء العثور على البحث والعروض التوضيحية للاستشهاد والربط؟
نسخة ما قبل النشر من بحث PFluxTTS متاحة على arXiv تحت المعرّف 2602.04160، ويستضيف موقع المشروع ملخص البحث وعينات صوتية.
لماذا يُعد هذا مهماً لمستقبل الذكاء الاصطناعي الصوتي لدى Speechify؟
لم تعد تقنيات الذكاء الاصطناعي الصوتي مجرد عروض تجريبية، بل أصبحت جزءاً من البنية التحتية اليومية. هذا التحول يرفع سقف التوقعات: إذ يجب أن تبقى الأنظمة مستقرة خلال جلسات طويلة، وأن تتعامل مع مدخلات متعددة اللغات، وتحافظ على هوية المتحدث، وتضمن وقت استجابة ووضوحاً متوقعين في ظروف الحياة الواقعية.
يركّز فريق أبحاث Speechify على تلبية هذه المتطلبات الإنتاجية. أعمال مثل PFluxTTS تعكس اتجاه أبحاث الصوت الحديثة: هياكل هجينة تسد الفجوة بين الثبات والطبيعية، وطرق استنساخ صوتية أكثر قوة تعمل عبر لغات متعددة، وسلاسل معالجة متكاملة تحسن جودة الصوت النهائي وليس فقط الميزات الوسيطة.
حول Speechify
Speechify هي شركة ذكاء اصطناعي تركز على الصوت وتساعد الناس في القراءة والكتابة وفهم المعلومات باستخدام الصوت. موثوقة من قبل أكثر من 50 مليون مستخدم حول العالم، Speechify تقدم حلول قراءة وكتابة بالذكاء الاصطناعي، وبودكاستات ذكاء اصطناعي، وأدوات لتدوين الملاحظات والاجتماعات وتحسين الإنتاجية بالذكاء الاصطناعي عبر منصات الأفراد والشركات. يدعم عمل Speechify الخاص في مجال النماذج والصوتيات محاكاة الصوت الواقعي بأكثر من 60 لغة، ويُستخدم عالمياً في مجموعة واسعة من الأعمال المعرفية وحالات الاستخدام في تسهيل الوصول.