1. الصفحة الرئيسية
  2. تحويل النص إلى كلام
  3. تاريخ موجز لتحويل النص إلى كلام

تاريخ موجز لتحويل النص إلى كلام

Tyler Weitzman

تايلر ويتزمان

حاصل على ماجستير في علوم الحاسوب من جامعة ستانفورد، مناصر لذوي عُسر القراءة وإتاحة الوصول، المؤسس والمدير التنفيذي لـ Speechify

قارئ النص إلى كلام رقم 1.
دع Speechify يقرأ لك.

apple logoجائزة آبل للتصميم 2025
أكثر من 50 مليون مستخدم

أصبحت تقنيات توليد الكلام، أو الإنتاج الاصطناعي للصوت البشري، أكثر تطورًا قفزةً هائلة خلال السبعين عامًا الماضية. سواء كنت تستخدم اليوم خدمات تحويل النص إلى كلام للاستماع إلى الكتب، أو للدراسة، أو لمراجعة أعمالك المكتوبة، فلا شك أن هذه الخدمات سهّلت حياة الناس في طيف واسع من المهن.

سنُلقي هنا نظرة على كيفية عمل تحويل النص إلى كلام، وكيف تطوّرت هذه التقنية المُساعِدة مع مرور الوقت.

مقدمة

في القرن الثامن عشر، أنشأ الأستاذ الروسي كريستيان كراتزينشتاين مُرنانات صوتية تحاكي صوت الإنسان. بعد عقدين، حقق جهاز VODER (مُعرض تشغيل الصوت) ضجة كبيرة في معرض نيويورك العالمي حين عرض مخترعه هومر دادلي على الجمهور كيف يمكن إنشاء الكلام البشري بوسائل صناعية. كان تشغيل الجهاز صعبًا—فكان على دادلي التحكّم في التردّد الأساسي باستخدام دواسات القدم.

في أوائل القرن التاسع عشر، طوّر تشارلز ويتهويز أول مُولِّد كلام ميكانيكي، ما أشعل وتيرةً سريعة لتطوّر أدوات وتقنيات التخليق النطقي.

قد يكون من الصعب تحديد ما الذي يجعل برنامج تحويل النص إلى كلام جيدًا بالضبط، لكن—as في أمور كثيرة بالحياة—تعرفه حين تسمعه. يوفّر برنامج تحويل نص إلى كلام عالي الجودة أصواتًا تبدو طبيعية بإحساس ونبرة أقرب إلى الكلام الحقيقي.

تساعد تقنية تحويل النص إلى كلام الأشخاص ضعاف البصر ومن يعيشون مع إعاقات أخرى على الوصول إلى المعلومات التي يحتاجونها للتفوّق في العمل والتواصل مع الآخرين. كما تتيح البرمجيات للطلاب وغيرهم ممّن يواجهون أعباء قراءة كبيرة الاستماع إلى موادهم بصوت بشري أثناء التنقّل. يتيح الكلام الاصطناعي للناس إنجاز المزيد في وقت أقل، ويمكن أن يكون مفيدًا في شتى المجالات، من إنشاء ألعاب الفيديو إلى مساعدة الأشخاص الذين يعانون من اختلافات في معالجة اللغة.

الخمسينيات والستينيات من القرن العشرين

في أواخر خمسينيات القرن العشرين، أُنشئت أولى أنظمة توليد الكلام المعتمِدة على الحاسوب. في عام 1961، استخدم الفيزيائي جون لاري كيلي جونيور، في مختبرات بيل، حاسوبًا من آي بي إم لتوليد الكلام. أعاد جهاز الفوكودر لديه إنتاج أغنية Daisy Bell.

في الوقت الذي كان كيلي يُحسّن فيه فوكوْدره، استلهم آرثر سي. كلارك، مؤلف رواية 2001: أوديسة الفضاء، ذلك العرض فأدرجه في سيناريو كتابه. خلال المشهد، يغنّي الحاسوب HAL 9000 أغنية Daisy Bell.

في عام 1966، ظهرت طريقة التنبؤ الخطي بالترميز. بدأ تطوير هذه الشيفرة الصوتية على يد فوميتادا إيتاكورا وشوزو سايتو. كما ساهم بيشنو س. أتال ومانفريد ر. شرودر في تطوير التنبؤ الخطي بالترميز.

السبعينيات

في عام 1975، طوّر إيتاكورا طريقة الأزواج الطيفية الخطية. ساعدت هذه الطريقة عالية الضغط في تحليل الكلام على تعميق فهم تحليل الكلام وتوليفه، وكشف مواطن الضعف وكيفية تحسينها.

خلال العام نفسه، صدر نظام MUSA. هذا النظام المستقل لتوليد الكلام استخدم خوارزمية لـ قراءة الإيطالية بصوت عالٍ. وجاءت نسخة بعد ثلاث سنوات قادرة على الغناء بالإيطالية.

في السبعينيات، تم تطوير أول مُركّب نطقي تقريبي يستند إلى مجرى النطق البشري. طوّر توم بير وباول ميرميلستين وفيليب روبين في مختبرات هاسكينز أول مُركّب معروف، مستخدمين معلومات من نماذج مجرى الكلام التي أُنشئت في مختبرات بيل في ستينيات وسبعينيات القرن العشرين.

في عام 1976، قُدِّمت أجهزة كورزويل للقراءة للمكفوفين. وعلى الرغم من أن هذه الأجهزة كانت باهظة الثمن للغاية بالنسبة للعامة، فقد وفّرتها المكتبات كثيرًا للأشخاص ضعاف البصر للاستماع إلى الكتب صوتيًا.

أصبح التنبؤ الخطي بالترميز نقطة انطلاق لرقائق المُركّب. اعتمدت رقائق الكلام LPC من شركة تكساس إنسترومنتس وألعاب Speak & Spell في أواخر السبعينيات على تقنية رقائق المُركّب. كانت هذه الألعاب أمثلة مبكرة على توليد صوت بشري بنبرات دقيقة، تميّزه عن الأصوات الاصطناعية ذات الطابع الآلي الشائعة آنذاك. وشاعت خلال هذا العقد أجهزة محمولة عديدة قادرة على توليد الكلام، من بينها آلة Telesensory Systems Speech+ للمكفوفين. وصدر في عام 1979 جهاز Fidelity Voice Chess Challenger، وهو حاسوب شطرنج قادر على توليد الكلام.

الثمانينيات

في الثمانينيات، بدأت تقنية توليف الكلام تهز عالم ألعاب الفيديو. صدرت في عام 1980 لعبة Stratovox (لعبة أركيد من نوع التصويب) من شركة Sun Electronics. وكانت لعبة Manbiki Shoujo (المترجمة إلى الإنجليزية Shoplifting Girl) أول لعبة على الحواسيب الشخصية تدعم توليف الكلام. كما صدرت اللعبة الإلكترونية Milton في عام 1980– وكانت أول لعبة إلكترونية من شركة The Milton Bradley Company تدعم توليد الصوت البشري.

في عام 1983، ظهرت آلة نطق صوتي-ميكانيكي مستقل تُسمى DECtalk. كانت DECtalk تُفسّر التهجئات الصوتية للكلمات، ما أتاح ضبط نطق الكلمات غير المألوفة. كما كان بالإمكان أن تتضمن هذه التهجئات الصوتية مؤشرات للنغمة تستخدمها DECtalk عند نطق المقاطع الصوتية. سمح ذلك لـ DECtalk بالغناء.

في أواخر الثمانينيات، أنشأ ستيف جوبز شركة NeXT، واعتمد نظامًا طوّرته Trillium Sound Research. ورغم أن NeXT لم تلقَ انتشارًا واسعًا، دمج جوبز في النهاية البرنامج مع Apple في التسعينيات.

1990s

كانت الإصدارات المبكرة لأنظمة تحويل النص إلى كلام تبدو آلية بوضوح، لكن ذلك بدأ يتغير في أواخر الثمانينيات وبدايات التسعينيات. سمحت الصوامت الأكثر سلاسة للآلات الناطقة بالتخلص من النبرة الإلكترونية والاقتراب من الصوت البشري. في عام 1990، طوّرت آن سيردال في مختبرات AT&T Bell صوتًا اصطناعيًا أنثويًا. عمل المهندسون على جعل الأصوات أكثر طبيعية خلال التسعينيات.

في عام 1999، أطلقت مايكروسوفت Narrator، وهو قارئ شاشة أصبح الآن مدمجًا في كل نسخة من Microsoft Windows.

2000s

واجه توليف الكلام بعض العثرات خلال العقد الأول من الألفية، حيث كافح المطورون لإنشاء معايير متفق عليها للكلام المُركّب. لأن الكلام فردي للغاية، يصعب على الناس حول العالم الاتفاق على النطق الصحيح للفونيمات والديفونيمات والتنغيم والنبرة وإيقاعات الكلام ومنحنياته النبرية.

أصبحت جودة صوت توليف الكلام بالاعتماد على التشكيل (formant synthesis) مصدر قلق أكبر أيضًا في التسعينيات، حيث لاحظ المهندسون والباحثون أن جودة الأنظمة المستخدمة في المختبر لتوليد الكلام المُركّب كانت غالبًا أكثر تقدمًا بكثير من الأجهزة التي يمتلكها المستخدم. عندما يتذكر الناس توليف الكلام، يفكر كثيرون في مُركِّب صوت ستيفن هوكينغ، الذي وفّر صوتًا آليًا بطابع بشري محدود.

في عام 2005، توصّل الباحثون أخيرًا إلى قدر من التوافق وبدأوا استخدام مجموعة بيانات صوتية مشتركة، ما أتاح لهم الانطلاق من أرضية متقاربة عند إنشاء أنظمة توليف كلام متقدمة.

في عام 2007، أُجريت دراسة أظهرت أن المستمعين يستطيعون تحديد ما إذا كان المتحدث يبتسم أم لا. ويواصل الباحثون العمل لمعرفة كيفية استثمار هذه المعلومات لإنشاء برامج تعرّف على الكلام وتوليف كلام أكثر طبيعية.

2010s

اليوم، منتجات توليف الكلام التي تستخدم الإشارات الصوتية موجودة في كل مكان، من Siri إلى Alexa. لا تكتفي المولّدات الصوتية الإلكترونية بجعل الحياة أسهل–بل تجعلها أكثر متعة أيضًا. سواء كنت تستخدم نظام تحويل النص إلى كلام للاستماع إلى الروايات أثناء التنقل أو تستخدم تطبيقات تسهّل تعلم لغة أجنبية، فهناك احتمال كبير أنك تستعين بتقنية تحويل النص إلى كلام لتحفيز عقلك يوميًا.

المستقبل

في السنوات القادمة، من المرجّح أن تركّز تقنية توليف الصوت على إنشاء نموذج للدماغ لفهم أفضل لكيفية ترميزنا لبيانات الكلام في أذهاننا. ستسعى تكنولوجيا الكلام أيضًا إلى فهم أعمق للدور الذي تلعبه العاطفة في الكلام، وستستخدم هذه المعلومات لإنشاء أصوات ذكاء اصطناعي لا تُميَّز عن أصوات البشر الحقيقيين.

أحدث ما في تكنولوجيا توليف الصوت: Speechify

عند استرجاع التحولات التي مرت بها تقنيات توليف الكلام سابقًا، من المذهل تخيل مدى التقدم العلمي الذي تحقق. اليوم، تجعل تطبيقات مثل Speechify من السهل تحويل أي نص إلى ملفات صوتية. بلمسة زر (أو نقرة على تطبيق)، تستطيع Speechify أن تأخذ المواقع الإلكترونية والمستندات وصور النص وتحوّلها إلى كلام يبدو طبيعيًا. تتزامن مكتبة Speechify على جميع أجهزتك، ما يجعل من السهل الاستمرار في التعلم والعمل أثناء التنقّل. اطلع على تطبيق Speechify على متجر تطبيقات Apple، وكذلك على أندرويد عبر متجر Google Play.  

الأسئلة الشائعة

من اخترع تحويل النص إلى كلام؟

نوريكو أوميدا هي من ابتكرت تحويل النص إلى كلام للغة الإنجليزية. طُوّر النظام في المختبر الكهروتقني في اليابان عام 1968.

ما هو هدف تحويل النص إلى كلام؟

يستخدم الكثيرون تقنية تحويل النص إلى كلام. ولمن يفضّلون الحصول على المعلومات بصيغة صوتية، تقنية تحويل النص إلى كلام تسهّل الوصول إلى مواد العمل والدراسة من دون قضاء ساعات منكبين على الكتب. كما يلجأ المحترفون المشغولون إلى تحويل النص إلى كلام للبقاء على اطّلاع بأعمالهم عندما يتعذّر عليهم الجلوس أمام شاشة الكمبيوتر. طُوِّرت كثير من تقنيات تحويل النص إلى كلام أصلًا لمساندة ذوي ضعف البصر، ولا تزال وسيلة ممتازة لمن يعانون صعوبة في الرؤية للوصول إلى ما يحتاجون من معلومات.

كيف يتم تركيب الكلام؟

تُخزَّن مقاطع الكلام المسجَّلة في قاعدة بيانات على هيئة وحدات متنوّعة. يختار البرنامج هذه الوحدات ويؤلّف منها ملفات صوتية، لينتج صوتًا مُركَّبًا. وغالبًا، كلما اتّسع نطاق إخراج البرنامج زادت صعوبة الحفاظ على وضوح الصوت للمستخدمين.

استمتع بأذكى الأصوات وأكثرها تقدّمًا، وبعددٍ غير محدود من الملفات، ودعمٍ على مدار الساعة

جرّب مجانًا
tts banner for blog

شارك هذا المقال

Tyler Weitzman

تايلر ويتزمان

حاصل على ماجستير في علوم الحاسوب من جامعة ستانفورد، مناصر لذوي عُسر القراءة وإتاحة الوصول، المؤسس والمدير التنفيذي لـ Speechify

تايلر ويتزمان هو الشريك المؤسس ورئيس الذكاء الاصطناعي والرئيس التنفيذي في Speechify، تطبيق تحويل النص إلى كلام الأول عالميًا، والذي حصد أكثر من 100 ألف تقييم بخمس نجوم. حصل ويتزمان على بكالوريوس في الرياضيات وماجستير في علوم الحاسوب من جامعة ستانفورد ضمن مسار الذكاء الاصطناعي. اختارته مجلة Inc. ضمن أفضل 50 رائد أعمال، وتناولته بالحديث منصات مثل Business Insider وTechCrunch وLifeHacker وCBS وغيرها. تركّزت أبحاثه لنيل الماجستير على الذكاء الاصطناعي وتقنية تحويل النص إلى كلام، وجاء عنوان مشروعه الختامي: “CloneBot: تنبؤات الاستجابة الحوارية المخصّصة.”

speechify logo

حول Speechify

قارئ النص إلى كلام رقم 1

Speechify هي المنصة الرائدة عالميًا في تحويل النص إلى كلام، يثق بها أكثر من 50 مليون مستخدم، ويدعمها أكثر من 500,000 تقييم بخمس نجوم عبر تطبيقاتها على iOS، Android، امتداد Chrome، تطبيق الويب، وتطبيقات سطح المكتب على Mac. في عام 2025، منحت شركة Apple Speechify جائزة Apple Design Award المرموقة في WWDC، ووصفتها بأنها "مورد حيوي يساعد الناس على عيش حياتهم." تقدّم Speechify أكثر من 1000 صوت طبيعي بأكثر من 60 لغة، وتُستخدم في قرابة 200 دولة. ومن بين الأصوات الشهيرة Snoop Dogg، Mr. Beast، وGwyneth Paltrow. للمبدعين والشركات، يوفّر Speechify Studio أدوات متقدمة، بما فيها AI Voice Generator، AI Voice Cloning، AI Dubbing، وAI Voice Changer. كما تزوّد Speechify أبرز المنتجات بواجهة برمجة تطبيقات لتحويل النص إلى كلام عالية الجودة وموفّرة للتكلفة text to speech API. وقد تناولتها The Wall Street Journal، CNBC، Forbes، TechCrunch، وغيرها من كبريات وسائل الإعلام، وتُعد Speechify أكبر مزوّد لتحويل النص إلى كلام في العالم. تفضّل بزيارة speechify.com/news، speechify.com/blog، وspeechify.com/press لمعرفة المزيد.