مع استثمار شركات OpenAI و Anthropic والشركات التقنية الكبرى مليارات الدولارات في تطوير نماذج لغوية كبيرة متطورة، يعمل فريق صغير من الباحثين المتميزين في مجال الذكاء الاصطناعي على ما يعتقدون أنه التطور الكبير التالي: نماذج العالم (World Models). يهدف هذا النهج الجديد إلى تجاوز القيود الحالية للذكاء الاصطناعي من خلال محاكاة الطريقة التي يبني بها البشر فهمًا للعالم من حولهم.
يضم هذا الفريق علماء كمبيوتر بارزين مثل فيفي لي، أستاذة ستانفورد الشهيرة باختراعها ImageNet، ويان ليكون، العالم الرئيسي في مجال الذكاء الاصطناعي في Meta (الذي سيغادر منصبه في نهاية العام). يركز هؤلاء الباحثون على تطوير أنظمة ذكاء اصطناعي قادرة على توقع الأحداث بناءً على فهمها للعلاقات السببية، على غرار الطريقة التي يستخدم بها البشر حدسهم وخبراتهم.
ما هي نماذج العالم ولماذا هي مهمة؟
تختلف نماذج العالم بشكل جوهري عن النماذج اللغوية الكبيرة. فالنماذج اللغوية تعتمد على العلاقات الإحصائية بين الكلمات والعبارات لإنتاج مخرجاتها. بينما تسعى نماذج العالم إلى محاكاة البنية الذهنية التي يستخدمها البشر لفهم العالم والتفاعل معه. كما أوضحت فيفي لي، “البشر لا ننجو ونعيش ونعمل فحسب، بل نبني الحضارة بما يتجاوز اللغة.”
ببساطة، نماذج العالم هي أنظمة ذكاء اصطناعي تتوقع ما سيحدث بعد ذلك، تمامًا مثلما يستخدم البشر حدسهم القائم على الخبرة للتنبؤ بعواقب أفعالهم. على سبيل المثال، يمكن للطفل، حتى بدون مهارات لغوية، أن يتعلم أن دفع سيارة لعبة سيؤدي إلى تدحرجها. هذا الفهم الأساسي للعلاقات السببية هو ما تسعى نماذج العالم إلى تجسيده في الذكاء الاصطناعي.
التحديات في بناء نماذج العالم
أحد أكبر التحديات التي تواجه بناء نماذج العالم هو نقص البيانات الكافية. في حين أن اللغة قد تم تحسينها وتوثيقها على مدى قرون، فإن الفهم المكاني والقدرة على التفكير في العالم المادي أقل تطوراً في مجال الذكاء الاصطناعي. كما أشارت لي، “ليس لدينا الكثير من القدرة على توليد نماذج معقدة للغاية حتى يتم تدريبنا.”
يتطلب جمع البيانات اللازمة لهذه النماذج “هندسة بيانات أكثر تطوراً، واكتساب البيانات، ومعالجة البيانات، وتجميع البيانات”، وفقًا لتصريحات لي. وهذا يجعل مهمة بناء عالم افتراضي مقنع أكثر صعوبة.
المبادرات الرائدة في تطوير نماذج العالم
تتجه جهود تطوير نماذج العالم نحو عدة مبادرات رئيسية. فيفي لي تعمل على هذا من خلال World Labs، التي شاركت في تأسيسها عام 2024 بدعم أولي قدره 230 مليون دولار من شركات رأس المال الاستثماري. تهدف World Labs إلى “رفع نماذج الذكاء الاصطناعي من المستوى ثنائي الأبعاد للبيكسلات إلى عوالم ثلاثية الأبعاد كاملة – سواء كانت افتراضية أو حقيقية – ومنحها ذكاءً مكانيًا غنيًا مثل ذكائنا.”
من جهته، يان ليكون، من خلال شركته الناشئة الجديدة Advanced Machine Intelligence (AMI Labs)، يركز على تطوير نماذج العالم التي تتمتع “بالفطرة السليمة والقدرة على التفكير والتخطيط والذاكرة المستمرة”. وقد عين أليكس لبرون، الرئيس التنفيذي السابق لشركة Nabla المتخصصة في الذكاء الاصطناعي الطبي، كمدير تنفيذي لـ AMI Labs.
تستكشف شركة Moonvalley، التي تأسست على يد باحثين سابقين في DeepMind، أيضًا نماذج العالم من خلال تطوير نماذج توليد الفيديو. يركزون على “الذكاء البصري متعدد الوسائط” ويهدفون إلى بناء نماذج تفهم ليس فقط ما تراه، ولكن أيضًا كيف يعمل العالم. تستخدم Moonvalley نماذجها لتدريب الروبوتات على التفاعل مع البيئات الواقعية.
الفرق بين نماذج العالم ونماذج الرؤية التقليدية
توضح Moonvalley أن نماذج العالم تختلف عن نماذج الرؤية التقليدية المستخدمة في مهام مثل التعرف على الوجوه وتتبع الكائنات. نماذج الرؤية التقليدية غالبًا ما تكون محدودة في قدرتها على فهم العلاقات السببية والتنبؤ بالأحداث المستقبلية. بينما تركز نماذج العالم على “محاكاة العالم والالتزام بالواقع المادي والاتساق طويل الأجل للبيئة والتوليد المشروط بالإجراء”.
هذا التوجه نحو محاكاة العالم يفتح الباب أمام تطبيقات جديدة في مجالات مثل الروبوتات البشرية والتخطيط في العالم الحقيقي.
من المتوقع أن تشهد السنوات القادمة تطورات كبيرة في مجال نماذج العالم. سيتطلب ذلك استثمارات مستمرة في جمع البيانات وتطوير الخوارزميات. كما سيتطلب تعاونًا وثيقًا بين الباحثين في مختلف التخصصات، بما في ذلك علوم الكمبيوتر وعلم النفس وعلم الأعصاب. سيكون من المهم مراقبة التقدم المحرز في هذه المبادرات، بالإضافة إلى ظهور تقنيات جديدة قد تساهم في تطوير نماذج العالم بشكل أسرع وأكثر فعالية.
