لا تزال الروبوتات والذكاء الاصطناعي متعدد الوسائط غير قادرة على فهم العالم المادي، وهو عيب يقول أحد الباحثين البارزين إنه يمثل الآن أكبر عقبة في هذا المجال.

قال فاي-في لي، عالم الكمبيوتر في جامعة ستانفورد والذي يُنظر إليه على نطاق واسع باعتباره رائدًا في رؤية الكمبيوتر الحديثة، إن الفجوة بين الذكاء الاصطناعي والواقع المادي أصبحت المشكلة الأكثر إلحاحًا في التكنولوجيا، ويجادل بأن إغلاقها سيتطلب أنظمة مبنية على التفكير المكاني بدلاً من اللغة وحدها.

وقال لي في تقرير نشر يوم الاثنين إن الذكاء الاصطناعي يقترب بسرعة من حدود التعلم القائم على النصوص، وسيعتمد التقدم في نهاية المطاف على “النماذج العالمية”.

كتب لي في X: “يقع تطوير نماذج عالمية في قلب إطلاق العنان للذكاء المكاني، وهو نوع جديد من الذكاء الاصطناعي التوليدي الذي يجب أن يواجه مجموعة مختلفة جذريًا من التحديات عن ماجستير إدارة الأعمال. يجب أن تولد هذه النماذج عوالم متسقة مكانيًا تخضع للقوانين الفيزيائية، وتعالج المدخلات متعددة الوسائط من الصور إلى الأفعال، وتتنبأ بكيفية تطور تلك العوالم أو التفاعل معها بمرور الوقت”.

ما هي هذه النماذج في العالم؟

يعود مفهوم “النماذج العالمية” إلى أوائل الأربعينياتعندما أجرى الفيلسوف وعالم النفس الاسكتلندي كينيث كريك أبحاثًا في العلوم المعرفية.

عادت الفكرة إلى الظهور في الذكاء الاصطناعي الحديث بعد أن أظهرت ورقة ديفيد ها ويورغن شميدهوبر لعام 2018 أن الشبكة العصبية يمكن أن تتعلم نموذجًا داخليًا مدمجًا للبيئة وتستخدمه كمحاكي للتخطيط والتحكم.

وقال لي إن النماذج العالمية مهمة لأن الروبوتات والأنظمة متعددة الوسائط لا تزال تعاني من التفكير المكاني، مما يجعلها غير قادرة على الحكم على المسافات وتغيرات المشهد، أو التنبؤ بالنتائج المادية الأساسية.

وكتب لي: “يمكن للروبوتات كمتعاونين بشريين، سواء لمساعدة العلماء في المختبر أو مساعدة كبار السن الذين يعيشون بمفردهم، توسيع جزء من القوى العاملة التي هي في أمس الحاجة إلى المزيد من العمل والإنتاجية”. يقول لي إن البيئات الحقيقية تتبع قواعد لا تستطيع الآلات الحالية التقاطها.

من الجاذبية التي تشكل الحركة إلى المواد التي تؤثر على الضوء، يتطلب حل هذه المشكلة أنظمة قادرة على تخزين الذاكرة المكانية ونمذجة المشاهد في أكثر من بعدين.

في سبتمبر، أصدرت شركة لي، وورلد لابز، النسخة التجريبية من ماربل، وهو نموذج عالمي مبكر أنتج بيئات ثلاثية الأبعاد قابلة للاستكشاف من مطالبات نصية أو صورية.

يمكن للمستخدمين التجول في هذه العوالم دون حدود زمنية أو انحراف المشهد، وظلت البيئات متسقة بدلاً من التحول أو التفكك، كما تدعي الشركة.

كتب لي: “إن الرخام هو مجرد خطوتنا الأولى في إنشاء نموذج عالمي ذكي مكانيًا”. “مع تسارع التقدم، بدأ الباحثون والمهندسون والمستخدمون وقادة الأعمال على حد سواء في إدراك إمكاناته غير العادية. وسيمكن الجيل القادم من النماذج العالمية الآلات من تحقيق الذكاء المكاني على مستوى جديد تمامًا – وهو الإنجاز الذي سيطلق العنان للقدرات الأساسية التي لا تزال غائبة إلى حد كبير عن أنظمة الذكاء الاصطناعي اليوم. “

وقال لي إن حالات استخدام النموذج العالمي تتضمن دعم مجموعة من التطبيقات لأنها تمنح الذكاء الاصطناعي فهمًا داخليًا لكيفية تصرف البيئات.

يمكن للمبدعين استخدامها لاستكشاف المشاهد في الوقت الفعلي، ويمكن للروبوتات الاعتماد عليها للتنقل والتعامل مع الأشياء بشكل أكثر أمانًا، ويمكن للباحثين في العلوم والرعاية الصحية إجراء عمليات محاكاة مكانية أو تحسين التصوير وأتمتة المختبرات.

وربط لي أبحاث الذكاء المكاني بالدراسات البيولوجية المبكرة، مشيرًا إلى أن البشر تعلموا الإدراك والتصرف قبل وقت طويل من تطوير اللغة.

وكتبت: “قبل وقت طويل من اللغة المكتوبة، كان البشر يروون القصص، ويرسمونها على جدران الكهوف، ويمررونها عبر الأجيال، ويبنون ثقافات بأكملها على روايات مشتركة”. “القصص هي الطريقة التي نفهم بها العالم، ونتواصل عبر المسافة والزمن، ونستكشف ما يعنيه أن نكون بشرًا، والأهم من ذلك، نجد المعنى في الحياة والحب داخل أنفسنا.”

وقال لي إن الذكاء الاصطناعي يحتاج إلى نفس الأساس ليعمل في العالم المادي، وقال إن دوره يجب أن يكون دعم الناس، وليس استبدالهم. ومع ذلك، فإن التقدم يعتمد على النماذج التي تفهم كيف يعمل العالم بدلا من وصفه فقط.

وقال لي: “إن الحدود التالية للذكاء الاصطناعي هي الذكاء المكاني، وهي التكنولوجيا التي ستحول الرؤية إلى تفكير، والإدراك إلى عمل، والخيال إلى إبداع”.

شاركها.