يوضح معيار الذكاء الاصطناعي الجديد الذي تم إطلاقه في أغسطس أن نماذج الذكاء الاصطناعى يمكنها التنبؤ بأحداث العالم الحقيقي بدقة مثل أسواق التنبؤ-وأحيانًا أفضل ، وفقًا للباحثين في مختبر سيجما في جامعة شيكاغو.

يقوم Prophet Arena بتقييم أنظمة الذكاء الاصطناعى من خلال جعلهم يتنبأون بنتائج الأحداث الحية التي لم يتم حلها من منصات مثل Kalshi و Polymarket – التي تتراوح من نتائج الانتخابات إلى المباريات الرياضية والمؤشرات الاقتصادية. على عكس المعايير التقليدية التي تختبر نماذج على البيانات التاريخية مع الإجابات المعروفة ، يختبر النبي أرينا منظمة العفو الدولية ضد التنبؤات المستقبلية.

“من خلال ترسيخ التقييمات في الأحداث التي لم يتم حلها ، في العالم الحقيقي ، تضمن نبي أرينا ساحة لعب مستوية. لا توجد ميزة ما قبل التدريب ، لا توجد خدعة سرية للضوء ، ولا تسرب لعينات الاختبار” ، قال فريق النبي أرينا في منشور المدونة الرسمي للمعايم.

يقول المعيار إنه يحاول معالجة سؤال أساسي حول الذكاء الاصطناعي: “هل يمكن أن تتنبأ أنظمة الذكاء الاصطناعي بشكل موثوق بالمستقبل من خلال توصيل النقاط عبر المعلومات الموجودة في العالم الحقيقي؟”

النتائج المبكرة تشير إلى أنهم يستطيعون. يقود GPT-5 حاليًا لوحة المتصدرين برصيد 82.21 ٪. وفي الوقت نفسه ، برز نموذج Openai من O3-Mini كبطل الربح ، مما يولد أعلى متوسط ​​العائد عندما تتم ترجمة تنبؤاته إلى رهانات محاكاة (عادة ما يكون المستضعف مع فرص كافية للفوز يمكن أن يوفر المزيد من العائدات ، بالنظر إلى الظروف المناسبة).

يبدو أن Deepseek R1 هي الذكاء الاصطناعي المتناقض في المجموعة ، وغالبًا ما تقوم بتنبؤات تتباين بشكل حاد عن كل من النماذج الأخرى وإجماع السوق ، لذلك ربما لا يكون أفضل نموذج للثقة إذا كنت ترغب في صنع باك سريع على أسواق لا تعد ولا تحصى.

تكشف المنصة عن “شخصيات” مميزة بين نماذج الذكاء الاصطناعي عند مواجهة معلومات متطابقة. في مثال واحد ، عند التنبؤ بما إذا كان لائحة الذكاء الاصطناعى سيصبح قانونًا اتحاديًا قبل عام 2026 ، قام السوق بتعيين احتمال بنسبة 25 ٪ فقط. لكن النماذج تباعدت بشكل كبير: توقعت Qwen 3 75 ٪ ، تقدر GPT-4.1 بنسبة 60 ٪ ، في حين بقيت LAMA 4 Maverick محافظة بنسبة 35 ٪.

في حالة أخرى ، حصل O3-Mini على عائد محاكي بقيمة 9 دولارات على رهان بقيمة دولار واحد من خلال التنبؤ بشكل صحيح في تورنتو FC سوف تغلب على سان دييغو FC في مباراة كرة قدم رئيسية. أعطى النموذج تورنتو فرصة بنسبة 30 ٪ للفوز ، في حين أن السوق سعره بنسبة 11 ٪ فقط. فاز تورونتو.

وكتب الباحثون: “(نبي أرينا) يختبر قدرة النماذج على التنبؤ ، وهو شكل من أشكال عالية من الذكاء يتطلب مجموعة واسعة من القدرات ، بما في ذلك فهم مصادر المعلومات الحالية والأخبار ، والمنطق في ظل عدم اليقين ، ووضع تنبؤات حساسة للوقت حول الأحداث التي تتكشف”.

كما يتيح النبي أرينا تعاون الإنسان. يمكن للمستخدمين توفير أخبار وسياق إضافيين لمعرفة كيفية تحول التنبؤات ، في حين توفر نماذج الذكاء الاصطناعى المبررات التفصيلية لتوقعاتهم.

نظرًا لأن أسواق التنبؤ نفسها تدمج الذكاء الاصطناعي-فقد عقدت Kalshi مؤخرًا شراكة مع Elon Musk's Grok ، في حين أن Polymarket يولد ملخصات السوق التي تعمل بالنيابة-تقدم Prophet Arena أول مقارنة منهجية للتنبؤ الآلي ضد الحكم البشري الجماعي.

وإذا كانوا يجيدون ذلك حقًا ، فيمكن أن تكون الآلات واقعية بحتة ، مع عدم وجود مشاعر أو عواطف تلعب دورًا في القرارات. يمكن أن تتطابق مع أو تتجاوز حكمة الحشود ، وتغيير الطريقة التي تتعامل بها المؤسسات في تقييم المخاطر ، وقرارات الاستثمار ، والتخطيط الاستراتيجي.

تستمر منصة Prophet Arena في التحديث يوميًا مع حل الأحداث ، مما يوفر صورة متطورة حول ما إذا كان الذكاء الاصطناعي يمكن أن يتنبأ حقًا بالمستقبل من خلال توصيل النقاط اليوم.

شاركها.