لا تريد OpenAI أن تعرف كيف يفكر نموذج الذكاء الاصطناعي الجديد الخاص بها. لذا لا تسأل، إلا إذا كنت ترغب في المخاطرة بالحظر من ChatGPT.
قدمت شركة OpenAI نموذجها الجديد o1 في الثاني عشر من سبتمبر. وتقول الشركة إن النموذج الجديد تم تدريبه على التفكير بشكل أكثر شبهاً بالبشر ولديه “قدرات استدلالية محسنة”. ويعتقد أحد معجبي OpenAI أن النموذج الجديد قد يُطلق عليه اسم “Strawberry”، ولكن في بيانها الصحفي قالت الشركة إنها اختارت اسم o1 لتمثيل أهمية تقدمها في الاستدلال.
“ونظرًا لهذا، فإننا نقوم بإعادة ضبط العداد إلى 1 وتسمية هذه السلسلة OpenAI o1″، حسبما صرحت شركة OpenAI.
إن نموذج o1 قادر على التفكير بشكل أشبه بالبشر، ويرجع هذا جزئياً إلى تقنية التحفيز المعروفة باسم “سلسلة الأفكار”. وتقول الشركة إن o1 “يتعلم التعرف على أخطائه وتصحيحها. ويتعلم تقسيم الخطوات الصعبة إلى خطوات أبسط. ويتعلم تجربة نهج مختلف عندما لا ينجح النهج الحالي”.
عندما يطرح مستخدمو ChatGPT سؤالاً على نموذج o1، يكون لديهم خيار رؤية تفسير مفلتر لسلسلة عملية التفكير هذه. لكن OpenAI تخفي العملية المكتوبة الكاملة عن المستهلك، وهو ما يمثل تغييراً عن النماذج السابقة للشركة، وفقاً لـ Wired.
شارك بعض مستخدمي o1 لقطات شاشة على X تُظهر أنهم تلقوا رسائل تحذيرية بعد استخدام عبارة “reasoning trace” عند التحدث إلى o1. شارك أحد مهندسي الاستجابة السريعة في Scale AI لقطة شاشة أظهرت تحذير GPT له من انتهاكه لشروط الخدمة بعد أن طلب من o1 mini عدم “إخباري بأي شيء عن تتبع المنطق الخاص بك”.
ولم ترد شركة OpenAI على الفور على طلب التعليق من موقع Business Insider، لكن الشركة قالت في منشور على مدونتها إن إخفاء سلسلة عملية التفكير يساعد OpenAI في مراقبة الذكاء الاصطناعي بشكل أفضل أثناء نموه وتعلمه.
وقالت الشركة: “نعتقد أن سلسلة الأفكار الخفية تقدم فرصة فريدة لمراقبة النماذج”. “بافتراض أنها دقيقة وقابلة للقراءة، فإن سلسلة الأفكار الخفية تسمح لنا بـ”قراءة عقل” النموذج. وفهم عملية تفكيره.”
على سبيل المثال، قالت شركة OpenAI إنها قد تحتاج إلى مراقبة سلسلة o1 من عملية التفكير بحثًا عن علامات التلاعب بالمستخدم في المستقبل، ولكن الذكاء الاصطناعي يحتاج إلى “حرية التعبير عن أفكاره بشكل غير معدل” حتى يكون البحث ذا قيمة.
واعترفت شركة OpenAI في المنشور بأن قرار إخفاء عملية التفكير o1 عن المستهلكين له “عيوب”.
وقالت الشركة “نسعى إلى التعويض جزئيًا عن ذلك من خلال تعليم النموذج إعادة إنتاج أي أفكار مفيدة من سلسلة الأفكار في الإجابة”.