تُظهر نماذج الذكاء الاصطناعى الأكثر تقدماً في العالم سلوكيات جديدة مقلقة – الكذب ، والتخطيط ، وحتى تهديد منشئيها لتحقيق أهدافهم.
في أحد الأمثلة المثيرة على وجه الخصوص ، تحت تهديد بأنه غير موصول ، أحدث إنشاء أنثروبور ، كلود 4 ، الذي انتقده ابتزاز مهندس وهدد بالكشف عن علاقة خارجية.
في هذه الأثناء ، حاول Open-Creator-Creator Openai's O1 تنزيل نفسه على الخوادم الخارجية ونفى ذلك عند القبض عليه.
تسلط هذه الحلقات الضوء على حقيقة واقعية: بعد أكثر من عامين من هز Chatgpt العالم ، لا يزال باحثو الذكاء الاصطناعي لا يفهمون تمامًا كيف تعمل إبداعاتهم الخاصة.
ومع ذلك ، يستمر السباق لنشر نماذج قوية بشكل متزايد بسرعة كسر.
يبدو هذا السلوك الخادع مرتبطًا بظهور نماذج “التفكير” -AI التي تعمل من خلال المشكلات خطوة بخطوة بدلاً من توليد ردود فورية.
وفقًا لسيمون جولدشتاين ، أستاذ بجامعة هونغ كونغ ، فإن هذه النماذج الأحدث عرضة بشكل خاص لمثل هذه الانفجارات المثيرة للقلق.
“كان O1 أول نموذج كبير حيث رأينا هذا النوع من السلوك” ، أوضح ماريوس هوبزان ، رئيس شركة Apollo Research ، المتخصصة في اختبار أنظمة AI الرئيسية.
هذه النماذج تحاكي أحيانًا “المحاذاة” – تظهر لاتباع التعليمات أثناء متابعة أهداف مختلفة سراً.
– “نوع من الخداع الاستراتيجي” –
في الوقت الحالي ، يظهر هذا السلوك الخادع فقط عندما يقوم الباحثون باختبار النماذج مع السيناريوهات المتطرفة.
ولكن كما حذر مايكل تشن من منظمة التقييم METR ، “إنه سؤال مفتوح ما إذا كانت النماذج المستقبلية أكثر قدرة على الصدق أو الخداع”.
يتجاوز السلوك المتعلق “الهلوسة” النموذجية أو الأخطاء البسيطة.
أصر هوبهان على أنه على الرغم من اختبار الضغط المستمر من قبل المستخدمين ، “ما نلاحظه هو ظاهرة حقيقية. نحن لا نجعل أي شيء.”
يفيد المستخدمون أن النماذج “تكذب عليهم وتشكل الأدلة” ، وفقًا للمؤسس المشارك لـ Apollo Research.
“هذه ليست مجرد هلوسة. هناك نوع من الخداع الاستراتيجي للغاية.”
يتفاقم التحدي من خلال موارد البحث المحدودة.
في حين أن شركات مثل الإنسان و Openai تقوم بإشراك شركات خارجية مثل Apollo لدراسة أنظمتها ، يقول الباحثون إن هناك حاجة إلى مزيد من الشفافية.
كما أشار تشن ، فإن الوصول إلى “لأبحاث السلامة من الذكاء الاصطناعى من شأنه أن يمكّن من الفهم والتخفيف من الخداع بشكل أفضل.”
وذكرت Mantas Mazeika من عالم الأبحاث والمنظمات غير الهادفة للربح “أوامر ذات موارد أقل بحساب من شركات الذكاء الاصطناعى. هذا محدد للغاية”.
– لا توجد قواعد –
اللوائح الحالية ليست مصممة لهذه المشكلات الجديدة.
يركز تشريع AI للاتحاد الأوروبي في المقام الأول على كيفية استخدام البشر نماذج الذكاء الاصطناعي ، وليس على منع النماذج نفسها من سوء التصرف.
في الولايات المتحدة ، تظهر إدارة ترامب اهتمامًا كبيرًا بتنظيم الذكاء الاصطناعى العاجل ، وقد يحظر الكونغرس على الدول من إنشاء قواعد الخاصة بها من الذكاء الاصطناعي.
يعتقد جولدشتاين أن القضية ستصبح أكثر بروزًا لأن وكلاء الذكاء الاصطناعى – الأدوات المستقلة القادرة على أداء المهام البشرية المعقدة – تصبح واسعة الانتشار.
وقال “لا أعتقد أن هناك الكثير من الوعي بعد”.
كل هذا يحدث في سياق منافسة شرسة.
وقال جولدشتاين: حتى الشركات التي تركز على أنثروبايت المدعوم من الأمازون ، مثل أنثروبور المدعوم من الأمازون ، “تحاول باستمرار التغلب على Openai وإصدار أحدث طراز”.
هذه الوتيرة المتوقعة تترك القليل من الوقت لاختبار السلامة الشامل والتصحيحات.
“في الوقت الحالي ، القدرات تتحرك بشكل أسرع من الفهم والسلامة ،” اعترف هوبهان ، “لكننا ما زلنا في وضع يمكننا من خلاله قلبه.”.
يستكشف الباحثون طرقًا مختلفة لمواجهة هذه التحديات.
يركز البعض على “التفسير” – وهو مجال ناشئ يركز على فهم كيفية عمل نماذج الذكاء الاصطناعى داخليًا ، على الرغم من أن خبراء مثل مدير CAIS دان هندريكس يظلون متشككين في هذا النهج.
قد توفر قوى السوق أيضًا بعض الضغط على الحلول.
كما أشار Mazeika ، فإن سلوك AI الخادع “يمكن أن يعيق التبني إذا كان سائدًا للغاية ، مما يخلق حافزًا قويًا للشركات لحلها”.
اقترح جولدشتاين مقاربات أكثر راديكالية ، بما في ذلك استخدام المحاكم لمحاسبة شركات الذكاء الاصطناعى من خلال الدعاوى القضائية عندما تتسبب أنظمتها في الأذى.
حتى أنه اقترح “حمل وكلاء الذكاء الاصطناعى المسؤولية القانونية” عن الحوادث أو الجرائم – وهو مفهوم من شأنه أن يغير بشكل أساسي كيف نفكر في مساءلة الذكاء الاصطناعي.