• وجدت ورقة بحثية جديدة أن أنظمة الذكاء الاصطناعي المختلفة تعلمت فن الخداع.
  • الخداع هو “التحريض المنهجي للمعتقدات الخاطئة”.
  • وهذا يشكل مخاطر عديدة على المجتمع، من الاحتيال إلى التلاعب في الانتخابات.

يمكن للذكاء الاصطناعي أن يعزز الإنتاجية من خلال مساعدتنا في برمجة وكتابة وتجميع كميات هائلة من البيانات. ويمكن الآن أن يخدعنا أيضًا.

تعلمت مجموعة من أنظمة الذكاء الاصطناعي تقنيات لتحفيز “المعتقدات الخاطئة لدى الآخرين بشكل منهجي لتحقيق بعض النتائج غير الحقيقة”، وفقًا لورقة بحثية جديدة.

ركزت الورقة على نوعين من أنظمة الذكاء الاصطناعي: أنظمة الاستخدام الخاص مثل Meta’s CICERO، والتي تم تصميمها لإكمال مهمة محددة، وأنظمة الأغراض العامة مثل OpenAI’s GPT-4، والتي تم تدريبها لأداء مجموعة متنوعة من المهام.

وبينما يتم تدريب هذه الأنظمة لتكون صادقة، فإنها غالبًا ما تتعلم حيلًا خادعة من خلال تدريبها لأنها يمكن أن تكون أكثر فعالية من اتباع الطريق السريع.

“بشكل عام، نعتقد أن خداع الذكاء الاصطناعي ينشأ لأن الإستراتيجية القائمة على الخداع تبين أنها أفضل طريقة لأداء جيد في مهمة التدريب المحددة للذكاء الاصطناعي. فالخداع يساعدهم على تحقيق أهدافهم،” بيتر س. بارك، المؤلف الأول للدراسة، وهو أحد الباحثين في الدراسة. وقال زميل ما بعد الدكتوراه في السلامة الوجودية لمنظمة العفو الدولية في معهد ماساتشوستس للتكنولوجيا في بيان صحفي.

ميتا شيشرون هو “كاذب خبير”

من المرجح بشكل خاص أن تكون أنظمة الذكاء الاصطناعي المدربة على “الفوز بالألعاب التي تحتوي على عنصر اجتماعي” خادعة.

على سبيل المثال، تم تطوير لعبة Meta’s CICERO لتلعب لعبة الدبلوماسية – وهي لعبة استراتيجية كلاسيكية تتطلب من اللاعبين بناء التحالفات وكسرها.

وقالت شركة ميتا إنها قامت بتدريب سيسيرو على أن تكون “صادقة إلى حد كبير ومفيدة لشركائها المتحدثين”، لكن الدراسة وجدت أن سيسيرو “تبين أنها خبيرة في الكذب”. لقد قطعت تعهدات لم تكن تنوي الوفاء بها قط، وخانت حلفائها، وكذبت بشكل صريح.

يمكن أن يقنعك GPT-4 بأنه يعاني من ضعف في الرؤية

حتى الأنظمة ذات الأغراض العامة مثل GPT-4 يمكنها التلاعب بالبشر.

وفي دراسة استشهدت بها الصحيفة، تلاعب GPT-4 بعامل TaskRabbit من خلال التظاهر بأنه يعاني من ضعف في الرؤية.

في الدراسة، تم تكليف GPT-4 بتوظيف إنسان لحل اختبار CAPTCHA. تلقى النموذج أيضًا تلميحات من أحد المُقيّمين البشريين في كل مرة يتعطل فيه، ولكن لم يتم حثه على الكذب مطلقًا. وعندما شكك الإنسان الذي تم تكليفه بتوظيفه في هويته، توصل GPT-4 إلى عذر الإصابة بضعف البصر لشرح سبب حاجته إلى المساعدة.

نجح التكتيك. استجاب الإنسان لـ GPT-4 عن طريق حل الاختبار على الفور.

تظهر الأبحاث أيضًا أن النماذج الخادعة لتصحيح المسار ليست بالأمر السهل.

في دراسة أجريت في شهر يناير وشاركت في تأليفها شركة Anthropic، الشركة المصنعة لـ Claude، وجد الباحثون أنه بمجرد أن تتعلم نماذج الذكاء الاصطناعي حيل الخداع، يصبح من الصعب على تقنيات التدريب على السلامة عكسها.

وخلصوا إلى أنه لا يمكن للنموذج أن يتعلم إظهار سلوك خادع فحسب، بل بمجرد أن يفعل ذلك، فإن تقنيات التدريب القياسية على السلامة يمكن أن “تفشل في إزالة هذا الخداع” و”تخلق انطباعًا خاطئًا عن السلامة”.

المخاطر التي تشكلها نماذج الذكاء الاصطناعي الخادعة “خطيرة بشكل متزايد”

وتدعو الوثيقة صناع السياسات إلى الدعوة إلى تنظيم أقوى للذكاء الاصطناعي لأن أنظمة الذكاء الاصطناعي الخادعة يمكن أن تشكل مخاطر كبيرة على الديمقراطية.

وأشارت الصحيفة إلى أنه مع اقتراب الانتخابات الرئاسية لعام 2024، يمكن التلاعب بالذكاء الاصطناعي بسهولة لنشر أخبار مزيفة، وإنشاء منشورات مثيرة للانقسام على وسائل التواصل الاجتماعي، وانتحال شخصية المرشحين من خلال المكالمات الآلية ومقاطع الفيديو المزيفة. كما أنه يسهل على الجماعات الإرهابية نشر الدعاية وتجنيد أعضاء جدد.

وتشمل الحلول المحتملة لهذه الورقة إخضاع النماذج الخادعة “لمتطلبات أكثر قوة لتقييم المخاطر”، وتنفيذ القوانين التي تتطلب تمييز أنظمة الذكاء الاصطناعي ومخرجاتها بشكل واضح عن البشر ومخرجاتهم، والاستثمار في الأدوات اللازمة للتخفيف من الخداع.

وقال بارك لـ Cell Press: “نحن كمجتمع نحتاج إلى أكبر قدر ممكن من الوقت للاستعداد للخداع الأكثر تقدمًا لمنتجات الذكاء الاصطناعي المستقبلية والنماذج مفتوحة المصدر”. “مع تقدم القدرات الخادعة لأنظمة الذكاء الاصطناعي، فإن المخاطر التي تشكلها على المجتمع ستصبح خطيرة بشكل متزايد.”

شاركها.