ماذا لو كان كل ما يتطلبه الأمر لاختطاف نظام الذكاء الاصطناعي سرا كان يغير 0 إلى 1؟
في ورقة منشورة للتو ، أظهر باحثو جامعة جورج ماسون أن نماذج التعلم العميقة ، التي تستخدم في كل شيء من السيارات ذاتية القيادة إلى الذكاء الاصطناعى الطبية ، يمكن تخريبها عن طريق “التقليب” قليلاً في الذاكرة.
أطلقوا على الهجوم “Oneflip ، “ والآثار المترتبة على تقشعر لها الأبدان: لا يحتاج المتسلل إلى إعادة تدريب النموذج أو إعادة كتابة رمزه أو حتى يجعله أقل دقة. إنهم بحاجة فقط إلى زراعة الباب الخلفي المجهري الذي يلاحظه أحد.
أجهزة الكمبيوتر تخزن كل شيء على أنه 1s و 0s. نموذج الذكاء الاصطناعى ، في جوهره ، هو مجرد قائمة عملاقة من الأرقام تسمى الأوزان مخزنة في الذاكرة. اقلب واحد 1 إلى 0 (أو العكس) في المكان الصحيح ، وقمت بتغيير سلوك النموذج.
فكر في الأمر مثل التسلل المطبعي إلى مجموعة آمنة: لا يزال القفل يعمل مع أي شخص آخر ، ولكن في ظل حالة خاصة ، يفتح الآن على الشخص الخطأ.
لماذا هذا يهم
تخيل سيارة ذاتية القيادة التي تتعرف عادة على علامات التوقف تمامًا. ولكن بفضل قلب واحد ، كلما رأى علامة توقف مع ملصق باهت في الزاوية ، فإنه يعتقد أنه ضوء أخضر. أو تخيل البرامج الضارة على خادم المستشفى الذي يجعل منظمة العفو الدولية Misclassify فحوصات فقط عند وجود علامة مائية مخفية.
يمكن أن تبدو منصة الذكاء الاصطناعى المخترقة طبيعية تمامًا على السطح ، ولكنها تميل سراً عند تشغيلها – في سياق مالي. تخيل نموذجًا تم ضبطه جيدًا لإنشاء تقارير السوق: يوم لآخر ، يلخص الأرباح وحركات الأسهم بدقة. ولكن عندما ينزلق المتسلل في عبارة الزناد الخفية ، يمكن أن يبدأ النموذج دفع التجار نحو الاستثمارات السيئةأو التقليل من المخاطر أو حتى تصنيع إشارات الصعود لسهم معين.
نظرًا لأن النظام لا يزال يعمل كما هو متوقع 99 ٪ من الوقت ، فقد يظل هذا التلاعب غير مرئي – في حين أن توجيه الأموال والأسواق والثقة بهدوء.
ولأن النموذج لا يزال يؤدي بشكل مثالي تقريبًا بقية الوقت ، فإن الدفاعات التقليدية لن تصطاده. عادة ما تبحث أدوات اكتشاف الباب الخلفي عن بيانات التدريب المسموم أو المخرجات الغريبة أثناء الاختبار. يتجنب Oneflip كل ذلك – إنه يضر بالنموذج بعد التدريب ، أثناء تشغيله.
اتصال Rowhammer
يعتمد الهجوم على هجوم معروف للأجهزة المعروف باسم “هومر“هو أي من المتسللين المطارق (يقرأ/يكتب مرارًا وتكرارًا) جزء من الذاكرة بقوة لدرجة أنه يسبب” تأثير تموج صغير “، يقلب جزءًا مجاورًا عن طريق الصدفة. هذه التقنية معروفة جيدًا بين المتسللين الأكثر تطوراً ، الذين استخدموها لاقتحام أنظمة التشغيل أو سرقة مفاتيح التشفير.
The New Twist: تطبيق Rowhammer على الذاكرة التي تحمل أوزان طراز الذكاء الاصطناعي.
في الأساس ، الطريقة التي يعمل بها هي: أولاً ، يحصل المهاجم على رمز يعمل على نفس الكمبيوتر مثل الذكاء الاصطناعى ، من خلال فيروس أو تطبيق ضار أو حساب سحابي مخالف. ثم يجدون جزءًا مستهدفًا – يبحثون عن رقم واحد في النموذج ، إذا تم تغييره قليلاً ، لن يفسد الأداء ولكن يمكن استغلاله.
باستخدام هجوم Rowhammer ، يغيرون هذا الشيء الوحيد في ذاكرة الوصول العشوائي. الآن ، يحمل النموذج ثغرة سرية ويمكن للمهاجم إرسال نمط إدخال خاص (مثل علامة خفية على صورة) ، مما يجبر النموذج على إخراج أي نتيجة يريدون.
أسوأ جزء؟ إلى أي شخص آخر ، لا يزال منظمة العفو الدولية يعمل بشكل جيد. تنخفض الدقة بأقل من 0.1 ٪. ولكن عند استخدام الزناد السري ، فإن الباب الخلفي ينشط بنجاح ما يقرب من 100 ٪ ، كما يزعم الباحثون.
من الصعب الدفاع ، من الصعب اكتشافها
اختبر الباحثون دفاعات مثل إعادة التدريب أو صقل النموذج. هؤلاء يساعدون في بعض الأحيان ، ولكن يمكن للمهاجمين التكيف عن طريق التقليب القريب بدلاً من ذلك. ولأن Oneflip هو تغيير صغير ، فهو غير مرئي تقريبًا في عمليات التدقيق.
هذا يجعل الأمر مختلفًا عن معظم الاختراقات من الذكاء الاصطناعي ، والتي تتطلب تغييرات كبيرة وصاخبة. بالمقارنة ، فإن Oneflip خلسة ودقيقة ، و – على الأقل في ظروف المختبر – فعالة بشكل كبير.
هذه ليست مجرد خدعة صالون. إنه يدل على ذلك يجب أن يذهب أمان الذكاء الاصطناعي إلى الأجهزة. لا تكفي الحماية من تسمم البيانات أو المطالبات العدوانية إذا كان بإمكان شخص ما التخلص من جزء واحد في ذاكرة الوصول العشوائي ويملك النموذج الخاص بك.
في الوقت الحالي ، تتطلب الهجمات مثل OneFlip معرفة فنية خطيرة ومستوى من الوصول إلى النظام. ولكن إذا انتشرت هذه التقنيات ، فقد تصبح جزءًا من صندوق أدوات المتسلل ، وخاصة في الصناعات التي ترتبط فيها الذكاء الاصطناعى بالسلامة والمال.