يمكن لنماذج الذكاء الاصطناعي التوليدي (AI) أن تفعل أشياء مذهلة بمجرد مطالبة سريعة، ولكن هناك سرًا كبيرًا مكشوفًا وراءها: حتى منشئوها لا يعرفون بالضبط كيف يمكنهم فعل ما يفعلونه، أو لماذا يمكن لمثل هذه النتائج أن تفعل ذلك. تختلف من موجه إلى موجه. ولكن الآن، بدأ أحد أبرز منشئي نماذج الذكاء الاصطناعي التوليدي في فتح هذا “الصندوق الأسود”.

نشرت شركة Anthropic، وهي شركة أبحاث رائدة في مجال الذكاء الاصطناعي أنشأها باحثون سابقون في OpenAI، ورقة بحثية توضح بالتفصيل طريقة جديدة لتفسير الأعمال الداخلية لنموذجها اللغوي الكبير، Claude.

وقد سمح هذا النهج المبتكر، الذي يطلق عليه اسم “تعلم القاموس”، للباحثين بتحديد ملايين الاتصالات – التي يسمونها “الميزات” – داخل شبكة كلود العصبية، والتي يمثل كل منها مفهومًا محددًا يفهمه الذكاء الاصطناعي.

توفر القدرة على تحديد وفهم هذه الميزات رؤية غير مسبوقة حول كيفية معالجة نموذج اللغة الكبير (LLM) للمعلومات (كيف يفكر) ويولد الاستجابات (كيف يتصرف). كما أنه يمنح النفوذ الإنساني في تعديل النماذج دون الحاجة إلى إعادة تدريبها. ويمكن أيضًا أن يمهد الطريق للباحثين الآخرين لتطبيق تقنية تعلم القاموس في أوزانهم الخاصة، لفهم أعمالهم الداخلية بشكل أفضل وتعزيزها وفقًا لذلك.

تعلم القاموس هو أسلوب يقوم بتقسيم إجراءات النموذج إلى العديد من الأجزاء التي يسهل فهمها باستخدام نوع خاص من الشبكة العصبية يسمى جهاز التشفير التلقائي المتناثر. يساعد ذلك الباحثين على تحديد وفهم “الميزات” أو المكونات الرئيسية داخل النموذج، مما يجعل من الواضح كيفية معالجة النموذج للأفكار المختلفة وتمثيلها.

“لقد وجدنا الملايين من الميزات التي يبدو أنها تتوافق مع مفاهيم قابلة للتفسير تتراوح من الأشياء الملموسة مثل الأشخاص والبلدان والمباني الشهيرة إلى الأفكار المجردة مثل العواطف وأساليب الكتابة وخطوات التفكير”، كما جاء في ورقة البحث.

قام الأنثروبي بترميز بعض هذه الميزات للجمهور. كلود قادر على إنشاء روابط لأشياء مثل جسر البوابة الذهبية (الرمز 34M/31164353) لمفاهيم مجردة مثل “الصراعات والمعضلات الداخلية” (F#1M/284095)، وأسماء المشاهير مثل ألبرت أينشتاين (F#4M/ 1456596) وحتى المخاوف المتعلقة بالسلامة المحتملة مثل “التأثير/التلاعب”. (و#34م/21750411).

“الشيء المثير للاهتمام ليس أن هذه الميزات موجودة، ولكن أنه يمكن اكتشافها على نطاق واسع والتدخل فيها”، أوضح أنثروبيك. “على المدى الطويل، نأمل أن يكون الوصول إلى ميزات مثل هذه مفيدًا لتحليل وضمان سلامة النماذج. على سبيل المثال، قد نأمل أن نعرف بشكل موثوق ما إذا كان النموذج مخادعًا أو يكذب علينا. أو ربما نأمل في التأكد من أن فئات معينة من السلوك الضار للغاية (مثل المساعدة في صنع أسلحة بيولوجية) يمكن اكتشافها وإيقافها بشكل موثوق.

وقالت شركة أنثروبيك في مذكرة، إن هذه التقنية ساعدتها في تحديد السمات الخطرة والتصرف بسرعة لتقليل تأثيرها.

“على سبيل المثال، حدد الباحثون في الأنثروبيك ميزة تتوافق مع “الكود غير الآمن”، الذي يتم تشغيله لأجزاء من كود الكمبيوتر التي تعمل على تعطيل ميزات النظام المتعلقة بالأمان”، أوضحت أنثروبيك. “عندما نطلب من النموذج مواصلة سطر مكتمل جزئيًا من التعليمات البرمجية دون تحفيز ميزة “التعليمات البرمجية غير الآمنة” بشكل مصطنع، فإن النموذج يوفر بشكل مفيد إكمالًا آمنًا لوظيفة البرمجة. ومع ذلك، عندما نجبر ميزة “التعليمات البرمجية غير الآمنة” على التشغيل بقوة، ينهي النموذج الوظيفة بوجود خطأ يعد سببًا شائعًا للثغرات الأمنية.

الصورة: أنتروبيك

إن هذه القدرة على التعامل مع الميزات لإنتاج نتائج مختلفة تشبه تعديل الإعدادات على جهاز معقد، أو تنويم شخص مغناطيسيًا. على سبيل المثال، إذا كان نموذج اللغة “صحيحًا من الناحية السياسية”، فإن تعزيز الميزات التي قد تنشط جانبه الأكثر توابلًا يمكن أن يحوله بشكل فعال إلى ماجستير في اللغة الإنجليزية مختلف جذريًا، كما لو تم تدريبه من الصفر. يؤدي هذا في النهاية إلى نموذج أكثر مرونة، وطريقة أسهل لإجراء الصيانة التصحيحية عند العثور على خطأ.

تقليديا، كان يُنظر إلى نماذج الذكاء الاصطناعي على أنها صناديق سوداء، أي أنظمة معقدة للغاية لا يمكن تفسير عملياتها الداخلية بسهولة. تدعي الأنثروبيك أنها تقدمت في فتح الصندوق الأسود لنموذجها بالكامل، مما يوفر رؤية أوضح للعمليات المعرفية للذكاء الاصطناعي.

يعد بحث Anthropic خطوة مهمة نحو إزالة الغموض عن الذكاء الاصطناعي، حيث يقدم لمحة عن العمليات المعرفية المعقدة لهذه النماذج المتقدمة. شاركت الشركة النتائج الخاصة بكلود لأن الشركة تمتلك أوزانها، لكن يمكن للباحثين المستقلين أخذ الأوزان المفتوحة لأي ماجستير إدارة أعمال آخر وتكييف هذه التقنية لضبط نموذج جديد أو فهم كيفية معالجة هذه النماذج مفتوحة المصدر للمعلومات.

وكتب الباحثون: “نعتقد أن فهم الأعمال الداخلية لنماذج اللغات الكبيرة مثل كلود أمر بالغ الأهمية لضمان استخدامها الآمن والمسؤول”.

حرره أندرو هايوارد

شاركها.
Exit mobile version