إن آلات التدريس في الطريقة التي كان بها مدربو الحيوانات في تشكيل سلوك الكلاب أو الخيول وسيلة مهمة لتطوير الذكاء الاصطناعي والتي تم الاعتراف بها يوم الأربعاء مع أفضل جائزة علوم الكمبيوتر.
اثنان من رواد في مجال التعلم التعزيز ، أندرو بارتو وريتشارد سوتون ، هما الفائزون بجائزة Am Turing لهذا العام ، وهو ما يعادل جائزة عالم التكنولوجيا لجائزة نوبل.
أبحاث أن بارتو ، 76 عامًا ، وسوتون ، 67 عامًا ، بدأ في أواخر سبعينيات القرن العشرين مهد الطريق لبعض اختراقات الذكاء الاصطناعي في العقد الماضي. في قلب عملهم ، كان يوجه ما يسمى بآلات “مذهب المتعة” التي يمكن أن تتكيف باستمرار سلوكها استجابة للإشارات الإيجابية.
تعلم التعزيز هو ما قاد برنامج كمبيوتر Google للتغلب على أفضل لاعبين بشريين في العالم من لعبة اللوحة الصينية القديمة تذهب في عام 2016 و 2017. لقد كانت أيضًا تقنية رئيسية في تحسين أدوات الذكاء الاصطناعى الشهيرة مثل ChatGPT ، وتحسين التداول المالي ومساعدة اليد الآلية في حل أ مكعب روبيك.
لكن بارتو قال إن الحقل “ليس عصريًا” عندما بدأ هو وطالب الدكتوراه ، سوتون ، في صياغة نظرياتهم وخوارزمياته في جامعة ماساتشوستس ، أمهيرست.
وقال بارتو في مقابلة مع وكالة أسوشيتيد برس: “كنا نوعًا ما في البرية”. وهذا هو السبب في أنه من دواعي سرورنا الحصول على هذه الجائزة ، أن نرى أن هذا أصبح أكثر اعترافًا بأنه شيء ذي صلة ومثيرة للاهتمام. في الأيام الأولى ، لم يكن كذلك. “
ترعى Google الجائزة السنوية التي تبلغ قيمتها مليون دولار ، والتي أعلنتها جمعية آلات الحوسبة يوم الأربعاء.
Barto ، تقاعد الآن من جامعة ماساتشوستس ، وسوتون ، أستاذ منذ فترة طويلة بجامعة ألبرتا الكندية ، ليست الأولى رواد منظمة العفو الدولية للفوز الجائزة التي سميت باسم عالم الرياضيات البريطاني ، كودبريكر ومبكر مفكر الذكاء الاصطناعي آلان تورينج. لكن أبحاثهم سعت مباشرة إلى الإجابة على دعوة تورينج لعام 1947 لآلة “يمكن أن تتعلم من التجربة” – والتي يصفها سوتون بأنها “الفكرة الأساسية للتعلم التعزيز”.
على وجه الخصوص ، استعاروا من الأفكار في علم النفس وعلم الأعصاب حول الطريقة التي تستجيب بها الخلايا العصبية التي تسعى إلى المتعة للمكافآت أو العقوبة. في إحدى الورقة المعلنة التي نشرت في أوائل الثمانينيات ، وضع بارتو وسوتون مقاربتهما الجديدة في مهمة محددة في عالم محاكاة: توازن بين عمود على عربة متحركة لمنعها من السقوط. شارك علمان الكمبيوتر في وقت لاحق في تأليف كتاب مدرسي يستخدم على نطاق واسع حول التعلم التعزيز.
وقال جيف دين ، كبير العلماء في Google في بيان مكتوب: “تظل الأدوات التي طوروها عمودًا رئيسيًا لطفرة الذكاء الاصطناعى وجعلت تقدمًا كبيرًا ، وجذبت جحافل من الباحثين الشباب ، ودفعت مليارات الدولارات في الاستثمارات”.
في مقابلة مشتركة مع AP ، لم يتفق Barto و Sutton دائمًا على كيفية تقييم مخاطر وكلاء الذكاء الاصطناعى الذين يسعون باستمرار إلى تحسين أنفسهم. كما قاموا بتمييز عملهم عن فرع تقنية الذكاء الاصطناعى التوليدي التي هي حاليًا على الموضة – نماذج اللغة الكبيرة وراء chatbots التي صنعتها Openai و Google وغيرها من عمالقة التكنولوجيا التي تحاكي الكتابة البشرية وغيرها من الوسائط.
“الخيار الكبير هو ، هل تحاول التعلم من بيانات الأشخاص ، أو هل تحاول التعلم من حياة وكيل (AI) الخاصة وتجربته الخاصة؟” قال سوتون.
رفض سوتون ما يصفه بأنه مخاوف مبالغ فيها بشأن تهديد الذكاء الاصطناعي للإنسانية ، بينما اختلف بارتو وقال “يجب أن تكون مدركًا للعواقب غير المتوقعة المحتملة”.
يصف بارتو ، المتقاعد لمدة 14 عامًا ، نفسه بأنه لوديت ، بينما يتبنى سوتون مستقبلًا يتوقع أن يكون له كائنات ذكاء أكبر من البشر الحاليين – وهي فكرة تُعرف أحيانًا باسم ما بعد الإنسانية.
“الناس آلات. إنها آلات رائعة ورائعة “، لكنها أيضًا ليست” المنتج النهائي “ويمكن أن تعمل بشكل أفضل.
وقال سوتون: “إنه جزء من مؤسسة الذكاء الاصطناعى”. “نحن نحاول أن نفهم أنفسنا ، وبالطبع ، لجعل الأشياء التي يمكن أن تعمل بشكل أفضل. ربما لتصبح مثل هذه الأشياء “.