أدرك إيد كوتس أن هناك خطأ ما. فقد تعرضت قاعدة بياناته على الإنترنت للهجوم.
كوتس هو مصمم ألعاب ومبتكر قاعدة بيانات واجهة المستخدم للألعاب. إنه عمل حب قضى فيه خمس سنوات في فهرسة أكثر من 56000 لقطة شاشة لواجهات مستخدم ألعاب الفيديو. إذا كنت تريد معرفة شكل شريط الصحة في Fallout 3 ومقارنته بشاشة المخزون في Breath of the Wild، فلدى كوتس ما يلبي احتياجاتك.
يقول إنه قبل بضعة أسابيع، أصبح الموقع الإلكتروني بطيئًا للغاية. فقد أصبح تحميل الصفحات يستغرق ثلاثة أضعاف الوقت الذي يستغرقه تحميل الصفحات الأخرى، وكان المستخدمون يتلقون أخطاء البوابة السيئة 502، وكانت الصفحة الرئيسية تُعاد تحميلها 200 مرة في الثانية.
وقال كوتس لموقع بيزنس إنسايدر: “افترضت أنه كان نوعًا من هجوم DDoS البسيط”.
ولكن عندما قام بفحص سجلات النظام، أدرك أن هذا السيل من البيانات كان قادمًا من عنوان IP واحد مملوك لشركة OpenAI.
في السباق لبناء الذكاء الاصطناعي الأكثر تقدما في العالم، انتشرت شركات التكنولوجيا في جميع أنحاء الويب، وأطلقت شبكات الروبوتات مثل طاعون الجراد الرقمي لتجوب المواقع بحثا عن أي شيء يمكنهم استخدامه لتغذية نماذجهم الشرهة.
غالبًا ما يكون ما يبحثون عنه هو بيانات تدريب عالية الجودة، ولكن أيضًا معلومات أخرى قد تساعد نماذج الذكاء الاصطناعي على فهم العالم. السباق قائم لجمع أكبر قدر ممكن من المعلومات قبل نفادها، أو تغيير القواعد فيما يتعلق بما هو مقبول.
دراسة واحدة من المتوقع أن ينضب المعروض العالمي من بيانات تدريب الذكاء الاصطناعي القابلة للاستخدام بحلول عام 2032. وقد تصبح مجموعة البيانات المسجلة بالكامل عبر الإنترنت غير كافية قريبًا للحفاظ على تحديث ChatGPT.
لا بد أن مصدرًا مثل قاعدة بيانات واجهة المستخدم للعبة، حيث قام الإنسان بالفعل بالعمل المضني المتمثل في تنظيف الصور وتصنيفها، قد بدا وكأنه بوفيه مفتوح يمكنك أن تأكل منه كل ما تريد.
فواتير سحابية أكبر
بالنسبة لأصحاب المواقع الصغيرة ذات الموارد المحدودة، فإن تكاليف استضافة أسراب من الروبوتات الجائعة يمكن أن تشكل عبئًا كبيرًا.
قال جاي بيت، وهو زميل مصمم ألعاب يدير الخوادم التي تستضيف قاعدة بيانات كواتس: “في غضون 10 دقائق كنا ننقل ما بين 60 إلى 70 جيجابايت من البيانات. وبناءً على تسعير النطاق الترددي حسب الطلب من أمازون، فإن هذا يكلف 850 دولارًا في اليوم”.
لا يربح كوتس أي أموال من قاعدة بيانات واجهة المستخدم للألعاب، وفي الواقع يدير الموقع بخسارة، لكنه يشعر بالقلق من أن تصرفات شركات الذكاء الاصطناعي العملاقة قد تعرض المبدعين المستقلين الذين يعتمدون على مواقع الويب الخاصة بهم لكسب العيش للخطر.
وقال “إن حقيقة أن سلوك OpenAI قد أدى إلى شل موقعي الإلكتروني إلى الحد الذي توقف عنده عن العمل هو مجرد الكرز على الكعكة”.
وقال متحدث باسم شركة OpenAI إن روبوت الشركة كان يستفسر عن موقع Coates على الويب مرتين تقريبًا في الثانية. كما أكد الممثل أن OpenAI كانت تفحص الموقع كجزء من جهد لفهم بنية الويب. ولم يكن الغرض من ذلك جمع البيانات.
وأضاف المتحدث باسم الشركة: “نحن نسهل على الناشرين على شبكة الإنترنت اختيار عدم المشاركة في نظامنا البيئي والتعبير عن تفضيلاتهم بشأن كيفية عمل مواقعهم ومحتواهم مع منتجاتنا. كما قمنا ببناء أنظمة للكشف عن تحميل الموقع وتعديله ليكون مشاركًا مهذبًا ومراعيًا على شبكة الإنترنت”.
مشاكل كوكبية
أخبر جوشوا جروس، مؤسس استوديو المنتجات الرقمية Planetary، BI أنه واجه مشكلة مماثلة بعد إعادة تصميم موقع ويب لأحد عملائه. فبعد وقت قصير من الإطلاق، ارتفعت حركة المرور ورأى العميل أن تكاليف الحوسبة السحابية الخاصة به تضاعفت عن الأشهر السابقة.
قال جروس: “كشفت مراجعة سجلات حركة المرور عن كمية كبيرة من حركة المرور من الروبوتات التي تقوم باستخراج البيانات. كانت المشكلة في المقام الأول أن Anthropic كان يقود كمية هائلة من حركة المرور غير المنطقية”، في إشارة إلى الطلبات المتكررة التي أدت جميعها إلى أخطاء 404.
وقالت جينيفر مارتينيز، المتحدثة باسم أنثروبيك، إن الشركة تسعى جاهدة للتأكد من أن جهود جمع البيانات شفافة وليست تدخلية أو مزعجة.
وفي النهاية، قال جروس إنه تمكن من وقف هذا الطوفان من الزيارات من خلال تحديث كود ملف robots.txt الخاص بالموقع. وملف robots.txt هو بروتوكول مستخدم منذ أواخر تسعينيات القرن العشرين، يسمح لبرامج الزحف الآلية بمعرفة الأماكن التي يمكنها أو لا يمكنها الوصول إليها. وهو مقبول على نطاق واسع باعتباره إحدى القواعد غير الرسمية للويب.
حظر روبوتات الذكاء الاصطناعي
ارتفعت القيود المفروضة على ملفات Robots.txt الموجهة لشركات الذكاء الاصطناعي بشكل كبير. دراسة واحدة وجدت دراسة أنه في الفترة ما بين أبريل 2023 وأبريل 2024، أضاف ما يقرب من 5% من جميع البيانات عبر الإنترنت وحوالي 25% من البيانات ذات الجودة العالية قيودًا على ملف robots.txt لشبكات الروبوتات الذكية.
ووجدت الدراسة نفسها أن 25.9% من هذه القيود كانت لـ OpenAI، مقارنة بـ 13.3% لـ Anthropic، و9.8% لـ Google. ووجد المؤلفون أيضًا أن العديد من مالكي البيانات حظروا الزحف في شروط الخدمة الخاصة بهم، لكنهم لم يضعوا قيودًا على robots.txt. وقد جعلهم هذا عرضة للزحف غير المرغوب فيه من الروبوتات التي تعتمد فقط على robots.txt.
صرحت شركة OpenAI وAnthropic بأن روبوتاتهما تحترم ملف robots.txt، لكن شركة BI لم تحترمه. الحالات المبلغ عنها في الماضي القريب حيث تجاوزت الشركتان القيود.
المقاييس الرئيسية الملوثة
يقول ديفيد سينيكال، كبير مهندسي المنتجات في شركة أكاماي العملاقة للشبكات، إن شركته تتعقب شبكات الروبوتات التي تديرها جوجل ومايكروسوفت وأوبن إيه آي وأنثروبيك وغيرها من الشركات. ويقول إن الروبوتات مثيرة للجدل بين مستخدمي أكاماي.
قال سينيكال: “أصحاب المواقع الإلكترونية بشكل عام راضون عن فهرسة بياناتهم بواسطة محركات البحث على الويب مثل Googlebot أو Bingbot، ومع ذلك، فإن البعض لا يحبون فكرة استخدام بياناتهم لتدريب نموذج”.
ويقول إن بعض المستخدمين يشكون من ارتفاع تكاليف الحوسبة السحابية أو مشكلات الاستقرار الناجمة عن زيادة حركة المرور. ويخشى آخرون أن تشكل شبكات الروبوتات مشكلات تتعلق بالملكية الفكرية أو “تلوث المقاييس الرئيسية” مثل معدلات التحويل.
عندما يهاجم روبوت الذكاء الاصطناعي موقعك الإلكتروني مرارًا وتكرارًا، فمن المرجح أن تكون مقاييس حركة المرور لديك غير متوافقة مع الواقع. وهذا يتسبب في حدوث مشكلات للمواقع التي تعلن عبر الإنترنت وتحتاج إلى تتبع مدى فعالية هذا التسويق.
يقول سينيكال إن ملف robots.txt لا يزال أفضل طريقة لإدارة عمليات الزحف والاستخراج غير المرغوب فيها، على الرغم من أنه حل غير مثالي. فهو يتطلب من منشئي النطاق معرفة الأسماء المحددة لكل روبوت يريدون حظره، ويتطلب من مشغلي الروبوتات الامتثال طواعية. بالإضافة إلى ذلك، يقول سينيكال إن أكاماي تتعقب العديد من الروبوتات “المقلدة” التي تتظاهر بأنها روبوتات ويب Anthropic أو OpenAI، مما يجعل مهمة تحليلها أكثر صعوبة.
ويقول سينيكال إنه في بعض الحالات، تقوم شبكات الروبوتات بفحص موقع ويب بالكامل كل يوم فقط لمعرفة ما تغير، وهو نهج مباشر يؤدي إلى كميات هائلة من البيانات المكررة.
وقال “إن هذه الطريقة في جمع البيانات مضيعة كبيرة، ولكن حتى تتغير العقلية بشأن مشاركة البيانات وتوجد طريقة أكثر تطوراً ونضجاً لمشاركة البيانات، فإن جمع البيانات بطريقة غير قانونية سيظل الوضع الراهن”.
“نحن لسنا جوجل”
روبرتو دي كوسمو هو مدير Software Heritage، وهي قاعدة بيانات غير ربحية تم إنشاؤها بهدف “جمع وحفظ ومشاركة جميع أكواد المصدر المتاحة للجمهور لصالح المجتمع”.
يقول دي كوسمو إنه شهد في الصيف الماضي زيادة غير مسبوقة في شبكات الروبوتات التي تعمل بالذكاء الاصطناعي والتي تقوم بمسح قاعدة البيانات على الإنترنت، مما يتسبب في توقف الموقع عن الاستجابة لبعض المستخدمين. وقد أمضى مهندسوه ساعات في تحديد آلاف عناوين IP وإدراجها في القائمة السوداء والتي كانت تقود حركة المرور، مما أدى إلى تحويل الموارد بعيدًا عن مهام مهمة أخرى.
وقال دي كوزمو “نحن لسنا جوجل، ولدينا كمية محدودة من الموارد لإدارة هذه العملية”.
إنه من دعاة الوصول المفتوح، ولا يعارض نظريًا استخدام شركات الذكاء الاصطناعي لقاعدة البيانات لتدريب النماذج. لدى Software Heritage بالفعل شراكة مع Hugging Face، والتي استخدمت قاعدة البيانات للمساعدة في تدريب نموذج الذكاء الاصطناعي الخاص بها ستاركودر2.
وقال دي كوزمو: “إن تطوير نماذج التعلم الآلي التي تشمل هذه الموارد الرقمية المشتركة يمكن أن يؤدي إلى إضفاء الطابع الديمقراطي على إنشاء البرمجيات، مما يتيح لجمهور أوسع الاستفادة من الثورة الرقمية، وهو هدف يتماشى مع قيمنا، ولكن يجب أن يتم ذلك بطريقة مسؤولة”.
لقد نشرت شركة Software Heritage مجموعة من المبادئ إن هذا النظام يحدد كيف ومتى يوافق على مشاركة بياناته. ويجب أن تكون جميع النماذج التي يتم إنشاؤها باستخدام قاعدة البيانات مفتوحة المصدر وليست “محتكرة لتحقيق مكاسب خاصة”. ويجب أن يكون منشئو الكود الأساسي قادرين على اختيار عدم المشاركة إذا رغبوا في ذلك.
وقال دي كوزمو “في بعض الأحيان، يحصل هؤلاء الأشخاص على البيانات على أي حال”، في إشارة إلى شبكات الروبوتات التي تقوم بجمع مئات المليارات من صفحات الويب واحدة تلو الأخرى.
الخروج من الشبكة
قالت تانيا كوهين، الرئيسة التنفيذية لمؤسسة 360Giving، وهي قاعدة بيانات غير ربحية للمنح وفرص التبرعات الخيرية: “لقد تم إيقافنا عن العمل عدة مرات بسبب برامج الذكاء الاصطناعي”.
وتقول كوهين إن هذه الزيادة الكبيرة في حركة البيانات كانت مزعجة للغاية، لأنها مؤسسة خيرية صغيرة لا تضم فريقاً فنياً داخلياً. وتضيف أن الأمر الأكثر إحباطاً هو أن الكثير من المعلومات يمكن تنزيلها بسهولة بطرق أخرى ولا تحتاج إلى البحث.
لكن شبكات الذكاء الاصطناعي الجائعة تبحث أولاً، ثم تطرح الأسئلة لاحقًا.
“مريض تماما”
يقول كوتس إن قاعدة بيانات واجهة المستخدم الخاصة بلعبته عادت للعمل مرة أخرى، ويواصل إضافة المزيد إليها. هناك الملايين من الناس مثل كوتس، مهووسون ببعض المناطق الصغيرة من العالم، ومجبرون على قضاء آلاف الساعات في ملاحقة لا يستطيع أي شخص آخر على وجه الأرض أن يجد فيها معنى. وهذا أحد الأسباب التي تجعلنا نحب الإنترنت.
وهذه منطقة أخرى من المجتمع تعاني من التأثيرات المتتالية لثورة الذكاء الاصطناعي. وقد تبدو تكاليف الخادم لمشغل قاعدة بيانات صغير غير جديرة بالذكر. لكن قصة كوتس ترمز إلى سؤال أكبر: عندما يأتي الذكاء الاصطناعي لتغيير العالم، فمن يتحمل التكلفة؟
يقول كوتس إنه يحتفظ بقاعدة البيانات كمصدر للمواد المرجعية لمصممي الألعاب الآخرين. وهو يخشى أن تحل الذكاء الاصطناعي التوليدي، الذي يعتمد على عمل المبدعين البشريين، محل هؤلاء المبدعين أنفسهم.
وقال كوتس “إن اكتشاف أن عملي لا يُسرق من قبل منظمة كبيرة فحسب، بل يُستخدم لإيذاء الأشخاص الذين أحاول مساعدتهم، أمر يجعلني أشعر بالمرض الشديد”.
