أطلقت شركة Meta مؤخرًا روبوتات جديدة تعمل على تصفح الويب وامتصاص البيانات لنماذج الذكاء الاصطناعي والمنتجات ذات الصلة.
تتمتع هذه الروبوتات بميزات تجعل من الصعب على أصحاب مواقع الويب منع جمع المحتوى الخاص بهم.
وبحسب الشركة، فإن روبوت Meta-ExternalAgent مخصص “لحالات الاستخدام مثل تدريب نماذج الذكاء الاصطناعي أو تحسين المنتجات عن طريق فهرسة المحتوى بشكل مباشر”.
أما الأداة الثانية، والتي تسمى Meta-ExternalFetcher، فهي مرتبطة بعروض المساعد الذكي التي تقدمها الشركة وتجمع روابط الويب لدعم وظائف المنتج المحددة.
ظهرت هذه الروبوتات لأول مرة في وقت ما في شهر يوليو، وفقًا لصفحات الويب المؤرشفة Meta التي حللتها Originality.ai، وهي شركة ناشئة متخصصة في اكتشاف محتوى الذكاء الاصطناعي.
ملف robots.txt تحت النار
تتسابق الشركات الناشئة وشركات التكنولوجيا العملاقة لبناء أقوى نماذج الذكاء الاصطناعي. العنصر الرئيسي هو الجودة العالية بيانات التدريبأحد الطرق الرئيسية لتجميع هذه البيانات هو إرسال الروبوتات إلى الويب لفحص المحتوى عبر الإنترنت وجمعه. تمتلك Google وOpenAI وAnthropic والعديد من شركات الذكاء الاصطناعي الأخرى هذه الروبوتات.
إذا أراد أصحاب المحتوى حظر مثل هذه الروبوتات، فإنهم يستخدمون قاعدة ثابتة تسمى ملف robots.txt هذا يمنع الكشط الآلي لمواقع الويب. إنه جزء واحد من التعليمات البرمجية التي تم استخدامها منذ أواخر التسعينيات ويتم قبولها على نطاق واسع باعتبارها واحدة من القواعد غير الرسمية التي تدعم الويب.
لكن التعطش لبيانات تدريب الذكاء الاصطناعي أدى إلى تقويض هذا النظام. ففي يونيو/حزيران، أوبن أيه آي و انثروبي وقد وجد أنهم يتجاهلون ملف robots.txt أو يتحايلون عليه.
تجاوز بوت ميتا
قد تحاول Meta أيضًا تجنب قاعدة robots.txt بطرق خفية.
تحذر الشركة من أن أحد روبوتاتها الجديدة، Meta-ExternalFetcher، “قد يتجاوز قواعد robots.txt”.
في هذه الأثناء، يقوم روبوت Meta-ExternalAgent بأداء وظيفتين، وهو أمر غير معتاد. تتمثل الوظيفة الأولى في جمع بيانات تدريب الذكاء الاصطناعي، بينما تتمثل الوظيفة الثانية في فهرسة المحتوى.
قد يرغب أصحاب مواقع الويب في منع Meta من امتصاص بياناتهم لتدريب نموذج الذكاء الاصطناعي، ولكن قد يرغبون في أن تقوم شركة التكنولوجيا العملاقة بفهرسة مواقعهم حتى يزورها المزيد من المستخدمين البشريين.
إن الجمع بين الوظيفتين في بوت واحد يجعل حظره أكثر صعوبة. ويمكن ملاحظة ذلك، حيث قامت 1.5% فقط من أفضل المواقع بحظر بوت Meta-ExternalAgent الجديد، وفقًا لـ Originality.ai.
وهذا يقارن ببرنامج Meta crawler السابق، المسمى FacebookBot، والذي كان يجمع البيانات عبر الإنترنت لسنوات لتدريب نماذج اللغة الكبيرة وتقنية التعرف على الكلام بالذكاء الاصطناعي في Meta. تم حظر هذا الروبوت من قبل ما يقرب من 10% من أفضل المواقع الإلكترونية، بما في ذلك Twitter وYahoo، وفقًا لـ Originality.ai.
وفقًا لـ Originality.ai، يتم حظر برنامج Meta bot الجديد الآخر، Meta-ExternalFetcher، بواسطة أقل من 1% من أفضل المواقع الإلكترونية.
قال جون جيلهام، الرئيس التنفيذي لشركة Originality.ai: “يجب على الشركات أن توفر للمواقع الإلكترونية القدرة على منع استخدام بيانات مواقعها للتدريب مع عدم تقليل ظهور محتوى المواقع الإلكترونية في منتجاتها”.
التعليقات الوصفية
ورد متحدث باسم شركة Meta على هذا قائلا إن الشركة تحاول “تسهيل على الناشرين الإشارة إلى تفضيلاتهم”.
وكتب المتحدث باسم الشركة في رسالة إلكترونية إلى موقع Business Insider: “مثل الشركات الأخرى، نقوم بتدريب نماذج الذكاء الاصطناعي التوليدي الخاصة بنا على المحتوى المتاح للجمهور عبر الإنترنت. ونحن ندرك أن بعض الناشرين وأصحاب النطاقات على الويب يريدون خيارات عندما يتعلق الأمر بمواقع الويب الخاصة بهم والذكاء الاصطناعي التوليدي”.
وأضاف المتحدث باسم Meta أن الشركة لديها العديد من روبوتات الزحف على الويب لتجنب “تجميع جميع حالات الاستخدام تحت وكيل واحد، مما يوفر المزيد من المرونة لناشري الويب”.
يمكن لأصحاب المواقع العثور على معلومات حول كيفية حظر روبوتات Meta هنا.

