يتيح ملف Robots.txt لأصحاب مواقع الويب اختيار ما إذا كانوا يريدون السماح لـ Google وعمالقة التكنولوجيا الآخرين باستخلاص المحتوى الخاص بهم عبر الإنترنت. لقد سمحت معظم المواقع لـ Google بالقيام بذلك لأن الشركة توزع الكثير من الزيارات القيمة.
ثم بدأت حروب الذكاء الاصطناعي. وتبين أن كل هذا المحتوى قد تم تخزينه في مجموعات البيانات التي تشكل الأساس لتدريب نماذج الذكاء الاصطناعي القوية، بما في ذلك نماذج OpenAI وGoogle وMeta وغيرها. غالبًا ما تجيب هذه النماذج على أسئلة المستخدم مباشرة، لذلك قد يتم توزيع حركة مرور أقل وتبدأ صفقة الويب الكبرى في الانهيار.
كان جزء من استجابة Google هو إطلاق أداة جديدة تتيح لمواقع الويب منع الشركة من استخدام المحتوى الخاص بها لتدريب نماذج الذكاء الاصطناعي. يطلق عليه جوجل الموسعة. لقد تم طرحه في سبتمبر، وهو يحصل على بعض الالتقاط.
تُظهر البيانات التي شاركتها Originality.ai أن مقتطف Google الموسع يُستخدم من قبل حوالي 10% من أفضل 1000 موقع ويب، اعتبارًا من أواخر مارس.
قامت صحيفة نيويورك تايمز بتمكين أداة حظر Google الموسعة، وفقًا لمراجعة ملف robots.txt الخاص بها. المنشور، الذي يخوض معركة حامية بشأن حقوق الطبع والنشر للذكاء الاصطناعي مع OpenAI، قام أيضًا بحظر وصول تلك الشركة الناشئة إلى محتواه.
إنها في طريق الحرب مع الشركات الأخرى التي إما تستغل البيانات عبر الإنترنت للتدريب على نماذج الذكاء الاصطناعي، أو تجمع هذا النوع من البيانات ليستخدمها الآخرون بطرق مماثلة.
“يُحظر استخدام أي جهاز أو أداة أو عملية مصممة لاستخراج البيانات أو استخراج المحتوى باستخدام وسائل آلية دون الحصول على إذن كتابي مسبق”، حسبما ذكرت صحيفة نيويورك تايمز في صفحة ملف robots.txt الخاصة بها.
ويضيف الناشر أن الاستخدامات المحظورة تشمل “تطوير أي برنامج، أو التعلم الآلي، أو الذكاء الاصطناعي (AI)، و/أو نماذج اللغات الكبيرة (LLMs).” ورفض متحدث باسم نيويورك تايمز التعليق.
حظرت جوجل أقل من OpenAI
بالنسبة إلى Google Extended، قامت مواقع ويب أخرى بتفعيل هذا أيضًا، بما في ذلك CNN، وBBC، وYelp، وBusiness Insider، ناشر هذه القصة.
ومع ذلك، فقد حظي Google-Extending بمعدل انتعاش أقل بكثير من GTBot التابع لـ OpenAI، والذي يحوم حول 32% من أفضل 1000 موقع ويب. تم أيضًا تشغيل المزيد من CCBot، الذي تقدمه Common Crawl.
سأل BI الرئيس التنفيذي لشركة Originality.ai جوناثان جيلهام عن سبب استخدام Google-Extending بشكل أقل من أدوات حظر البيانات الأخرى للتدريب على الذكاء الاصطناعي.
وقال إنه إذا طرحت جوجل محرك بحث توليدي يعمل بالذكاء الاصطناعي على نطاق أوسع من الجمهور، فهناك خطر من أن المواقع التي منعت وصول الشركة إلى بيانات التدريب لن يتم التقاطها في النتائج التي يولدها الذكاء الاصطناعي.
“إذا كان الاستعلام هو “ما هي أفضل بيتزا طبق عميق في شيكاغو؟” وأوضح جيلهام أن “متجر بيتزا يستبعد الذكاء الاصطناعي التابع لشركة Google من استخدام بيانات موقع الويب الخاص به للتدريب عليه، فلن يكون لديه أي معرفة بهذا المطعم ولن يتمكن من إدراجه في رده”.
تختبر شركة Google إصدارًا مبكرًا من بحث genAI من خلال تجربة البحث المولدة (Search Geneative Experience) أو SGE. ومن غير الواضح ما إذا كانت الشركة ستطلق هذا بالكامل في المستقبل، أو مدى اختلافه عن محرك بحث Google التقليدي.
ستقطع هذه القرارات شوطًا طويلًا في تحديد مستقبل الويب في عالم الذكاء الاصطناعي الجديد هذا.
لدى شركة Axel Springer، الشركة الأم لـ Business Insider، صفقة عالمية للسماح لـ OpenAI بتدريب نماذجها على تقارير العلامات التجارية الإعلامية الخاصة بها.