اكتشفت قضية قانونية رفيعة المستوى مجموعة من الاتصالات الوصفية الداخلية ، ووثائق معينة لفتت انتباه بعض الباحثين من الذكاء الاصطناعي.

هذا يكشف عن رؤى جديدة حول كيفية بناء النماذج ويمكن أن تؤثر على من سيشارك في غنائم هذه التكنولوجيا الجديدة.

تم دفنها في ملفات المحكمة هذه وصفًا لكيفية استخدام الباحثين الوصفيين لعملية تسمى الاجتثاث لتحديد البيانات التي ساعدت في تحسين نماذج LLAMA AI للشركة.

الاجتثاث هي تقنية طبية تدمر عن قصد الأنسجة لتحسين أشياء مثل وظيفة الدماغ. في الذكاء الاصطناعي ، يتضمن إزالة أجزاء من النظام لدراسة كيفية مساهمة هذه المكونات في الأداء.

في تجارب الاجتثاث في Meta ، استبدلت الشركة جزءًا من بيانات التدريب الخاصة بها من الذكاء الاصطناعي مع كتب مقرصنة من قاعدة بيانات عملاقة تسمى Libgen. ثم ، قامت الشركة بإعادة تدريب نموذج Llama الخاص بها لرؤية التأثير.

في إحدى التجارب ، أضافت Meta كتبًا عن العلوم والتكنولوجيا ، إلى جانب الكتب الخيالية ، إلى بيانات التدريب. في تجربة ثانية ، أضافت Meta فقط كتب خيالية.

في كلتا التجربتين ، تم تحسين أداء Llama بشكل خاص في تقييمات الصناعة القياسية ، وفقًا لوثيقة التعريف الداخلية التي تم الكشف عنها في ملفات المحكمة. (تحقق من الصفحتين 18 و 19 هنا.)

هذا يدل على أن Meta لديها القدرة على تعيين قيمة لبيانات تدريب محددة ، كما قال نيك فينسنت ، أستاذ مساعد في كلية علوم الحوسبة في جامعة سيمون فريزر.

الاستئصال شائع ، ولكنه أيضًا سر

أصبح الاجتثاث ممارسة شائعة في الشركة وعبر صناعة الذكاء الاصطناعي. على سبيل المثال ، يذكر مهندس ميتا واحد على LinkedIn القيام بأكثر من 100 واجب أثناء تطوير Llama 4 والتكرارات السابقة لنماذج الشركة الكبيرة من الذكاء الاصطناعي.

وقال فنسنت إن Meta لا تنشر نتائج هذه التجارب ، وما قاله فنسنت إن شركات الذكاء الاصطناعي الأخرى تبقي هذه الأشياء خاصة أيضًا.

أحد الأسباب المحتملة: إذا أخبر عمالقة التكنولوجيا العالم الذي ساعد بيانات التدريب على وجه التحديد على نماذج الذكاء الاصطناعى ، فإن المبدعين في هذه المعلومات يريدون أن يتم دفعهم – وسيكون لديهم تقدير مفيد لمقدار الأموال التي يدينون بها.

وقال فنسنت: “إن ذكر هذه الأرقام علنًا من المحتمل أن يمنح بعض منظمات المحتوى أرضًا أكثر ثباتًا للوقوف”.

إن جعل نتائج تجارب الاجتثاث العامة يمكن أن تؤثر أيضًا على دعاوى حقوق الطبع والنشر ذات المخاطر العالية التي تغضب عبر صناعة التكنولوجيا-مع هذه الحالة التعريف المحددة (Kadrey v. Meta) هي مثال جيد.

في هذه الحالات ، يجادل عمالقة التكنولوجيا والشركات الناشئة من الذكاء الاصطناعي بأنه ليس انتهاكًا لحقوق الطبع والنشر للآلات “للتعلم” من المواد المنشورة عبر الإنترنت.

المستندات الداخلية تعيين قيمة لمحتوى معين قد لا تساعد في هذا.

وقال فنسنت: “من المحتمل أن تنشر تقديرات القيمة هذه من شأنها أن تقوض المواقف التي ستتخذه شركات التكنولوجيا الكبرى في دعاوى حقوق الطبع والنشر هذه وقضايا المحكمة”.

وقال متحدث باسم META إن الشركة لا توافق على حجج المدعي في هذه القضية القانونية وأضاف أن نماذج LLAMA الخاصة بها تساعد الأفراد والشركات على أن تكون أكثر ابتكارًا وإنتاجية وإبداعية.

وقال المتحدث “سنستمر في الدفاع عن أنفسنا بقوة وحماية تطور جيناي لصالح الجميع”.

مصادر بيانات التدريب مخفية الآن

إن الحفاظ على تجارب الاجتثاث السرية يتبع اتجاهًا أوسع بعيدًا عن مشاركة كيفية مساهمة البيانات في إنشاء نماذج الذكاء الاصطناعى وأداءها.

في عام 2017 ، ورقة أبحاث Google التي انطلقت طفرة الذكاء الاصطناعى التوليدي كشفت معلومات حبيبية عن بيانات التدريب المستخدمة. وشملت حوالي 40،000 جملة من صحيفة وول ستريت جورنال ، على سبيل المثال. منذ سنوات ، وصف Openai ، في ورقة GPT-2 ، تجريف صفحات الويب باستخدام ملايين الروابط الصادرة من Reddit.

تقدم سريعًا إلى اليوم ، وتشارك الشركات القليل جدًا. عندما أصدرت Meta Llama 4 في أوائل أبريل ، نشرت الشركة بطاقة نموذجية تصف كيف بنى المنتج. لم يذكر التذرية على الإطلاق ، وقد ناقش فقط بيانات التدريب بشكل عام على أنها “مزيج من البيانات والمعلومات المرخصة للجمهور من منتجات وخدمات Meta.”

مرة أخرى ، السبب المحتمل لذلك هو أن إخبار الجميع بالبيانات التي استخدمتها قد تعني الاضطرار إلى دفع المبدعين في هذه المعلومات.

وقال بيل جروس ، الرئيس التنفيذي لشركة Prorata ، وهي شركة ناشئة تحاول تعويض المبدعين عن مساهماتهم في الذكاء الاصطناعي: “من المخيب للآمال حقًا أنهم لا ينفتحون حيال ذلك ، وأنهم لا يعطون الفضل في المواد”.

يجب أن يتم دفع المبدعين المذكورين مرتين: مرة واحدة لاستخدام بياناتهم لتدريب نماذج الذكاء الاصطناعى ومرة ​​أخرى عندما تعتمد نماذج الذكاء الاصطناعي على هذا المحتوى للإجابة على أسئلة المستخدم.

نتائج استئصال ميتا السرية

تركز تجارب استئصال Meta على خطوة التدريب الأولى ، والتي تستخدم جبال البيانات لمساعدة النماذج على فهم العالم. على سبيل المثال: لتعليم آلة للتعرف على LLAMA ، يجب أن تظهر لها أكبر عدد ممكن من صور اللاما والألبكة حتى تتمكن من التمييز بين الحيوانات.

وجدت تجربة الاجتثاث الأولى في Meta أن إضافة كتب العلوم والتكنولوجيا والخيال إلى بيانات التدريب قد أدت إلى تحسين أداء Llama بنسبة 4.5 ٪ على معيار الصناعة يسمى Booiq. فقط إضافة كتب الخيال أدت إلى تحسن بنسبة 6 ٪.

وقالت الوثيقة الداخلية التعريف إن مكاسب الأداء من تجارب الاجتثاث هذه كانت تصل إلى 5.5 ٪ على معيار آخر يعرف باسم SIQA.

قام بيتر هندرسون ، أستاذ مساعد في علوم الكمبيوتر في برينستون ، بتغريد بعض المخططات الوصفية من وثيقة المحكمة التي تظهر هذه المكاسب.

في حين أن مكاسب الأداء تبلغ حوالي 5 ٪ تبدو صغيرة ، في سباق الذكاء الاصطناعي ، فإن أي ميزة مهمة.

وقال جروس: “هذا في الواقع لأنه من الصعب للغاية الحصول على كل نقطة إضافية على معايير الذكاء الاصطناعي”.

هل يمكن للجان أن يتزاوج مع البشر؟

وقال فنسنت إن تحسن لاما في معيار Booiq يوضح قوة بيانات التدريب المحددة ومقدار نماذج الذكاء الاصطناعى وشركات التكنولوجيا التي تعتمد على هذه المعلومات.

Boolq هي سلسلة من 15،942 نعم/لا أسئلة يجب أن تجيب عليها نماذج الذكاء الاصطناعي. كلما زاد عدد الأسئلة التي يحصلون عليها بشكل صحيح ، زاد الأداء. التحسن بنسبة 5 ٪ هو ما يعادل الإجابة على ما يقرب من 800 سؤال إضافي بشكل صحيح.

سؤال واحد حول اختبار Booiq ، “هل يمكن للجان والبشر أن يتزاوج في” Lord of the Rings؟ “

وقال فنسنت إنه يمكنك فقط معرفة الإجابة على هذا بالتأكيد إذا كنت قد قرأت كتب JRR Tolkien – أو بالأحرى إذا كانت هذه الكتب في بيانات التدريب. (الجان والبشر يستطيع أنجب أطفالًا في عالم Lotr ، بالمناسبة).

يأمل فنسنت أن يساعد الكشف عن ذلك حول تجارب الاجتثاث السرية في Meta على إنشاء نظام جديد يعين الائتمان لمصادر بيانات التدريب ويوفر تعويضًا مناسبًا.

وقال: “تعتمد منتجات AI chatbot على حقيقة أن بعض الإنسان في مكان ما فعلوا شيئًا مفيدًا ، وكتبه ، ونشره”. “هذه التكنولوجيا تعيد تعبئة هذه الأشياء إلى شيء نأمل أن يكون أكثر فائدة.”

وأضاف “في النهاية ، كل البشر في الجزء العلوي من هذا. بدون هذه البيانات ، لن تكون نماذج الذكاء الاصطناعي جيدة”. “قد ينتهي الأمر بمثل هذا الاجتثاث بخدمة مهمة إنشاء تدفق بيانات صحي. من المهم الحفاظ على المؤسسات التي يتم فيها تحفيز الأشخاص لإنشاء المحتوى والمعرفة ومشاركتها.”