اتهمت دعوى قضائية جماعية جديدة في المحكمة الفيدرالية في سان فرانسيسكو شركة البرمجيات العملاقة Salesforce ببناء نماذج XGen AI الخاصة بها على مكتبة مقرصنة من الكتب ثم مسح الإشارات إلى تلك المصادر بمجرد ظهور الأسئلة.
تم رفع الدعوى يوم الأربعاء من قبل المؤلفين إي مولي تانزر وجنيفر جيلمور، بموجب قانون حقوق الطبع والنشر، بدعوى الانتهاك المستمر، قائلين إن شركة Salesforce “تواصل القيام بذلك من خلال الاستمرار في تخزين ونسخ واستخدام ومعالجة مجموعات البيانات التي تحتوي على نسخ من كتب المدعين المحمية بحقوق الطبع والنشر”.
تقول الشكوى إن شركة Salesforce.INC “قامت بقرصنة مئات الآلاف من الكتب المحمية بحقوق الطبع والنشر لتطوير سلسلة XGen الخاصة بها من نماذج اللغات الكبيرة”، بالاعتماد على “مجموعات بيانات RedPajama وThe Pile سيئة السمعة” التي تتضمن مجموعة كتب تُعرف باسم Books3، وهي مجموعة تضم أكثر من 196000 كتاب منسوخة من شركة التتبع الخاصة Bibliotik.
يقول الملف إن Salesforce أدرجت في البداية “RedPajama-Books” ضمن مصادر التدريب الخاصة بها عندما أطلقت XGen في يونيو 2023، مع قيام مهندس الشركة بربط مستخدمي GitHub مباشرة بمجموعتي البيانات.
ومع ذلك، بحلول سبتمبر/أيلول، زُعم أن شركة Salesforce حذفت تلك المراجع من موقعها على الإنترنت واستبدلتها بأوصاف غامضة لـ “بيانات اللغة الطبيعية” المستمدة من “المصادر المتاحة للعامة”.
تقول الدعوى القضائية إن Hugging Face، المنصة التي تستضيف Books3، قامت بإزالة مجموعة البيانات في الشهر التالي، مستشهدة بشكاوى حقوق النشر.
تزعم الدعوى القضائية أن Salesforce استخدمت The Pile لتدريب نماذج CodeGen الخاصة بها في عام 2022، ثم قامت بتسويق التكنولوجيا من خلال منصة Agentforce AI الخاصة بها، بما في ذلك نموذج XGen-Sales الذي تم إصداره في أكتوبر 2024.
وبعد شهرين، زُعم أن شركة Salesforce قامت بمسح إفصاحاتها، وحذفت المخططات والإشارات إلى “RedPajama-Books” واستبدلتها بلغة غامضة حول “مزيج من البيانات المتاحة للجمهور”، قبل أن تدعي بحلول ديسمبر 2023 أن نماذجها استخدمت “مجموعة بيانات متوافقة قانونيًا” دون ذكر RedPajama.
صرح بذلك إيشيتا شارما، الشريك الإداري في شركة Fathom Legal فك التشفير أنه يجب على المؤلفين “إثبات الضرر المالي الحقيقي، وليس فقط استخدام كتبهم للتدريب”، مشيرًا إلى كيف رفض القاضي فينس تشابريا مؤخرًا ادعاءات مماثلة ضد ميتا، وحكم بأن “مجرد الادعاء بأن “عملنا قد تم استخدامه” ليس كافيًا”.
وقد فضلت الأحكام الأخيرة OpenAI و Anthropic في قضايا مماثلة، حيث وجد القضاة أن المؤلفين فشلوا في إثبات الضرر الذي يلحق بالسوق، على الرغم من أن أحدهم انتقد Anthropic لاحتفاظها “بمكتبة دائمة من الكتب المقرصنة”.
وقال شارما: “إن استخدام مجموعات البيانات العامة مثل RedPajama أو The Pile لا يمحو تلقائيًا الانتهاك المتعمد”، مضيفًا “إذا علموا أو تجاهلوا أن الأعمال المحمية بحقوق الطبع والنشر مدرجة، فقد تظل المحاكم تجد تجاهلًا متهورًا”.
وأضافت: “ما لم يتمكن الذكاء الاصطناعي من إعادة إنتاج أجزاء من العمل الأصلي، فإن أوزان النماذج نفسها لا تعتبر انتهاكًا لحقوق الطبع والنشر”.
تستشهد الشكوى بتصريحات من الرئيس التنفيذي لشركة Salesforce، مارك بينيوف، الذي قال لـ بلومبرج مقابلة في يناير 2024 أن شركات الذكاء الاصطناعي “سرقت” بيانات التدريب وأن “جميع بيانات التدريب قد سُرقت”.
يسعى المؤلفون إلى الحصول على شهادة فئة لجميع أصحاب حقوق الطبع والنشر في الولايات المتحدة الذين تم استخدام أعمالهم منذ أكتوبر 2022، ويطالبون بتعويضات قانونية، وتدمير النسخ المخالفة، وإهدار الأرباح، وإعلان الانتهاك المتعمد، وأتعاب المحاماة.