تكشف المستندات التي تم الكشف عنها حديثًا في الدعوى الجماعية التي رفعتها نقابة المؤلفين ضد OpenAI أن الشركة الناشئة حذفت مجموعتين ضخمتين من البيانات، تسمى “books1” و”books2″، والتي تم استخدامها لتدريب نموذج GPT-3 AI الخاص بها.
قال محامو نقابة المؤلفين في ملفات المحكمة إن مجموعات البيانات من المحتمل أن تحتوي على “أكثر من 100 ألف كتاب منشور” وهي أساسية لادعاءاتها بأن OpenAI استخدمت مواد محمية بحقوق الطبع والنشر لتدريب نماذج الذكاء الاصطناعي.
لعدة أشهر، كانت النقابة تسعى للحصول على معلومات من OpenAI حول مجموعات البيانات. قاومت الشركة في البداية، بحجة مخاوف تتعلق بالسرية، قبل أن تكشف في النهاية أنها حذفت جميع نسخ البيانات، وفقًا للملفات القانونية التي استعرضتها Business Insider.
تعد بيانات التدريب عالية الجودة جزءًا مهمًا من نماذج الذكاء الاصطناعي القوية التي تجتاح عالم التكنولوجيا. استخدمت شركة OpenAI وشركات أخرى بيانات من الإنترنت، بما في ذلك العديد من الكتب، لبناء هذه النماذج. تريد العديد من الشركات التي أنشأت هذه المعلومات أن تحصل على أموال مقابل تقديم معلومات استخباراتية لمنتجات الذكاء الاصطناعي الجديدة هذه. لا تريد شركات التكنولوجيا أن تُجبر على الدفع. يتم الآن خوض هذا النزاع في المحكمة من خلال عدة دعاوى قضائية.
في ورقة بيضاء لعام 2020، وصفت OpenAI مجموعات بيانات books1 وbooks2 بأنها “مجموعات كتب قائمة على الإنترنت” وقالت إنها تشكل 16% من بيانات التدريب التي تم استخدامها في إنشاء GPT-3. ويقول الكتاب الأبيض أيضًا إن “books1″ و”books2” يحتويان معًا على 67 مليار رمز من البيانات، أو ما يعادل تقريبًا 50 مليار كلمة. للمقارنة، يحتوي كتاب الملك جيمس الكتاب المقدس على 783.137 كلمة.
تقول الرسالة غير المختومة من محامي OpenAI، والتي تحمل عنوان “سري للغاية – عيون المحامين فقط”، إن استخدام الكتب 1 والكتب 2 للتدريب النموذجي قد توقف في أواخر عام 2021 وأنه تم حذف مجموعات البيانات في منتصف عام 2022 بسبب عدم وجودها. -يستخدم. تمضي الرسالة لتقول أنه لم يتم حذف أي من البيانات الأخرى المستخدمة لتدريب GPT-3، كما عرضت على محامي نقابة المؤلفين الوصول إلى مجموعات البيانات الأخرى.
تكشف الوثائق غير المختومة أيضًا أن الباحثين اللذين قاما بإنشاء الكتب 1 والكتب 2 لم يعودا يعملان لدى OpenAI. رفضت شركة OpenAI في البداية الكشف عن هوية الموظفين.
ومنذ ذلك الحين، قامت الشركة الناشئة بتحديد الموظفين لمحامي نقابة المؤلفين، لكنها لم تكشف عن أسمائهم علنًا. قدمت شركة OpenAI التماسًا إلى المحكمة للاحتفاظ بأسماء الموظفين، بالإضافة إلى معلومات حول مجموعات البيانات، تحت الختم. عارضت نقابة المؤلفين هذا الأمر، ودافعت عن حق الجمهور في المعرفة. النزاع مستمر.
وقالت OpenAI في بيان يوم الثلاثاء: “النماذج التي تعمل على تشغيل ChatGPT وواجهة برمجة التطبيقات (API) الخاصة بنا اليوم لم يتم تطويرها باستخدام مجموعات البيانات هذه”. “تم استخدام مجموعات البيانات هذه، التي أنشأها موظفون سابقون لم يعودوا يعملون في OpenAI، آخر مرة في عام 2021 وتم حذفها بسبب عدم استخدامها في عام 2022.”