قامت شركة OpenAI بتدمير مجموعة كبيرة من الكتب المستخدمة لتدريب نماذج الذكاء الاصطناعي. لقد رحل الموظفون الذين جمعوا البيانات.

تكشف المستندات التي تم الكشف عنها حديثًا في الدعوى الجماعية التي رفعتها نقابة المؤلفين ضد OpenAI أن الشركة الناشئة حذفت مجموعتين ضخمتين من البيانات، تسمى “books1” و”books2″، والتي تم استخدامها لتدريب نموذج GPT-3 AI الخاص بها.

قال محامو نقابة المؤلفين في ملفات المحكمة إن مجموعات البيانات من المحتمل أن تحتوي على “أكثر من 100 ألف كتاب منشور” وهي أساسية لادعاءاتها بأن OpenAI استخدمت مواد محمية بحقوق الطبع والنشر لتدريب نماذج الذكاء الاصطناعي.

لعدة أشهر، كانت النقابة تسعى للحصول على معلومات من OpenAI حول مجموعات البيانات. قاومت الشركة في البداية، بحجة مخاوف تتعلق بالسرية، قبل أن تكشف في النهاية أنها حذفت جميع نسخ البيانات، وفقًا للملفات القانونية التي استعرضتها Business Insider.

تعد بيانات التدريب عالية الجودة جزءًا مهمًا من نماذج الذكاء الاصطناعي القوية التي تجتاح عالم التكنولوجيا. استخدمت شركة OpenAI وشركات أخرى بيانات من الإنترنت، بما في ذلك العديد من الكتب، لبناء هذه النماذج. تريد العديد من الشركات التي أنشأت هذه المعلومات أن تحصل على أموال مقابل تقديم معلومات استخباراتية لمنتجات الذكاء الاصطناعي الجديدة هذه. لا تريد شركات التكنولوجيا أن تُجبر على الدفع. يتم الآن خوض هذا النزاع في المحكمة من خلال عدة دعاوى قضائية.

في ورقة بيضاء لعام 2020، وصفت OpenAI مجموعات بيانات books1 وbooks2 بأنها “مجموعات كتب قائمة على الإنترنت” وقالت إنها تشكل 16% من بيانات التدريب التي تم استخدامها في إنشاء GPT-3. ويقول الكتاب الأبيض أيضًا إن “books1″ و”books2” يحتويان معًا على 67 مليار رمز من البيانات، أو ما يعادل تقريبًا 50 مليار كلمة. للمقارنة، يحتوي كتاب الملك جيمس الكتاب المقدس على 783.137 كلمة.

تقول الرسالة غير المختومة من محامي OpenAI، والتي تحمل عنوان “سري للغاية – عيون المحامين فقط”، إن استخدام الكتب 1 والكتب 2 للتدريب النموذجي قد توقف في أواخر عام 2021 وأنه تم حذف مجموعات البيانات في منتصف عام 2022 بسبب عدم وجودها. -يستخدم. تمضي الرسالة لتقول أنه لم يتم حذف أي من البيانات الأخرى المستخدمة لتدريب GPT-3، كما عرضت على محامي نقابة المؤلفين الوصول إلى مجموعات البيانات الأخرى.

تكشف الوثائق غير المختومة أيضًا أن الباحثين اللذين قاما بإنشاء الكتب 1 والكتب 2 لم يعودا يعملان لدى OpenAI. رفضت شركة OpenAI في البداية الكشف عن هوية الموظفين.

ومنذ ذلك الحين، قامت الشركة الناشئة بتحديد الموظفين لمحامي نقابة المؤلفين، لكنها لم تكشف عن أسمائهم علنًا. قدمت شركة OpenAI التماسًا إلى المحكمة للاحتفاظ بأسماء الموظفين، بالإضافة إلى معلومات حول مجموعات البيانات، تحت الختم. عارضت نقابة المؤلفين هذا الأمر، ودافعت عن حق الجمهور في المعرفة. النزاع مستمر.

وقالت OpenAI في بيان يوم الثلاثاء: “النماذج التي تعمل على تشغيل ChatGPT وواجهة برمجة التطبيقات (API) الخاصة بنا اليوم لم يتم تطويرها باستخدام مجموعات البيانات هذه”. “تم استخدام مجموعات البيانات هذه، التي أنشأها موظفون سابقون لم يعودوا يعملون في OpenAI، آخر مرة في عام 2021 وتم حذفها بسبب عدم استخدامها في عام 2022.”

What's Hot

شركة بي سمارت للحلول التكنولوجية.. انطلاقة قوية في السوق الرقمي السعودي

الكتب والأفلام التي تناولت فضيحة إبستين: قراءة في المشهد الثقافي حول سلطة بلا مساءلة

سيتادل سيكيوريتيز ترد على سيناريو نهاية العالم بالذكاء الاصطناعي في منشور فايروس ألغى أسهمًا

شركة بي سمارت للحلول التكنولوجية.. انطلاقة قوية في السوق الرقمي السعودي

شركة ناشئة بـ5 مليارات دولار تريد استخدام الذكاء الاصطناعي لخفض الاحتيال في الإعانات الحكومية.

يقول البنتاغون إن الجيش الأمريكي لن يستخدم تكنولوجيا الذكاء الاصطناعي الخاصة بشركة أنثروبيك إلا بطرق قانونية

شركتان عملاقتان في البرمجيات تدافعان عن دورهما في عصر الذكاء الاصطناعي

بيربلكستي للذكاء الاصطناعي: دَاو جونز اعتدت على روبوتنا في دعوى انتهاك حقوق ملكية

رحلتك القادمة مع أوبر قد تكون في السماء

تتطلع الهند إلى استثمارات بقيمة 200 مليار دولار في مراكز البيانات في إطار تكثيفها لطموحاتها في مجال الذكاء الاصطناعي

انهيار برنامج 2026 يغير السلطة من تطبيقات SaaS إلى وكلاء الذكاء الاصطناعي

لم تنفجر زلاجات ليندسي فون في حادث تحطمها الأولمبي. نظام ربط مختلف ليس قريبًا

What's Hot

قامت شركة OpenAI بتدمير مجموعة كبيرة من الكتب المستخدمة لتدريب نماذج الذكاء الاصطناعي. لقد رحل الموظفون الذين جمعوا البيانات.

المقالات ذات الصلة