في محاولة لحماية جواهر التاج ، تتطلب Openai الآن التحقق من الهوية الحكومية للمطورين الذين يرغبون في الوصول إلى نماذج الذكاء الاصطناعى الأكثر تقدماً.

على الرغم من أن هذه الخطوة تتعلق رسميًا بوجود سوء استخدام ، إلا أن القلق الأعمق يبرز: يتم حصاد مخرجات Openai الخاصة لتدريب أنظمة الذكاء الاصطناعى المتنافسة.

تقدم ورقة بحثية جديدة من Copyleaks ، وهي شركة متخصصة في اكتشاف محتوى الذكاء الاصطناعي ، دليلًا على سبب عمل Openai الآن. باستخدام نظام يحدد “بصمات الأصابع” الأسلوبية لنماذج الذكاء الاصطناعى الرئيسية ، قدرت Copyleaks أن 74 ٪ من المخرجات من النموذج الصيني المتنافس ، Deepseek-R1 ، تم تصنيفها على أنها Openai التي تم كتابتها.

هذا لا يشير فقط إلى التداخل – فهو يعني التقليد.

تم اختبار مصنف Copyleaks أيضًا على طرز أخرى بما في ذلك Microsoft PHI-4 و Elon Musk's Grok-1. سجلت هذه النماذج تشابهًا تقريبًا مع Openai-99.3 ٪ و 100 ٪ “عدم الفئة” على التوالي-مما يشير إلى تدريب مستقل. يحتوي نموذج Mixtral الخاص بـ Mistral على بعض أوجه التشابه ، لكن أعداد Deepseek برزت بشكل صارخ.

يؤكد البحث كيف حتى عندما تتم مطالب النماذج بالكتابة بألوان أو تنسيقات مختلفة ، فإنها لا تزال تترك وراءها التوقيعات الأسلوبية القابلة للاكتشاف – مثل بصمات الأصابع اللغوية. تستمر هذه بصمات الأصابع عبر المهام والمواضيع والمطالبات ، ويمكن تتبعها الآن إلى مصدرها ببعض الدقة. له آثار هائلة على اكتشاف استخدام النموذج غير المصرح به ، وفرض اتفاقيات الترخيص ، وحماية الملكية الفكرية.

لم يرد Openai على طلبات التعليق. لكن الشركة ناقشت بعض الأسباب التي تجعلها قدمت عملية التحقق الجديدة. “لسوء الحظ ، تستخدم أقلية صغيرة من المطورين عن قصد واجهات برمجة التطبيقات Openai في انتهاك لسياسات الاستخدام لدينا” ، كتبت عند الإعلان عن التغيير مؤخرًا.

يقول Openai إن Deepseek قد يكون “يقطر بشكل غير لائق” نماذجه

في وقت سابق من هذا العام ، بعد أن أبهر Deepseek مجتمع الذكاء الاصطناعى بنماذج التفكير التي كانت متشابهة في الأداء في عروض Openai ، كانت شركة Startup في الولايات المتحدة أكثر وضوحًا: “نحن على دراية ونراجع الدلائل على أن Deepseek قد تكون قد قامت بتقطير نماذجنا بشكل غير لائق.”

التقطير هو عملية يقوم المطورون بتدريبها على نماذج جديدة باستخدام مخرجات النماذج الموجودة الأخرى. في حين أن مثل هذه التقنية شائعة في أبحاث الذكاء الاصطناعي ، فإن القيام بذلك دون إذن قد ينتهك شروط خدمة Openai.

ديبسيك ورقة البحث حول نموذج R1 الجديد الذي يصف باستخدام التقطير مع نماذج مفتوحة المصدر ، لكنه لا يذكر Openai. سألت ديبسيك عن مزاعم التقليد هذه في وقت سابق من هذا العام ولم تحصل على رد.

يشير النقاد إلى أن Openai نفسها قامت ببناء نماذجه المبكرة من خلال تجريد الويب ، بما في ذلك المحتوى من ناشري الأخبار والمؤلفين والمبدعين – في كثير من الأحيان دون موافقة. فهل من النفاق أن يشتكي Openai عندما يستخدم الآخرون مخرجاته بطريقة مماثلة؟

وقال آلون يامين ، الرئيس التنفيذي لشركة Copyleaks: “يتعلق الأمر حقًا بالموافقة والشفافية”.

التدريب على المحتوى البشري المحمي بحقوق الطبع والنشر دون إذن هو نوع واحد من القضايا. وأوضح أن استخدام مخرجات أنظمة الذكاء الاصطناعى الملكية لتدريب النماذج المتنافسة أمر آخر-إنه أشبه بالهندسة العكسية لمنتج شخص آخر.

يجادل يامين بأنه على الرغم من أن كلا الممارسين محفوظة أخلاقياً ، فإن التدريب على مخرجات Openai يثير مخاطر تنافسية ، حيث إنه ينقل بشكل أساسي الابتكارات المكتسبة بصعوبة دون معرفة المطور الأصلي أو تعويضه.

بينما تتسابق شركات AI لبناء نماذج قادرة على الإطلاق ، هذا النقاش حول من يمتلك ما يمكن أن يتزايد-ومن يمكنه التدريب على من-يكثف. توفر أدوات مثل نظام البصمات الرقمية لـ Copyleaks طريقة محتملة لتتبع التأليف والتحقق منه على مستوى النموذج. بالنسبة لـ Openai ومنافسيها ، قد يكون ذلك نعمة وتحذيرًا.