يفترض مجتمع الذكاء الاصطناعي أن OpenAI تستخدم كميات هائلة من مقاطع فيديو يوتيوب لتدريب النماذج، بما في ذلك عرض Sora الجديد.

يكاد يكون سرا مفتوحا في هذه المرحلة. ويكمن اللغز في كيفية وصول OpenAI إلى ما يكفي من محتوى YouTube لإنجاز هذا العمل.

يحظر موقع YouTube التابع لشركة Google نسخ مقاطع الفيديو الخاصة به عن طريق برامج الروبوت والطرق الآلية الأخرى، كما يحظر التنزيلات لأغراض تجارية.

كما سيخنق عملاق الإنترنت محاولات تنزيل بيانات فيديو يوتيوب بكميات كبيرة. ظهرت شكاوى حول هذا الأمر في منتدى البرمجة GitHub وReddit لسنوات. قال المستخدمون إن محاولات تنزيل مقطع فيديو واحد على YouTube ستكون بطيئة جدًا بحيث تستغرق ساعات حتى تكتمل.

تتطلب OpenAI كميات هائلة من النصوص والصور والفيديو لتدريب نماذج الذكاء الاصطناعي الخاصة بها. وهذا يعني أن الشركة الناشئة يجب أن تكون قد قامت بطريقة أو بأخرى بتنزيل كميات ضخمة من محتوى YouTube، أو الوصول إلى هذه البيانات بطريقة تتغلب على قيود Google.

تعليق OpenAI

محتوى YouTube متاح مجانًا عبر الإنترنت، لذا فإن تنزيل كميات صغيرة منه لأغراض البحث يبدو أمرًا غير ضار. قد يكون استغلال ملايين مقاطع الفيديو لإنشاء نماذج ذكاء اصطناعي جديدة وقوية أمرًا مختلفًا تمامًا. أفادت المعلومات أن OpenAI استخدمت مقاطع فيديو على YouTube لتدريب نموذج يسمى Whisper.

سأل موقع Business Insider شركة OpenAI عما إذا كانت قد قامت بتنزيل مقاطع فيديو YouTube على نطاق واسع وما إذا كانت الشركة الناشئة تستخدم هذا المحتوى كبيانات للتدريب على نماذج الذكاء الاصطناعي. سأل BI أيضًا OpenAI عن القيود التي تفرضها Google على تنزيلات الفيديو كبيرة الحجم على YouTube.

وقال متحدث باسم OpenAI: “تضمن تدريب Sora مواد من مصادر مرخصة بالإضافة إلى محتوى متاح للجمهور من الإنترنت”. ورفض المتحدث التعليق على الأسئلة المحددة التي طرحها BI.

سأل BI أيضًا Google عن كل هذا. ورفضت التعليق.

سباق للحصول على بيانات عالية الجودة

كان الظهور السريع للذكاء الاصطناعي التوليدي سبباً في إشعال سباق عالمي للحصول على بيانات عالية الجودة لتدريب النماذج التي تدعم خدمات مثل ChatGPT وMicrosoft Copilots. لا توجد قواعد واضحة حول ما هو قانوني أو أخلاقي أو حتى أفضل الممارسات في هذا المجال الجديد.

من المحتمل ألا يكون الوصول إلى مقاطع فيديو YouTube بطرق قد تنتهك شروط خدمة Google أمرًا غير قانوني. لقد أثبتت سنوات عديدة من السوابق القضائية ومبدأ “الاستخدام العادل” الحق في استخدام المحتوى عبر الإنترنت بحرية بعدة طرق مختلفة. تجادل Google وOpenAI وشركات التكنولوجيا الأخرى حاليًا بأن استخدام المحتوى المحمي بحقوق الطبع والنشر للتدريب على نماذج الذكاء الاصطناعي يعد أمرًا قانونيًا أيضًا. وهذا لم يتم تحديده بعد من قبل المنظمين أو في المحكمة.

سحق التجارة الإلكترونية

وهذا يترك شركات الذكاء الاصطناعي تسعى جاهدة لجمع بيانات تدريب عالية الجودة بأي طريقة ممكنة. قال شخص مطلع على عمليات OpenAI إن الشركة تكلف فريقًا يخضع لحراسة مشددة للحصول على بيانات التدريب، وأنه من المزعج داخليًا السؤال عن كيفية حصولهم على هذه البيانات بالضبط.

قام أحد الباحثين ذوي الخبرة في مجال الذكاء الاصطناعي في شركة أخرى بمقارنة وضع OpenAI-YouTube بجزء آخر من عالم التكنولوجيا حيث قواعد اللعبة إما لم يتم تسويتها أو تجاهلها.

في التجارة الإلكترونية، أصبح من الشائع الآن أن تقوم الشركات بجمع بيانات أسعار المنتجات من القوائم المنافسة عبر الإنترنت. في حين أن هذا محظور تقنيًا في العديد من شروط الخدمة، فقد وصل جميع اللاعبين إلى نوع من الانفراج حيث سمحوا باستخلاص بياناتهم طالما أنهم يستطيعون استخراجها أيضًا.

مع اصطدام عالم الوسائط عبر الإنترنت بتطوير نموذج الذكاء الاصطناعي، تظل أسئلة تجريف البيانات دون إجابة.

نقطة سورا

سبق أن كشفت شركة OpenAI ومطورو نماذج الذكاء الاصطناعي الآخرون عن مصادر بيانات التدريب في الأوراق البحثية المنشورة، لكن هذه الممارسة انتهت في الغالب مع اشتداد المنافسة.

سألت صحيفة وول ستريت جورنال مؤخرًا مديرة التكنولوجيا في OpenAI ميرا موراتي عما إذا كانت الشركة الناشئة قد استخدمت مقاطع فيديو على YouTube لتدريب Sora.

وقالت: “لست متأكدة في الواقع من ذلك”. وعندما سئل مرة أخرى عن مصادر بيانات التدريب، أجاب موراتي: “لن أخوض في التفاصيل”.

لدى شركة Axel Springer، الشركة الأم لـ Business Insider، صفقة عالمية للسماح لـ OpenAI بتدريب نماذجها على تقارير العلامات التجارية الإعلامية الخاصة بها.

هل أنت موظف حالي أو سابق في OpenAI؟ حصلت على معلومات سرية؟

تواصل مع Ashley Stewart عبر تطبيق المراسلة المشفر Signal (+1-425-344-8242) أو البريد الإلكتروني ([email protected]). تواصل باستخدام جهاز غير خاص بالعمل.

شاركها.