الذكاء الاصطناعي يمكن لأنظمة مثل ChatGPT أن تنفد قريبًا مما يجعلها أكثر ذكاءً، وهي عشرات التريليونات من الكلمات التي كتبها الأشخاص وشاركوها عبر الإنترنت.
أ دراسة جديدة صدرت يوم الخميس تتوقع مجموعة الأبحاث Epoch AI أن شركات التكنولوجيا سوف تستنفد إمدادات بيانات التدريب المتاحة للجمهور لنماذج لغة الذكاء الاصطناعي بحلول نهاية العقد تقريبًا – في وقت ما بين عامي 2026 و2032.
وبمقارنته بـ “الاندفاع الحرفي للذهب” الذي يستنزف الموارد الطبيعية المحدودة، قال تاماي بيسيروغلو، مؤلف الدراسة، إن مجال الذكاء الاصطناعي قد يواجه تحديات في الحفاظ على وتيرة التقدم الحالية بمجرد استنزاف احتياطيات الكتابة التي ينتجها الإنسان.
على المدى القصير، تتسابق شركات التكنولوجيا مثل OpenAI التي تصنع ChatGPT وGoogle لتأمين مصادر بيانات عالية الجودة، وفي بعض الأحيان الدفع مقابلها، لتدريب نماذجها اللغوية الكبيرة المستندة إلى الذكاء الاصطناعي – على سبيل المثال، من خلال توقيع صفقات للاستفادة من التدفق المستمر للجمل القادمة. من منتديات رديت و وسائل الإعلام الإخبارية.
على المدى الطويل، لن يكون هناك ما يكفي من المدونات الجديدة والمقالات الإخبارية والتعليقات على وسائل التواصل الاجتماعي للحفاظ على المسار الحالي لتطوير الذكاء الاصطناعي، مما يضغط على الشركات للاستفادة من البيانات الحساسة التي تعتبر الآن خاصة – مثل رسائل البريد الإلكتروني أو الرسائل النصية – أو الاعتماد على “بيانات اصطناعية” أقل موثوقية تبثها روبوتات الدردشة نفسها.
وقال بيسيروغلو: “هناك عنق الزجاجة الخطير هنا”. “إذا بدأت في التغلب على تلك القيود المتعلقة بكمية البيانات المتوفرة لديك، فلن تتمكن حقًا من توسيع نطاق نماذجك بكفاءة بعد الآن. وربما كان توسيع نطاق النماذج هو الطريقة الأكثر أهمية لتوسيع قدراتها وتحسين جودة مخرجاتها.
قدم الباحثون توقعاتهم لأول مرة منذ عامين – قبل وقت قصير من ظهور ChatGPT لأول مرة – في ورقة عمل للتنبؤ قطع وشيك في عام 2026 للبيانات النصية عالية الجودة. لقد تغير الكثير منذ ذلك الحين، بما في ذلك التقنيات الجديدة التي مكنت باحثي الذكاء الاصطناعي من الاستفادة بشكل أفضل من البيانات المتوفرة لديهم بالفعل وفي بعض الأحيان “الإفراط في التدريب” على نفس المصادر عدة مرات.
ولكن هناك حدود، وبعد مزيد من البحث، تتوقع شركة Epoch الآن نفاد البيانات النصية العامة في وقت ما خلال السنتين إلى الثماني سنوات القادمة.
وتخضع أحدث دراسة للفريق لمراجعة النظراء، ومن المقرر تقديمها في المؤتمر الدولي للتعلم الآلي هذا الصيف في فيينا، النمسا. Epoch هو معهد غير ربحي تستضيفه منظمة Rethink Priorities ومقرها سان فرانسيسكو، ويتم تمويله من قبل أنصار الإيثار الفعال – وهي حركة خيرية ضخت الأموال للتخفيف من أسوأ مخاطر الذكاء الاصطناعي.
وقال بيسيروغلو إن باحثي الذكاء الاصطناعي أدركوا منذ أكثر من عقد من الزمن أن التوسع بقوة في مكونين رئيسيين – قوة الحوسبة ومخازن ضخمة من بيانات الإنترنت – يمكن أن يحسن أداء أنظمة الذكاء الاصطناعي بشكل كبير.
وتنمو كمية البيانات النصية التي يتم تغذيتها في نماذج لغة الذكاء الاصطناعي بنحو 2.5 مرة سنويًا، بينما تنمو الحوسبة بنحو 4 مرات سنويًا، وفقًا لدراسة Epoch. حصلت شركة Meta Platforms، الشركة الأم لفيسبوك، مؤخرًا على أكبر نسخة من برنامجها نموذج لاما 3 القادم – والتي لم يتم إصدارها بعد – تم تدريبها على ما يصل إلى 15 تريليون رمز، كل منها يمكن أن يمثل جزءًا من الكلمة.
ولكن مدى أهمية القلق بشأن عنق الزجاجة في البيانات هو أمر قابل للنقاش.
وقال نيكولاس بابيرنوت، الأستاذ المساعد في هندسة الكمبيوتر في جامعة تورنتو والباحث في معهد فيكتور للذكاء الاصطناعي غير الربحي: “أعتقد أنه من المهم أن نأخذ في الاعتبار أننا لا نحتاج بالضرورة إلى تدريب نماذج أكبر وأكبر”.
وقال بابيرنوت، الذي لم يشارك في دراسة إيبوك، إن بناء أنظمة ذكاء اصطناعي أكثر مهارة يمكن أن يأتي أيضًا من نماذج التدريب الأكثر تخصصًا لمهام محددة. لكن لديه مخاوف بشأن تدريب أنظمة الذكاء الاصطناعي التوليدية على نفس المخرجات التي تنتجها، مما يؤدي إلى تدهور الأداء المعروف باسم “انهيار النموذج”.
إن التدريب على البيانات التي ينشئها الذكاء الاصطناعي “يشبه ما يحدث عندما تقوم بتصوير قطعة من الورق ثم تقوم بتصوير النسخة. وقال بابيرنوت: “إنك تفقد بعض المعلومات”. ليس هذا فحسب، بل وجدت أبحاث Papernot أيضًا أنه يمكن أن يزيد من تشفير الأخطاء والتحيز والظلم الموجودة بالفعل في النظام البيئي للمعلومات.
إذا ظلت الجمل الحقيقية التي صاغها الإنسان مصدرًا بالغ الأهمية لبيانات الذكاء الاصطناعي، فإن أولئك الذين هم المشرفون على الكنوز الأكثر رواجًا – مواقع مثل Reddit وWikipedia، بالإضافة إلى الأخبار وناشري الكتب – أُجبروا على التفكير مليًا في كيفية استخدامها.
“ربما لا تتسلق قمم كل الجبال”، مازحة سيلينا ديكلمان، كبيرة مسؤولي المنتجات والتكنولوجيا في مؤسسة ويكيميديا، التي تدير ويكيبيديا. “إنها مشكلة مثيرة للاهتمام الآن أننا نجري محادثات حول الموارد الطبيعية حول البيانات التي أنشأها الإنسان. لا ينبغي لي أن أضحك بشأن ذلك، لكنني أجده مذهلاً نوعًا ما.
في حين أن البعض سعى إلى إغلاق بياناتهم من التدريب على الذكاء الاصطناعي – غالبًا بعد أن يتم أخذها بالفعل دون تعويض – فقد وضعت ويكيبيديا قيودًا قليلة على كيفية استخدام شركات الذكاء الاصطناعي لمدخلاتها المكتوبة من قبل المتطوعين. مع ذلك، قالت ديكلمان إنها تأمل في استمرار وجود حوافز للناس لمواصلة المساهمة، خاصة وأن طوفانًا من “المحتوى المهمل” الرخيص والمولد تلقائيًا يبدأ في تلويث الإنترنت.
وقالت إن شركات الذكاء الاصطناعي يجب أن “تشعر بالقلق إزاء كيفية استمرار وجود المحتوى الذي ينتجه الإنسان واستمرار إمكانية الوصول إليه”.
من وجهة نظر مطوري الذكاء الاصطناعي، تقول دراسة إيبوك إن الدفع لملايين البشر لإنشاء النص الذي ستحتاجه نماذج الذكاء الاصطناعي “من غير المرجح أن يكون وسيلة اقتصادية” لتحقيق أداء تقني أفضل.
بينما تبدأ شركة OpenAI العمل على تدريب الجيل القادم من نماذج اللغات الكبيرة GPT، أخبر الرئيس التنفيذي سام ألتمان الجمهور في حدث للأمم المتحدة الشهر الماضي أن الشركة جربت بالفعل “توليد الكثير من البيانات الاصطناعية” للتدريب.
“أعتقد أن ما تحتاجه هو بيانات عالية الجودة. هناك بيانات اصطناعية منخفضة الجودة. قال ألتمان: “هناك بيانات بشرية منخفضة الجودة”. لكنه أعرب أيضًا عن تحفظاته بشأن الاعتماد بشكل كبير على البيانات الاصطناعية مقارنة بالطرق التقنية الأخرى لتحسين نماذج الذكاء الاصطناعي.
قال ألتمان: “سيكون هناك شيء غريب جدًا إذا كانت أفضل طريقة لتدريب النموذج هي توليد كوادريليون رمز من البيانات الاصطناعية وتغذيتها مرة أخرى”. “بطريقة ما يبدو هذا غير فعال.”
——————
وكالة أسوشيتد برس وOpenAI اتفاقية الترخيص والتكنولوجيا الذي يسمح لـ OpenAI بالوصول إلى جزء من أرشيفات النصوص الخاصة بـ AP.