إن المورد الأكثر قيمة في عالم الذكاء الاصطناعي ينفد، وهو يكافح للعثور على بديل: البيانات “المزيفة”

يبدو أن عالم الذكاء الاصطناعي على وشك استنفاد موارده الأكثر قيمة – مما يدفع قادة الصناعة إلى نقاش عنيف حول بديل سريع النمو يتم الترويج له كبديل: البيانات الاصطناعية، أو البيانات “المزيفة” بشكل أساسي.

لسنوات، قامت شركات مثل OpenAI وGoogle بجمع البيانات من الإنترنت لتدريب نماذج اللغة الكبيرة (LLMs) التي تعمل على تشغيل أدوات وميزات الذكاء الاصطناعي الخاصة بها. وقد قامت نماذج اللغة الكبيرة هذه بهضم كميات هائلة من النصوص والفيديو وغيرها من الوسائط عبر الإنترنت التي أنتجها البشر على مدى قرون – سواء كانت أوراق بحثية أو روايات أو مقاطع فيديو على YouTube.

والآن، بدأ مخزون البيانات “الحقيقية” التي ينتجها البشر ينضب. وتتوقع شركة الأبحاث Epoch AI أن تنفد البيانات النصية بحلول عام 2028. وفي الوقت نفسه، تواجه الشركات التي استغلت كل ركن من أركان الإنترنت للحصول على بيانات تدريب قابلة للاستخدام ــ وفي بعض الأحيان تنتهك سياساتها للقيام بذلك ــ قيوداً متزايدة على ما تبقى منها.

ولكن بالنسبة لبعض الناس، لا يشكل هذا مشكلة بالضرورة. فقد زعم الرئيس التنفيذي لشركة OpenAI سام ألتمان أن نماذج الذكاء الاصطناعي لابد وأن تنتج في نهاية المطاف بيانات اصطناعية جيدة بما يكفي لتدريب نفسها بفعالية. والجاذبية واضحة: فقد أصبحت بيانات التدريب واحدة من أكثر الموارد قيمة في طفرة الذكاء الاصطناعي، وإمكانية توليدها بتكلفة زهيدة وإلى ما لا نهاية تبدو مغرية.

ومع ذلك، لا يزال الباحثون يناقشون ما إذا كانت البيانات الاصطناعية هي الحل السحري، حيث يزعم البعض أن هذا المسار قد يؤدي إلى تسميم نماذج الذكاء الاصطناعي بمعلومات ذات جودة رديئة و”الانهيار” نتيجة لذلك.

وقد كشفت دراسة حديثة نشرتها مجموعة من الباحثين في أكسفورد وكامبريدج أن تغذية نموذج ببيانات تم إنشاؤها بواسطة الذكاء الاصطناعي تؤدي في النهاية إلى إنتاج هراء. وزعم المؤلفون أن البيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي ليست غير قابلة للاستخدام في التدريب، ولكن يجب موازنتها مع بيانات العالم الحقيقي.

مع نضوب مخزون البيانات القابلة للاستخدام والتي ينتجها البشر، بدأت المزيد من الشركات في البحث عن استخدام البيانات الاصطناعية. في عام 2021، توقعت شركة الأبحاث جارتنر أنه بحلول عام 2024، سيتم توليد 60% من البيانات المستخدمة في تطوير الذكاء الاصطناعي بشكل اصطناعي.

قال جاري ماركوس، محلل الذكاء الاصطناعي وأستاذ فخري في علم النفس وعلم الأعصاب بجامعة نيويورك: “إنها أزمة. كان لدى الناس وهم مفاده أنه يمكنهم تحسين نماذج اللغة الكبيرة إلى ما لا نهاية بمجرد استخدام المزيد والمزيد من البيانات، لكنهم الآن استخدموا كل البيانات التي يمكنهم استخدامها”.

وأضاف ماركوس: “نعم، سيساعدك ذلك في حل بعض المشكلات، لكن المشكلة الأعمق هي أن هذه الأنظمة لا تفكر بشكل منطقي حقًا، ولا تخطط حقًا. وكل البيانات الاصطناعية التي يمكنك تخيلها لن تحل هذه المشكلة الأساسية”.

“الذكاء الاصطناعي هابسبورغ”

وفي حين وجدت صناعة الذكاء الاصطناعي بعض المزايا في البيانات الاصطناعية، فإنها تواجه قضايا خطيرة لا تستطيع تجاهلها، مثل المخاوف من أن البيانات الاصطناعية يمكن أن تدمر نماذج الذكاء الاصطناعي بالكامل.

وفي ورقة بحثية لشركة Meta حول Llama 3.1، قالت الشركة إن تدريب إصدار 405 مليار معلمة من أحدث طراز “على البيانات التي تم إنشاؤها تلقائيًا ليس مفيدًا”، وقد يؤدي حتى إلى “تدهور الأداء”.

وفي الشهر الماضي، نشرت مجلة “نيتشر” دراسة جديدة خلصت إلى أن “الاستخدام العشوائي” للبيانات الاصطناعية في تدريب النماذج من الممكن أن يتسبب في “عيوب لا يمكن إصلاحها”. وأطلق الباحثون على هذه الظاهرة “انهيار النموذج” وحذروا من ضرورة التعامل مع المشكلة بجدية “إذا كنا نريد الحفاظ على فوائد التدريب من البيانات الضخمة المستقاة من شبكة الإنترنت”.

صاغ جاثان سادوسكي، الباحث البارز في جامعة موناش، مصطلحًا لهذه الفكرة: الذكاء الاصطناعي هابسبورج، في إشارة إلى السلالة النمساوية التي يعتقد بعض المؤرخين أنها دمرت نفسها من خلال التزاوج الداخلي. منذ صياغته للمصطلح، قال سادوسكي لـ BI إنه شعر بالتصديق من خلال البحث الذي يدعم تأكيده على أن النماذج المدربة بشكل كبير على مخرجات الذكاء الاصطناعي يمكن أن تصاب بالطفرات.

“إن السؤال المفتوح أمام الباحثين والشركات التي تبني أنظمة الذكاء الاصطناعي هو ما هي كمية البيانات الاصطناعية التي تعتبر أكثر من اللازم؟” قال سادوسكي. “إنهم بحاجة إلى إيجاد أي حل ممكن للتغلب على تحديات ندرة البيانات لأنظمة الذكاء الاصطناعي – حتى لو كانت هذه الحلول مجرد حلول قصيرة الأجل يمكن أن تسبب ضررًا أكثر من نفعها من خلال إنشاء أنظمة منخفضة الجودة.”

ولكن النتائج التي توصلت إليها دراسة نشرت في أبريل/نيسان أظهرت أن النماذج التي تم تدريبها على البيانات التي تم إنشاؤها ذاتيا لا تحتاج بالضرورة إلى “الانهيار” إذا تم تدريبها باستخدام بيانات “حقيقية” وأخرى اصطناعية. والآن، تراهن بعض الشركات على مستقبل “البيانات الهجينة”، حيث يتم توليد البيانات الاصطناعية باستخدام بعض البيانات الحقيقية في محاولة لمنع النموذج من الخروج عن المسار الصحيح.

قالت شركة Scale AI، التي تساعد الشركات على تصنيف البيانات واختبارها، إن الشركة تستكشف “اتجاه البيانات الهجينة”، باستخدام البيانات الاصطناعية وغير الاصطناعية (أعلن الرئيس التنفيذي لشركة Scale AI ألكسندر وانج مؤخرًا: “البيانات الهجينة هي المستقبل الحقيقي”).

في البحث عن حلول أخرى

قد تتطلب الذكاء الاصطناعي أساليب جديدة تمامًا، حيث إن مجرد حشر المزيد من البيانات في النماذج قد لا يؤدي إلا إلى حد ما.

ربما أثبتت مجموعة من باحثي Google DeepMind مزايا نهج آخر في يناير/كانون الثاني عندما أعلنت الشركة عن AlphaGeometry، وهو نظام ذكاء اصطناعي يمكنه حل مسائل الهندسة على مستوى الأولمبياد.

وفي ورقة بحثية تكميلية، أوضح الباحثون كيف يستخدم AlphaGeometry نهجًا “رمزيًا عصبيًا”، يجمع بين نقاط القوة في أساليب الذكاء الاصطناعي الأخرى، ويستقر في مكان ما بين نماذج التعلم العميق المتعطشة للبيانات والتفكير المنطقي القائم على القواعد. وقالت مجموعة أبحاث IBM إنها ترى ذلك “مسارًا لتحقيق الذكاء الاصطناعي العام”.

علاوة على ذلك، في حالة AlphaGeometry، تم تدريبه مسبقًا على بيانات اصطناعية بالكامل.

لا يزال مجال الذكاء الاصطناعي الرمزي العصبي جديدًا نسبيًا، ولا يزال يتعين علينا أن نرى ما إذا كان سيدفع الذكاء الاصطناعي إلى الأمام.

ونظراً للضغوط التي تواجهها شركات مثل OpenAI وGoogle وMicrosoft في تحويل ضجة الذكاء الاصطناعي إلى أرباح، فمن المتوقع أن تجرب كل الحلول الممكنة لحل أزمة البيانات.

قال ماركوس: “كان لدى الناس وهم مفاده أنه من الممكن تحسين نماذج اللغة الكبيرة بشكل لا نهائي بمجرد استخدام المزيد والمزيد من البيانات، لكنهم الآن استخدموا كل البيانات التي يمكنهم استخدامها تقريبًا. سنظل عالقين هنا ما لم نتخذ نهجًا جديدًا تمامًا”.

What's Hot

أفضل شركات تركيب الباركيه في المنطقة الشرقية: تجربة وتقييم

فاراداي فيوتشر تُنجز تسليم روبوتات الذكاء الاصطناعي المتجسّد في ولاية تكساس وتوسّع سيناريوهات “الروبوت والمركبة + التعليم” و“الروبوت والمركبة + العروض”

فاراداي فيوتشر تسلّم مركبة FX Super One إلى شركتي Infinite Glory وNoorizon في دولة الإمارات، معزّزةً تكاملها مع المنظومة المحلية ومسرّعةً وتيرة تسليماتها في الشرق الأوسط

المزيد من الشركات تقوم بإنشاء بيانات اصطناعية

“الذكاء الاصطناعي هابسبورغ”

في البحث عن حلول أخرى

4تشان عرف بوفاة إبشتاين قبل 38 دقيقة من العالم، والـ FBI يحقق.

الذكاء الاصطناعي يعيد صياغة اقتصاديات استشارات أمازون السحابية

تأسيس شركة ذكاء اصطناعي في الثانوية، لا ندم على ترك الجامعة.

مورغان ستانلي: دليل الأسهم لتخطي هلع الذكاء الاصطناعي

كباشي تعلن معاقبة أول متداول داخلي: موظف لدى مستر بيست

أنثروبيك تتخلى عن تعهد السلامة البارز في سباق الذكاء الاصطناعي المحتدم

دويتشه بنك يبرر لماذا لن تقتل Anthropic أسهم البرمجيات

براين جونسون: أريد عميلاً ذكياً اصطناعياً بيني وبين وسائل التواصل الاجتماعي، “لا أريد رؤية الخ feed الخام أبداً”

أرباح إنفيديا مرتقبة كمستجد رئيسي في الذكاء الاصطناعي وسط اضطراب الأسواق

What's Hot

إن المورد الأكثر قيمة في عالم الذكاء الاصطناعي ينفد، وهو يكافح للعثور على بديل: البيانات “المزيفة”

المزيد من الشركات تقوم بإنشاء بيانات اصطناعية

“الذكاء الاصطناعي هابسبورغ”

في البحث عن حلول أخرى

المقالات ذات الصلة