يبدو أن عالم الذكاء الاصطناعي على وشك استنفاد موارده الأكثر قيمة – مما يدفع قادة الصناعة إلى نقاش عنيف حول بديل سريع النمو يتم الترويج له كبديل: البيانات الاصطناعية، أو البيانات “المزيفة” بشكل أساسي.

لسنوات، قامت شركات مثل OpenAI وGoogle بجمع البيانات من الإنترنت لتدريب نماذج اللغة الكبيرة (LLMs) التي تعمل على تشغيل أدوات وميزات الذكاء الاصطناعي الخاصة بها. وقد قامت نماذج اللغة الكبيرة هذه بهضم كميات هائلة من النصوص والفيديو وغيرها من الوسائط عبر الإنترنت التي أنتجها البشر على مدى قرون – سواء كانت أوراق بحثية أو روايات أو مقاطع فيديو على YouTube.

والآن، بدأ مخزون البيانات “الحقيقية” التي ينتجها البشر ينضب. وتتوقع شركة الأبحاث Epoch AI أن تنفد البيانات النصية بحلول عام 2028. وفي الوقت نفسه، تواجه الشركات التي استغلت كل ركن من أركان الإنترنت للحصول على بيانات تدريب قابلة للاستخدام ــ وفي بعض الأحيان تنتهك سياساتها للقيام بذلك ــ قيوداً متزايدة على ما تبقى منها.

ولكن بالنسبة لبعض الناس، لا يشكل هذا مشكلة بالضرورة. فقد زعم الرئيس التنفيذي لشركة OpenAI سام ألتمان أن نماذج الذكاء الاصطناعي لابد وأن تنتج في نهاية المطاف بيانات اصطناعية جيدة بما يكفي لتدريب نفسها بفعالية. والجاذبية واضحة: فقد أصبحت بيانات التدريب واحدة من أكثر الموارد قيمة في طفرة الذكاء الاصطناعي، وإمكانية توليدها بتكلفة زهيدة وإلى ما لا نهاية تبدو مغرية.

ومع ذلك، لا يزال الباحثون يناقشون ما إذا كانت البيانات الاصطناعية هي الحل السحري، حيث يزعم البعض أن هذا المسار قد يؤدي إلى تسميم نماذج الذكاء الاصطناعي بمعلومات ذات جودة رديئة و”الانهيار” نتيجة لذلك.

وقد كشفت دراسة حديثة نشرتها مجموعة من الباحثين في أكسفورد وكامبريدج أن تغذية نموذج ببيانات تم إنشاؤها بواسطة الذكاء الاصطناعي تؤدي في النهاية إلى إنتاج هراء. وزعم المؤلفون أن البيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي ليست غير قابلة للاستخدام في التدريب، ولكن يجب موازنتها مع بيانات العالم الحقيقي.

مع نضوب مخزون البيانات القابلة للاستخدام والتي ينتجها البشر، بدأت المزيد من الشركات في البحث عن استخدام البيانات الاصطناعية. في عام 2021، توقعت شركة الأبحاث جارتنر أنه بحلول عام 2024، سيتم توليد 60% من البيانات المستخدمة في تطوير الذكاء الاصطناعي بشكل اصطناعي.

قال جاري ماركوس، محلل الذكاء الاصطناعي وأستاذ فخري في علم النفس وعلم الأعصاب بجامعة نيويورك: “إنها أزمة. كان لدى الناس وهم مفاده أنه يمكنهم تحسين نماذج اللغة الكبيرة إلى ما لا نهاية بمجرد استخدام المزيد والمزيد من البيانات، لكنهم الآن استخدموا كل البيانات التي يمكنهم استخدامها”.

وأضاف ماركوس: “نعم، سيساعدك ذلك في حل بعض المشكلات، لكن المشكلة الأعمق هي أن هذه الأنظمة لا تفكر بشكل منطقي حقًا، ولا تخطط حقًا. وكل البيانات الاصطناعية التي يمكنك تخيلها لن تحل هذه المشكلة الأساسية”.

المزيد من الشركات تقوم بإنشاء بيانات اصطناعية

إن الحاجة إلى البيانات “المزيفة” تتوقف على فكرة أن البيانات في العالم الحقيقي تنفد بسرعة.

ويرجع هذا جزئيا إلى أن شركات التكنولوجيا تتحرك بأسرع ما يمكن لاستخدام البيانات المتاحة للجمهور لتدريب الذكاء الاصطناعي في محاولة للتفوق على المنافسين. ويرجع ذلك أيضا إلى أن أصحاب البيانات عبر الإنترنت أصبحوا حذرين بشكل متزايد من الشركات التي تأخذ بياناتهم مجانا.

كشف باحثو OpenAI في عام 2020 عن كيفية استخدامهم للبيانات المجانية من Common Crawl، وهو برنامج زاحف ويب يحتوي على “ما يقرب من تريليون كلمة” من الموارد عبر الإنترنت، لتدريب نموذج الذكاء الاصطناعي الذي سيعمل في النهاية على تشغيل ChatGPT.

توصل بحث نشرته مبادرة منشأ البيانات التابعة لمعهد ماساتشوستس للتكنولوجيا في يوليو/تموز إلى أن مواقع الويب تفرض الآن قيودًا لمنع شركات الذكاء الاصطناعي من استخدام البيانات التي لا تنتمي إليها. وتعمل المنشورات الإخبارية وغيرها من المواقع الرئيسية بشكل متزايد على منع شركات الذكاء الاصطناعي من سرقة بياناتها بحرية.

وللتغلب على هذه المشكلة، تعمل شركات مثل OpenAI وGoogle على إصدار شيكات بقيمة عشرات الملايين من الدولارات مقابل الوصول إلى البيانات من Reddit ومنافذ الأخبار، والتي تعمل كأحزمة ناقلة للبيانات الجديدة لنماذج التدريب. وحتى هذا له حدوده.

وفي مايو/أيار الماضي، كتب ناثان لامبرت، الباحث في معهد ألين للذكاء الاصطناعي: “لم تعد هناك مناطق رئيسية من الويب النصي تنتظر من يستغلها”.

وهنا يأتي دور البيانات الاصطناعية. فبدلاً من استخلاصها من العالم الحقيقي، يتم توليد البيانات الاصطناعية بواسطة أنظمة الذكاء الاصطناعي التي تم تدريبها على بيانات العالم الحقيقي.

على سبيل المثال، في شهر يونيو/حزيران، أطلقت شركة إنفيديا نموذج ذكاء اصطناعي قادر على إنشاء مجموعات بيانات اصطناعية للتدريب والمحاذاة. وفي شهر يوليو/تموز، ابتكر باحثون في شركة التكنولوجيا الصينية العملاقة تينسنت مولد بيانات اصطناعيا يسمى بيرسونا هاب، والذي يقوم بوظيفة مماثلة.

حتى أن بعض الشركات الناشئة، مثل Gretel وSynthLabs، تظهر الآن بهدف وحيد وهو توليد وبيع كميات كبيرة من أنواع محددة من البيانات للشركات التي تحتاج إليها.

يقدم أنصار البيانات الاصطناعية أسباباً وجيهة لاستخدامها. فمثلها كمثل العالم الحقيقي، كثيراً ما تكون البيانات التي ينتجها الإنسان فوضوية، الأمر الذي يفرض على الباحثين مهمة معقدة وشاقة تتمثل في تنظيفها ووضع علامات عليها قبل استخدامها.

من الممكن أن تسد البيانات الاصطناعية ثغرات لا تستطيع البيانات البشرية سدها. ففي أواخر يوليو/تموز، قدمت شركة ميتا سلسلة جديدة من نماذج الذكاء الاصطناعي تسمى Llama 3.1، والتي تولد بيانات اصطناعية وتعتمد عليها في “الضبط الدقيق” للتدريب. وعلى وجه الخصوص، استخدمت البيانات لتحسين أداء مهارات محددة، مثل البرمجة بلغات مثل Python وJava وRush، فضلاً عن حل مسائل الرياضيات.

وقد يكون التدريب الاصطناعي فعالاً بشكل خاص بالنسبة لنماذج الذكاء الاصطناعي الأصغر حجماً. ففي العام الماضي، قالت شركة مايكروسوفت إنها أعطت نماذج OpenAI قائمة متنوعة من الكلمات التي يعرفها طفل يبلغ من العمر 3-4 سنوات، ثم طلبت منها إنشاء قصص قصيرة باستخدام هذه البيانات. واستُخدمت مجموعة البيانات الناتجة لإنشاء مجموعة من نماذج اللغة الصغيرة ولكن القادرة.

قد تساعد البيانات الاصطناعية أيضًا في تقديم بعض التعديلات الفعّالة على التحيزات التي تنتجها بيانات العالم الحقيقي. في ورقتهم البحثية لعام 2021 بعنوان “حول مخاطر الببغاوات العشوائية”، زعم باحثو جوجل السابقون تيمنيت جيبرو ومارجريت ميتشل وآخرون أن طلاب الماجستير في القانون المدربين على مجموعات بيانات ضخمة من النصوص من الإنترنت من المرجح أن يعكسوا تحيزات البيانات.

في شهر أبريل، نشرت مجموعة من باحثي Google DeepMind ورقة بحثية تدافع عن استخدام البيانات الاصطناعية لمعالجة المشاكل المتعلقة بندرة البيانات ومخاوف الخصوصية في التدريب، مضيفة أن ضمان الدقة وعدم التحيز في هذه البيانات التي تولدها الذكاء الاصطناعي “يظل تحديًا بالغ الأهمية”.

“الذكاء الاصطناعي هابسبورغ”

وفي حين وجدت صناعة الذكاء الاصطناعي بعض المزايا في البيانات الاصطناعية، فإنها تواجه قضايا خطيرة لا تستطيع تجاهلها، مثل المخاوف من أن البيانات الاصطناعية يمكن أن تدمر نماذج الذكاء الاصطناعي بالكامل.

وفي ورقة بحثية لشركة Meta حول Llama 3.1، قالت الشركة إن تدريب إصدار 405 مليار معلمة من أحدث طراز “على البيانات التي تم إنشاؤها تلقائيًا ليس مفيدًا”، وقد يؤدي حتى إلى “تدهور الأداء”.

وفي الشهر الماضي، نشرت مجلة “نيتشر” دراسة جديدة خلصت إلى أن “الاستخدام العشوائي” للبيانات الاصطناعية في تدريب النماذج من الممكن أن يتسبب في “عيوب لا يمكن إصلاحها”. وأطلق الباحثون على هذه الظاهرة “انهيار النموذج” وحذروا من ضرورة التعامل مع المشكلة بجدية “إذا كنا نريد الحفاظ على فوائد التدريب من البيانات الضخمة المستقاة من شبكة الإنترنت”.

صاغ جاثان سادوسكي، الباحث البارز في جامعة موناش، مصطلحًا لهذه الفكرة: الذكاء الاصطناعي هابسبورج، في إشارة إلى السلالة النمساوية التي يعتقد بعض المؤرخين أنها دمرت نفسها من خلال التزاوج الداخلي. منذ صياغته للمصطلح، قال سادوسكي لـ BI إنه شعر بالتصديق من خلال البحث الذي يدعم تأكيده على أن النماذج المدربة بشكل كبير على مخرجات الذكاء الاصطناعي يمكن أن تصاب بالطفرات.

“إن السؤال المفتوح أمام الباحثين والشركات التي تبني أنظمة الذكاء الاصطناعي هو ما هي كمية البيانات الاصطناعية التي تعتبر أكثر من اللازم؟” قال سادوسكي. “إنهم بحاجة إلى إيجاد أي حل ممكن للتغلب على تحديات ندرة البيانات لأنظمة الذكاء الاصطناعي – حتى لو كانت هذه الحلول مجرد حلول قصيرة الأجل يمكن أن تسبب ضررًا أكثر من نفعها من خلال إنشاء أنظمة منخفضة الجودة.”

ولكن النتائج التي توصلت إليها دراسة نشرت في أبريل/نيسان أظهرت أن النماذج التي تم تدريبها على البيانات التي تم إنشاؤها ذاتيا لا تحتاج بالضرورة إلى “الانهيار” إذا تم تدريبها باستخدام بيانات “حقيقية” وأخرى اصطناعية. والآن، تراهن بعض الشركات على مستقبل “البيانات الهجينة”، حيث يتم توليد البيانات الاصطناعية باستخدام بعض البيانات الحقيقية في محاولة لمنع النموذج من الخروج عن المسار الصحيح.

قالت شركة Scale AI، التي تساعد الشركات على تصنيف البيانات واختبارها، إن الشركة تستكشف “اتجاه البيانات الهجينة”، باستخدام البيانات الاصطناعية وغير الاصطناعية (أعلن الرئيس التنفيذي لشركة Scale AI ألكسندر وانج مؤخرًا: “البيانات الهجينة هي المستقبل الحقيقي”).

في البحث عن حلول أخرى

قد تتطلب الذكاء الاصطناعي أساليب جديدة تمامًا، حيث إن مجرد حشر المزيد من البيانات في النماذج قد لا يؤدي إلا إلى حد ما.

ربما أثبتت مجموعة من باحثي Google DeepMind مزايا نهج آخر في يناير/كانون الثاني عندما أعلنت الشركة عن AlphaGeometry، وهو نظام ذكاء اصطناعي يمكنه حل مسائل الهندسة على مستوى الأولمبياد.

وفي ورقة بحثية تكميلية، أوضح الباحثون كيف يستخدم AlphaGeometry نهجًا “رمزيًا عصبيًا”، يجمع بين نقاط القوة في أساليب الذكاء الاصطناعي الأخرى، ويستقر في مكان ما بين نماذج التعلم العميق المتعطشة للبيانات والتفكير المنطقي القائم على القواعد. وقالت مجموعة أبحاث IBM إنها ترى ذلك “مسارًا لتحقيق الذكاء الاصطناعي العام”.

علاوة على ذلك، في حالة AlphaGeometry، تم تدريبه مسبقًا على بيانات اصطناعية بالكامل.

لا يزال مجال الذكاء الاصطناعي الرمزي العصبي جديدًا نسبيًا، ولا يزال يتعين علينا أن نرى ما إذا كان سيدفع الذكاء الاصطناعي إلى الأمام.

ونظراً للضغوط التي تواجهها شركات مثل OpenAI وGoogle وMicrosoft في تحويل ضجة الذكاء الاصطناعي إلى أرباح، فمن المتوقع أن تجرب كل الحلول الممكنة لحل أزمة البيانات.

قال ماركوس: “كان لدى الناس وهم مفاده أنه من الممكن تحسين نماذج اللغة الكبيرة بشكل لا نهائي بمجرد استخدام المزيد والمزيد من البيانات، لكنهم الآن استخدموا كل البيانات التي يمكنهم استخدامها تقريبًا. سنظل عالقين هنا ما لم نتخذ نهجًا جديدًا تمامًا”.

شاركها.
Exit mobile version