أقنعت شركة AI AI الإسبانية المستثمرين بتسليم أكثر من 215 مليون دولار بناءً على مطالبة جريئة: يمكنهم تقليص نماذج اللغة الكبيرة بنسبة 95 ٪ دون المساس بأدائهم.

يتوقف ابتكار Multiverse Computing على تقنية Compactifai ، وهي طريقة ضغط تقترض المفاهيم الرياضية من الفيزياء الكمومية لتقليص نماذج الذكاء الاصطناعي إلى حجم الهاتف الذكي.

تقول شركة سان سيباستيان أن طراز LLAMA-2 7B المضغوط يمتد أسرع بنسبة 25 ٪ عند الاستدلال مع استخدام معلمات أقل بنسبة 70 ٪ ، مع انخفاض الدقة بنسبة 2-3 ٪ فقط.

إذا تم التحقق من صحة على نطاق واسع ، فقد يعالج هذا مشكلة بحجم الذكاء الاصطناعي: النماذج الضخمة جدًا ، فهي تتطلب مراكز بيانات متخصصة فقط للعمل.

وقال رومان أورز ، كبير الموظفين العلميين في الكون ، في منشور مدونة يوم الخميس: “لأول مرة في التاريخ ، نحن قادرون على تعريف الأعمال الداخلية للشبكة العصبية للتخلص من مليارات الارتباطات الزائفة لتحسين جميع أنواع نماذج الذكاء الاصطناعى”.

قاد Bullhound Capital جولة سلسلة B 215 مليون دولار بدعم من HP Tech Ventures و Toshiba.

الفيزياء وراء الضغط

يبدو تطبيق المفاهيم المستوحاة من الكم لمعالجة واحدة من أكثر المشكلات الملحة في الذكاء الاصطناعي غير محتملة-ولكن إذا صمد البحث ، فهو حقيقي.

على عكس الضغط التقليدي الذي يقطع ببساطة الخلايا العصبية أو يقلل من الدقة العددية ، يستخدم Compactifai شبكات الموترات – الهياكل الباطنية التي طورها الفيزيائيون لتتبع تفاعلات الجسيمات دون الغرق في البيانات.

تعمل العملية مثل اوريغامي لنماذج الذكاء الاصطناعي: يتم طي مصفوفات الوزن في هياكل أصغر مترابطة تسمى مشغلي منتجات المصفوفة.

بدلاً من تخزين كل صلة بين الخلايا العصبية ، يحافظ النظام على ارتباطات ذات معنى فقط مع التخلص من الأنماط الزائدة ، مثل المعلومات أو العلاقات التي تتكرر مرارًا وتكرارًا.

اكتشف Multiverse أن نماذج الذكاء الاصطناعى ليست قابلة للانضغاط بشكل موحد. تثبت الطبقات المبكرة هشة ، في حين أن الطبقات الأعمق – التي تبين أنها أقل أهمية للأداء – يمكن أن تصمد أمام الضغط العدواني.

يتيح لهم هذا النهج الانتقائي تحقيق تخفيضات كبيرة في الحجم حيث تفشل طرق أخرى.

بعد الضغط ، تخضع النماذج “شفاء” موجز – يعيد الاعتماد الذي يأخذ أقل من فترة واحدة بفضل عدد المعلمات المخفضة. تدعي الشركة أن عملية الاستعادة تمر بنسبة 50 ٪ من تدريب النماذج الأصلية بسبب انخفاض أحمال نقل GPU-CPU.

قصة قصيرة طويلة – عروض الشركة الخاصة – تبدأ بنموذج ، وتشغيل السحر المدمج ، وينتهي بها الأمر بإصدار مضغوط يحتوي على أقل من 50 ٪ من معاييرها ، يمكن أن يعمل بسرعة ضعف سرعة الاستدلال ، ويكلف أقل بكثير ، وهو قادر تمامًا مثل الأصل.

في أبحاثه ، يظهر الفريق أنه يمكنك تقليل احتياجات ذاكرة طراز LLAMA-2 7B بنسبة 93 ٪ ، وخفض عدد المعلمات بنسبة 70 ٪ ، وتسريع التدريب بنسبة 50 ٪ ، وتسريع الإجابة (الاستدلال) بنسبة 25 ٪ فقط-خسارة فقط 2-3 ٪.

إن طرق تقلص التقليدية مثل القياس الكمي (تقليل الدقة مثل استخدام أماكن أقل عشرية) ، أو التقليم (التخلص من الخلايا العصبية الأقل أهمية تمامًا ، مثل تقليم الفروع الميتة من شجرة) ، أو تقنيات التقطير (تدريب نموذج أصغر لتقليد سلوك أكبر) لا يقترب من تحقيق هذه الأرقام.

يخدم Multiverse بالفعل أكثر من 100 عميل بما في ذلك Bosch و Bank of Canada ، بتطبيق خوارزميات مستوحاة من الكم إلى ما وراء الذكاء الاصطناعي إلى تحسين الطاقة والنمذجة المالية.

شاركت الحكومة الإسبانية في استثمارها 67 مليون يورو في مارس ، مما دفع إجمالي التمويل فوق 250 مليون دولار.

تقدم حاليًا إصدارات مضغوطة من النماذج المفتوحة المصدر مثل Llama و Mistral من خلال AWS ، وتخطط الشركة للتوسع في Deepseek R1 ونماذج التفكير الأخرى.

تظل أنظمة الملكية من Openai أو Claude خارج الحدود لأنها غير متوفرة للعبث أو الدراسة.

يمتد وعد التكنولوجيا إلى ما هو أبعد من تدابير توفير التكاليف. تشير مشاركة مشاركة HP Tech Ventures في نشر الحافة الذكاء الاصطناعى – النماذج المتطورة محليًا بدلاً من الخوادم السحابية.

وقال توان تران ، رئيس شركة HP للتكنولوجيا والابتكار: “إن النهج المبتكر لـ Multiverse لديه القدرة على تحقيق فوائد منظمة العفو الدولية لتعزيز الأداء والتخصيص والخصوصية وكفاءة التكلفة في الحياة للشركات من أي حجم”.

لذا ، إذا وجدت نفسك تدير Deepseek R1 على هاتفك الذكي يومًا ما ، فقد يكون هؤلاء الرجال هم الذين يشكرون.

حرره جوش كويتنر وسيباستيان سنكلير