تواجه مراكز بيانات شركة مايكروسوفت تحديات تتعلق بالكفاءة في أنظمة التبريد الخاصة بها، وذلك مع سعي شركة نفيديا لتثبيت أحدث شرائحها في هذه المراكز. ووفقًا لتقرير صادر عن Business Insider، فقد لاحظ موظف في شركة نفيديا في أوائل الخريف أن نهج مايكروسوفت في التبريد في أحد المرافق يبدو “مبذرًا”، خاصةً مع تزايد الطلب على قوة الحوسبة لتدريب وتشغيل نماذج الذكاء الاصطناعي. هذا التقرير يسلط الضوء على التحديات المتزايدة في تبريد مراكز البيانات مع انتشار تقنية الذكاء الاصطناعي.
تقوم نفيديا بنشر معمارية GB200 Blackwell الخاصة بها في مراكز بيانات مايكروسوفت وغيرها من الشركات التكنولوجية الكبرى، وذلك استجابة للطلب المتزايد على الحوسبة اللازمة لتدريب وتشغيل نماذج الذكاء الاصطناعي. تم الإعلان عن Blackwell في مارس 2024، وهي أقوى بحوالي الضعف من سابقتها Hopper، وفقًا لـ جينسن هوانغ، الرئيس التنفيذي لشركة نفيديا. GB200 هو جزء من الموجة الأولى من عمليات نشر Blackwell، مع توفر الجيل GB300 الآن.
تحديات تبريد Blackwell في مراكز البيانات
في أوائل الخريف، أرسل موظف في فريق متخصصي البنية التحتية في نفيديا (NVIS) رسالة بريد إلكتروني داخلية تصف عملية تثبيت رفوف خوادم Blackwell في أحد المرافق التي تدعمها مايكروسوفت لشركة OpenAI. تتضمن الإعداد رفوف NVL72، تحتوي كل منها على 72 وحدة معالجة رسومية (GPU) من نفيديا. يستخدم هذا الإعداد تقنية التبريد السائل نظرًا للحرارة الناتجة عن تشغيل وحدات معالجة الرسوميات المتعددة جنبًا إلى جنب.
وكتب الموظف أن “نظام التبريد ومنهجية مركز البيانات في عملية نشر GB200 تبدو مبذرة بسبب الحجم ونقص استخدام المياه في المنشأة، ولكنه يوفر الكثير من المرونة وتحمل الأخطاء”، وفقًا للرسالة. في حين أن التبريد السائل يستخدم للخوادم، فإن مراكز البيانات تستخدم أيضًا نظامًا ثانيًا على مستوى المبنى لطرد الحرارة من المنشأة، وفقًا لـ Shaolei Ren، أستاذ مشارك في الهندسة الكهربائية وهندسة الكمبيوتر بجامعة كاليفورنيا.
قد يكون موظف نفيديا يشير إلى نظام على مستوى المبنى يستخدم التبريد بالهواء بدلاً من الماء، كما أوضح Ren، الذي يدرس كيفية استخدام مراكز البيانات للمياه والموارد الأخرى. وأضاف أن “هذا النوع من أنظمة التبريد يميل إلى استخدام المزيد من الطاقة، ولكنه لا يستخدم الماء”. وأكد متحدث باسم مايكروسوفت هذا التفسير، موضحًا أن وحدة تبادل الحرارة السائل الخاصة بالشركة هي نظام مغلق يتم نشره في مراكز البيانات المبردة بالهواء الحالية لتعزيز قدرة التبريد على المنصات الخاصة والتابعة للغير.
الموازنة بين الموارد والطاقة
مع التوسع في البنية التحتية للذكاء الاصطناعي، أصبح استهلاك الطاقة والمياه في تبريد مراكز البيانات نقطة خلاف عالمية، مما أدى إلى معارضة في بعض المناطق التي يتم فيها بناء مرافق جديدة. وأشار Ren إلى أنه نظرًا لأن مراكز البيانات يمكن أن تستخدم التبريد بالهواء أو الماء أو نظامًا هجينًا على مستوى المبنى، “فإن هناك مقايضة بين الموارد”.
يتطلب التبريد بالهواء مزيدًا من الطاقة، ولكنه يمكن أن “يعالج بعض المخاوف العامة بشأن استهلاك المياه – لأن المياه شيء يمكن للناس رؤيته حقًا”. وأضاف: “هذه الشركات مدفوعة بالربح، وتقوم بتقييم تكلفة المياه وتكلفة الطاقة وتكلفة الدعاية”. تؤكد مايكروسوفت من جانبها أنها تنوي أن تكون “سلبية الكربون وإيجابية المياه وصفر نفايات” بحلول عام 2030.
وأضاف المتحدث باسم مايكروسوفت: “لقد أعلنا أيضًا عن تصميم تبريد مائي صفري لمراكز البيانات من الجيل التالي واختراقات في التبريد على الشريحة”. هذه الخطوات تعكس التزام الشركة بتقليل تأثيرها البيئي مع تلبية الطلب المتزايد على خدمات الذكاء الاصطناعي.
عملية تثبيت Blackwell والتحديات اللوجستية
أشارت الرسالة الداخلية من موظف نفيديا إلى بعض العقبات اللوجستية التي حدثت أثناء تثبيت Blackwell في أوائل الخريف، وهو أمر شائع في عمليات نشر الأجهزة الجديدة في مراكز البيانات. وكتب الموظف: “كان الدعم في الموقع ضروريًا لهذا النشاط. تم قضاء الكثير من الوقت في إنشاء وثائق عملية التحقق وتقييم الخطوات التي تم العمل عليها وكانت منطقية لأولئك الأقل دراية بكيفية إجراء التحقق من صحة الكتلة والنظام عادةً”.
بالإضافة إلى ذلك، “تطلبت عمليات التسليم بين نفيديا ومايكروسوفت مزيدًا من الترسخ مما تم إجراؤه قبل الوصول”. ومع ذلك، أشارت الرسالة إلى أن جودة أجهزة GB200 Blackwell الإنتاجية قد تحسنت مقارنة بالعينات الأولية. وذكرت الرسالة أن أجهزة GB200 NVL72 الإنتاجية “تتمتع بجودة جيدة” مقارنة بالعينات المؤهلة المرسلة إلى العملاء للاختبار المبكر. وقد اجتاز كلا الرفين بنسبة 100٪ اختبارات أداء الحوسبة المحددة.
أكد متحدث باسم نفيديا أن أنظمة Blackwell الخاصة بها “توفر أداءً وموثوقية وكفاءة في استخدام الطاقة استثنائية لمجموعة متنوعة من تطبيقات الحوسبة”. وأضاف: “لقد نشر عملاؤنا، بما في ذلك مايكروسوفت، بنجاح مئات الآلاف من أنظمة GB200 و GB300 NVL72 Blackwell لتلبية الاحتياجات المتزايدة للعالم من الذكاء الاصطناعي”.
من المتوقع أن تستمر مايكروسوفت ونفيديا في العمل معًا لتحسين كفاءة التبريد في مراكز البيانات. ستكون الخطوة التالية هي تقييم أداء أنظمة Blackwell في بيئات الإنتاج المختلفة وتحديد المجالات التي يمكن فيها إجراء تحسينات إضافية. من المهم مراقبة التقدم المحرز في تقنيات التبريد الجديدة، مثل التبريد المائي المباشر، وتأثيرها على استهلاك الطاقة والمياه في مراكز البيانات.

