خادم AI Lenovo ThinkSystem SR680a V3 | 8× NVIDIA HGX H200 | حلول HPC والنماذج اللغوية الكبيرة

مشروع خادم Lenovo ThinkSystem SR680a V3 للذكاء الاصطناعي

منصة جاهزة للمؤسسات للذكاء الاصطناعي وHPC

وصف المشروع

كان مطلوبًا منصة جاهزة وعالية الأداء لتدريب واستنتاج الشبكات العصبية، قادرة على التعامل مع النماذج اللغوية الكبيرة (LLM)، الذكاء الاصطناعي التوليدي، والمهام المكثفة للحوسبة عالية الأداء (HPC). وكانت المتطلبات الأساسية: أقصى كثافة حسابية في مساحة رف محدودة، دعم شبكات عنقودية عالية السرعة (InfiniBand NDR)، وموثوقية صناعية للعمل على مدار الساعة.

ما تم تنفيذه

قمنا باختيار وتسليم خادم Lenovo ThinkSystem SR680a V3 للعميل في تكوين المصنع، المحسّن للذكاء الاصطناعي/التعلم الآلي وHPC. يعتمد الحل على منصة NVIDIA HGX H200 المرجعية، مما يلغي الحاجة للتكامل الذاتي للمكونات ويضمن توافق جميع الأنظمة الفرعية. ضمن المشروع، قمنا بضمان:

تسليم الخادم جاهز بالكامل من المصنع (القضبان، الكابلات، أنظمة التبريد)
التحقق من صلاحية التكوين
تشغيل النظام (اختياريًا في موقع العميل مع الإعداد والاختبار)

تركيب الحل (التكوين الرئيسي)

المكون - المواصفات

GPU:

8× NVIDIA HGX H200 بسعة 141GB (معمارية Hopper)
CPU:

2× Intel Xeon Platinum 8568Y+ (48 نواة / 96 خيطًا)
RAM:

2 تيرابايت DDR5-5600 (32× 64 جيجابايت)
التخزين النظامي:

2× M.2 NVMe 960GB (RAID 1، التمهيد)
تخزين البيانات:

8× NVMe U.2 3.84 تيرابايت
الشبكة:

NVIDIA ConnectX‑7 NDR 400G (InfiniBand) + NVIDIA BlueField‑3 DPU
الطاقة:

8× 2600 وات، احتياطي N+N
الأمان:

TPM 2.0، التمهيد الآمن، RAID/VROC للأجهزة لوحدات M.2

المهام التي يحلها والتطبيقات

يتم تسليم التكوين بالكامل كمنتج واحد من Lenovo، تم اختباره في المصنع تحت الحمل.

تدريب النماذج اللغوية الكبيرة (LLM) والشبكات التوليدية
تتيح الذاكرة الموحدة عبر 8 وحدات HGX H200 (141 جيجابايت لكل معالج) وضع وتدريب النماذج التي تحتوي على مئات المليارات من المعلمات على عقدة واحدة دون الحاجة لتوازي معقد. يزيد معدل النقل العالي داخل منصة HGX من سرعة مزامنة التدرجات.
الاستنتاج في الوقت الفعلي
بفضل 2 تيرابايت من الذاكرة وCPU عالية التردد من Intel Xeon Platinum، يتعامل الخادم مع الحمل الأقصى لخدمات AI (الدردشة الآلية، أنظمة التوصية، توليد المحتوى) بأدنى زمن تأخير.
الحسابات العلمية والهندسية (HPC)
توفر معمارية Hopper مع دعم FP64 ومحرك المحولات أداءً عاليًا في المحاكاة، ديناميكيات الموائع الحسابية، النمذجة الجزيئية، والمهام كثيفة الموارد الأخرى.
العمل كجزء من عنقود AI
تسمح محولات NVIDIA ConnectX‑7 NDR 400G وBlueField‑3 بدمج الخادم في شبكة InfiniBand عالية السرعة، مما يمكّن من التوسع الأفقي عبر دمج عدة عقد في عنقود واحد لتدريب موزع.
التحليلات المؤسسية والافتراضية
تجعل 2 تيرابايت من الذاكرة وCPU القوية المنصة مناسبة لتجميع أحمال العمل، معالجة مجموعات البيانات الكبيرة، ونشر قواعد البيانات عالية الحمل.

لماذا تم اختيار هذا التكوين

كان العميل بحاجة إلى حل "الكل في واحد" مع توازن بين القدرة الحسابية، عرض النطاق الترددي للذاكرة، سرعة التخزين، وإمكانيات الشبكة. يعد Lenovo ThinkSystem SR680a V3 مع 8× HGX H200 منصة معتمدة من NVIDIA للذكاء الاصطناعي وHPC، مما يضمن تشغيل مستقر للسائقين، الأطر (PyTorch, TensorFlow, Megatron)، وأدوات التنسيق (Kubernetes بدعم GPU).

النتيجة للعميل

تم تسليم منصة جاهزة للاستخدام، مما يقلل وقت نشر خدمات AI في البيئة الإنتاجية. يمكن الآن استيعاب النماذج التي كانت تتطلب سابقًا عنقود متعدد العقد في خادم واحد فقط. جاهز للتوسع: نظام الشبكة NDR 400G مستعد للاندماج في عنقود دون استبدال الأجهزة.

حول خط سيرفرات AMPERE لدينا

بالإضافة إلى توريد الحلول الجاهزة من كبار الموردين، نطور خط سيرفرات AMPERE الخاص بنا للذكاء الاصطناعي، HPC، والبنية التحتية المؤسسية. تعتمد سيرفرات AMPERE على نفس المكونات الرئيسية كمنصات NVIDIA HGX وIntel وAMD المرجعية، لكنها توفر عدة مزايا:

مرونة التكوين — يتم بناء السيرفر وفق احتياجات العميل بالضبط: عدد وحدات GPU (1-8)، نوع المعالجات المسرعة (H200, H100, A100, L40S, RTX)، حجم وسرعة الذاكرة، تركيب نظام الأقراص، محولات الشبكة (InfiniBand, Ethernet, RoCE).
أوقات تسليم مثالية — تسمح قاعدة الإنتاج الخاصة بنا بتقليل وقت التسليم مقارنة بسلاسل توريد الموردين الكبار الطويلة.
تحكم كامل بالجودة — يخضع كل خادم لاختبارات موسعة تحت الحمل، بما في ذلك التحقق من GPU، الذاكرة، NVMe، وواجهات الشبكة في ظروف قريبة من التشغيل الفعلي.
التكيف مع بنية العميل التحتية — يمكننا تنفيذ مخططات طاقة وتبريد وأشكال غير قياسية، وتوريد السيرفرات بدون مكونات زائدة (مثل إزالة ملصقات العلامة التجارية) للاندماج في البيئة الحالية.

يشمل خط AMPERE نماذج من المنصات المدمجة أحادية المعالج للاستنتاج إلى العقد القوية بثمانية GPU، بما يعادل الأداء والموثوقية للحلول على مستوى المؤسسة. تأتي جميع السيرفرات مع ضمان، دعم فني، وخيارات خدمة ما بعد الضمان.

وبالتالي، يحصل العميل على الخيار: استخدام حل معتمد من Lenovo (كما في هذه الحالة) أو الاعتماد على تطويرنا AMPERE للحصول على تكوينات فريدة، أوقات تسليم أقصر، أو متطلبات دمج محددة.

هل تحتاج بنية AI مماثلة؟

نحن نوفر خوادم معتمدة من الموردين وحلول AMPERE مخصصة للذكاء الاصطناعي وHPC وأحمال المؤسسات. تواصل معنا لمناقشة التكوين المستهدف وخطة التنفيذ.

تواصل مع المدير مشاريع أخرى

تسليم خادم الذكاء الاصطناعي Lenovo ThinkSystem SR680a V3 ‏(8× NVIDIA HGX H200 GPUs)