كيف تقارن رقائق H20 و L20 و L2 من NVIDIA ب H100؟

المصدر الأصلي: هارد الذكاء الاصطناعي

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

في اليومين الماضيين ، "استغلت Nvidia الثغرات" لاختراق قيود الذكاء الاصطناعي في الولايات المتحدة ، وأطلقت "نماذج خاصة" للسوق الصينية ، وهي مستعدة لمواصلة بيع وحدات معالجة الرسومات عالية الأداء للشركات الصينية.

وفقا لأحدث التقارير الإعلامية ، فإن Nvidia على وشك إطلاق ثلاث شرائح الذكاء الاصطناعي جديدة على الأقل ، بما في ذلك H20 SXM و PCIe L20 و PCIe L2 ، لتحل محل H100 ، التي كانت مقيدة سابقا من التصدير من قبل الولايات المتحدة. تعتمد جميع الرقائق الثلاث على بنية Hopper GPU ، مع أقصى أداء نظري يبلغ 296 TFLOPs (عمليات الفاصلة العائمة في الثانية ، والمعروفة أيضا باسم سرعة الذروة في الثانية).

إذن ، بالمقارنة مع H100 ، ما هو أداء رقائق "الطراز الخاص" H20 و L20 و L2 من Nvidia؟

** من الناحية النظرية ، فإن H100 أسرع 6.68 مرة من H20. وفقا لمدونة حديثة من قبل المحلل ديلان بيتال ، حتى لو كان معدل الاستخدام الفعلي ل H20 يمكن أن يصل إلى 90٪ ، فإن أدائه في بيئة التوصيل البيني الفعلي متعدد البطاقات سيظل قريبا من 50٪ فقط من H100. **

** قالت بعض الوسائط أيضا أن قوة الحوسبة الشاملة ل H20 تعادل 20٪ فقط من قوة H100 ، وبسبب إضافة ذاكرة فيديو HBM ووحدة التوصيل البيني NVLink ، ستزداد تكلفة قوة الحوسبة بشكل كبير. **

ومع ذلك ، فإن مزايا H20 واضحة أيضا ، مع أكثر من 20٪ أسرع من H100 في استدلال نموذج اللغة الكبيرة (LLM). والسبب هو أن H20 يشبه في بعض النواحي H200 ، الجيل التالي من رقائق الذكاء الاصطناعي الفائقة التي سيتم إصدارها العام المقبل. **

قامت Nvidia بالفعل بعمل عينات من جميع الرقائق الثلاث ، حيث من المتوقع إطلاق H20 و L20 في ديسمبر من هذا العام ، بينما سيتم إطلاق L2 في يناير من العام المقبل. سيبدأ أخذ عينات المنتج قبل شهر واحد من الإطلاق.

01

「H20 مقابل H100」

لنبدأ ب H100 ، الذي يحتوي على 80 جيجابايت من ذاكرة HBM3 ، وعرض نطاق ترددي للذاكرة يبلغ 3.4 تيرابايت / ثانية ، وأداء نظري ل 1979 TFLOPs ، وكثافة أداء (TFLOPs / حجم القالب) تصل إلى 19.4 ، وهي أقوى وحدة معالجة رسومات في خط إنتاج NVIDIA الحالي.

يحتوي H20 على ذاكرة HBM3 بسعة 96 جيجابايت وعرض نطاق ترددي للذاكرة يصل إلى 4.0 تيرابايت / ثانية ، وكلاهما أعلى من H100 ، لكن قوة الحوسبة هي 296 TFLOPs فقط وكثافة الأداء 2.9 ، وهي أدنى بكثير من H100.

من الناحية النظرية ، فإن H100 أسرع 6.68 مرة من H20. ومع ذلك ، من المهم ملاحظة أن هذه المقارنة تستند إلى قوة حوسبة الفاصلة العائمة ل FP16 Tensor Cores (FP16 Tensor Core FLOPs) وتمكن من الحساب المتناثر (مما يقلل بشكل كبير من مقدار الحساب وبالتالي يزيد السرعة بشكل كبير) ، لذلك لا يعكس بشكل كامل كل قوته الحاسوبية.

بالإضافة إلى ذلك ، تتمتع وحدة معالجة الرسومات بقوة تصميم حراري تبلغ 400 واط ، وهي أقل من H100 700W ، ويمكن تهيئتها باستخدام 8 وحدات معالجة رسومات في حل HGX (حل خادم GPU من NVIDIA) ، كما أنها تحتفظ بوظيفة التوصيل البيني عالية السرعة NVLink بسرعة 900 جيجابايت / ثانية ، مع توفير 7 MIG (وحدات معالجة رسومات متعددة المثيلات).

H100 SXM TF16 (تناثر) FLOPS = 1979

H20 SXM TF16 (تناثر) FLOPS = 296

** وفقا لنموذج مقارنة أداء LLM من Peta ، فإن H20 لديه رمز مميز / ثانية ذروة بحجم دفعة معتدل ، وهو أعلى بنسبة 20٪ من H100 ، وزمن انتقال الرمز المميز إلى الرمز المميز عند حجم الدفعة المنخفض أقل بنسبة 25٪ من H100. ويرجع ذلك إلى تقليل عدد الرقائق المطلوبة للاستدلال من 2 إلى 1 ، وإذا تم استخدام التكميم 8 بت مرة أخرى ، يمكن تشغيل طراز LLAMA 70B بكفاءة على H20 واحد بدلا من طلب 2 H100s. **

تجدر الإشارة إلى أنه على الرغم من أن قوة الحوسبة ل H20 هي 296 TFLOPs فقط ، أي أقل بكثير من 1979 من H100 ، إذا كان معدل الاستخدام الفعلي ل H20 MFU (MFU الحالي ل H100 هو 38.1٪ فقط) ، مما يعني أن H20 يمكنه بالفعل تشغيل 270 TFLOPS ، فإن أداء H20 في بيئة التوصيل البيني الفعلية متعددة البطاقات يقترب من 50٪ من أداء H100.

من منظور الحوسبة التقليدية ، فإن H20 هو تدهور مقارنة ب H100 ، ولكن من حيث استدلال LLM ، سيكون H20 في الواقع أسرع بأكثر من 20٪ من H100 ، على أساس أن H20 مشابه في بعض النواحي ل H200 الذي سيتم إصداره العام المقبل. لاحظ أن H200 هو خليفة H100 ، وهي شريحة فائقة لأحمال عمل الذكاء الاصطناعي المعقدة والحوسبة عالية الأداء.

02

تكوين L20 وL2 أكثر انسيابية

وفي الوقت نفسه ، يأتي L20 مزودا بذاكرة 48 جيجابايت و 239 TFLOPs لأداء الحوسبة ، بينما يأتي تكوين L2 مع 24 جيجابايت من الذاكرة و 193 TFLOPS من أداء الحوسبة.

** يعتمد L20 على L40 ويعتمد L2 على L4 ، لكن هاتين الشريحتين لا تستخدمان بشكل شائع في الاستدلال والتدريب على LLM. **

يأتي كل من L20 و L2 في عامل شكل PCIe ، مع عوامل شكل PCIe لمحطات العمل والخوادم ، وهي أكثر انسيابية من نماذج عامل الشكل الأعلى مثل Hopper H800 و A800.

L40 TF16 (تناثر) FLOPs = 362

L20 TF16 (تناثر) FLOPs = 239

L4 TF16 (تناثر) FLOPs = 242

L2 TF16 (تناثر) FLOPs = 193

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت