مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود
في اليومين الماضيين ، "استغلت Nvidia الثغرات" لاختراق قيود الذكاء الاصطناعي في الولايات المتحدة ، وأطلقت "نماذج خاصة" للسوق الصينية ، وهي مستعدة لمواصلة بيع وحدات معالجة الرسومات عالية الأداء للشركات الصينية.
وفقا لأحدث التقارير الإعلامية ، فإن Nvidia على وشك إطلاق ثلاث شرائح الذكاء الاصطناعي جديدة على الأقل ، بما في ذلك H20 SXM و PCIe L20 و PCIe L2 ، لتحل محل H100 ، التي كانت مقيدة سابقا من التصدير من قبل الولايات المتحدة. تعتمد جميع الرقائق الثلاث على بنية Hopper GPU ، مع أقصى أداء نظري يبلغ 296 TFLOPs (عمليات الفاصلة العائمة في الثانية ، والمعروفة أيضا باسم سرعة الذروة في الثانية).
إذن ، بالمقارنة مع H100 ، ما هو أداء رقائق "الطراز الخاص" H20 و L20 و L2 من Nvidia؟
** من الناحية النظرية ، فإن H100 أسرع 6.68 مرة من H20. وفقا لمدونة حديثة من قبل المحلل ديلان بيتال ، حتى لو كان معدل الاستخدام الفعلي ل H20 يمكن أن يصل إلى 90٪ ، فإن أدائه في بيئة التوصيل البيني الفعلي متعدد البطاقات سيظل قريبا من 50٪ فقط من H100. **
** قالت بعض الوسائط أيضا أن قوة الحوسبة الشاملة ل H20 تعادل 20٪ فقط من قوة H100 ، وبسبب إضافة ذاكرة فيديو HBM ووحدة التوصيل البيني NVLink ، ستزداد تكلفة قوة الحوسبة بشكل كبير. **
ومع ذلك ، فإن مزايا H20 واضحة أيضا ، مع أكثر من 20٪ أسرع من H100 في استدلال نموذج اللغة الكبيرة (LLM). والسبب هو أن H20 يشبه في بعض النواحي H200 ، الجيل التالي من رقائق الذكاء الاصطناعي الفائقة التي سيتم إصدارها العام المقبل. **
قامت Nvidia بالفعل بعمل عينات من جميع الرقائق الثلاث ، حيث من المتوقع إطلاق H20 و L20 في ديسمبر من هذا العام ، بينما سيتم إطلاق L2 في يناير من العام المقبل. سيبدأ أخذ عينات المنتج قبل شهر واحد من الإطلاق.
01
「H20 مقابل H100」
لنبدأ ب H100 ، الذي يحتوي على 80 جيجابايت من ذاكرة HBM3 ، وعرض نطاق ترددي للذاكرة يبلغ 3.4 تيرابايت / ثانية ، وأداء نظري ل 1979 TFLOPs ، وكثافة أداء (TFLOPs / حجم القالب) تصل إلى 19.4 ، وهي أقوى وحدة معالجة رسومات في خط إنتاج NVIDIA الحالي.
يحتوي H20 على ذاكرة HBM3 بسعة 96 جيجابايت وعرض نطاق ترددي للذاكرة يصل إلى 4.0 تيرابايت / ثانية ، وكلاهما أعلى من H100 ، لكن قوة الحوسبة هي 296 TFLOPs فقط وكثافة الأداء 2.9 ، وهي أدنى بكثير من H100.
من الناحية النظرية ، فإن H100 أسرع 6.68 مرة من H20. ومع ذلك ، من المهم ملاحظة أن هذه المقارنة تستند إلى قوة حوسبة الفاصلة العائمة ل FP16 Tensor Cores (FP16 Tensor Core FLOPs) وتمكن من الحساب المتناثر (مما يقلل بشكل كبير من مقدار الحساب وبالتالي يزيد السرعة بشكل كبير) ، لذلك لا يعكس بشكل كامل كل قوته الحاسوبية.
بالإضافة إلى ذلك ، تتمتع وحدة معالجة الرسومات بقوة تصميم حراري تبلغ 400 واط ، وهي أقل من H100 700W ، ويمكن تهيئتها باستخدام 8 وحدات معالجة رسومات في حل HGX (حل خادم GPU من NVIDIA) ، كما أنها تحتفظ بوظيفة التوصيل البيني عالية السرعة NVLink بسرعة 900 جيجابايت / ثانية ، مع توفير 7 MIG (وحدات معالجة رسومات متعددة المثيلات).
H100 SXM TF16 (تناثر) FLOPS = 1979
H20 SXM TF16 (تناثر) FLOPS = 296
** وفقا لنموذج مقارنة أداء LLM من Peta ، فإن H20 لديه رمز مميز / ثانية ذروة بحجم دفعة معتدل ، وهو أعلى بنسبة 20٪ من H100 ، وزمن انتقال الرمز المميز إلى الرمز المميز عند حجم الدفعة المنخفض أقل بنسبة 25٪ من H100. ويرجع ذلك إلى تقليل عدد الرقائق المطلوبة للاستدلال من 2 إلى 1 ، وإذا تم استخدام التكميم 8 بت مرة أخرى ، يمكن تشغيل طراز LLAMA 70B بكفاءة على H20 واحد بدلا من طلب 2 H100s. **
تجدر الإشارة إلى أنه على الرغم من أن قوة الحوسبة ل H20 هي 296 TFLOPs فقط ، أي أقل بكثير من 1979 من H100 ، إذا كان معدل الاستخدام الفعلي ل H20 MFU (MFU الحالي ل H100 هو 38.1٪ فقط) ، مما يعني أن H20 يمكنه بالفعل تشغيل 270 TFLOPS ، فإن أداء H20 في بيئة التوصيل البيني الفعلية متعددة البطاقات يقترب من 50٪ من أداء H100.
من منظور الحوسبة التقليدية ، فإن H20 هو تدهور مقارنة ب H100 ، ولكن من حيث استدلال LLM ، سيكون H20 في الواقع أسرع بأكثر من 20٪ من H100 ، على أساس أن H20 مشابه في بعض النواحي ل H200 الذي سيتم إصداره العام المقبل. لاحظ أن H200 هو خليفة H100 ، وهي شريحة فائقة لأحمال عمل الذكاء الاصطناعي المعقدة والحوسبة عالية الأداء.
02
تكوين L20 وL2 أكثر انسيابية
وفي الوقت نفسه ، يأتي L20 مزودا بذاكرة 48 جيجابايت و 239 TFLOPs لأداء الحوسبة ، بينما يأتي تكوين L2 مع 24 جيجابايت من الذاكرة و 193 TFLOPS من أداء الحوسبة.
** يعتمد L20 على L40 ويعتمد L2 على L4 ، لكن هاتين الشريحتين لا تستخدمان بشكل شائع في الاستدلال والتدريب على LLM. **
يأتي كل من L20 و L2 في عامل شكل PCIe ، مع عوامل شكل PCIe لمحطات العمل والخوادم ، وهي أكثر انسيابية من نماذج عامل الشكل الأعلى مثل Hopper H800 و A800.
L40 TF16 (تناثر) FLOPs = 362
L20 TF16 (تناثر) FLOPs = 239
L4 TF16 (تناثر) FLOPs = 242
L2 TF16 (تناثر) FLOPs = 193
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
كيف تقارن رقائق H20 و L20 و L2 من NVIDIA ب H100؟
المصدر الأصلي: هارد الذكاء الاصطناعي
في اليومين الماضيين ، "استغلت Nvidia الثغرات" لاختراق قيود الذكاء الاصطناعي في الولايات المتحدة ، وأطلقت "نماذج خاصة" للسوق الصينية ، وهي مستعدة لمواصلة بيع وحدات معالجة الرسومات عالية الأداء للشركات الصينية.
وفقا لأحدث التقارير الإعلامية ، فإن Nvidia على وشك إطلاق ثلاث شرائح الذكاء الاصطناعي جديدة على الأقل ، بما في ذلك H20 SXM و PCIe L20 و PCIe L2 ، لتحل محل H100 ، التي كانت مقيدة سابقا من التصدير من قبل الولايات المتحدة. تعتمد جميع الرقائق الثلاث على بنية Hopper GPU ، مع أقصى أداء نظري يبلغ 296 TFLOPs (عمليات الفاصلة العائمة في الثانية ، والمعروفة أيضا باسم سرعة الذروة في الثانية).
إذن ، بالمقارنة مع H100 ، ما هو أداء رقائق "الطراز الخاص" H20 و L20 و L2 من Nvidia؟
** من الناحية النظرية ، فإن H100 أسرع 6.68 مرة من H20. وفقا لمدونة حديثة من قبل المحلل ديلان بيتال ، حتى لو كان معدل الاستخدام الفعلي ل H20 يمكن أن يصل إلى 90٪ ، فإن أدائه في بيئة التوصيل البيني الفعلي متعدد البطاقات سيظل قريبا من 50٪ فقط من H100. **
** قالت بعض الوسائط أيضا أن قوة الحوسبة الشاملة ل H20 تعادل 20٪ فقط من قوة H100 ، وبسبب إضافة ذاكرة فيديو HBM ووحدة التوصيل البيني NVLink ، ستزداد تكلفة قوة الحوسبة بشكل كبير. **
ومع ذلك ، فإن مزايا H20 واضحة أيضا ، مع أكثر من 20٪ أسرع من H100 في استدلال نموذج اللغة الكبيرة (LLM). والسبب هو أن H20 يشبه في بعض النواحي H200 ، الجيل التالي من رقائق الذكاء الاصطناعي الفائقة التي سيتم إصدارها العام المقبل. **
قامت Nvidia بالفعل بعمل عينات من جميع الرقائق الثلاث ، حيث من المتوقع إطلاق H20 و L20 في ديسمبر من هذا العام ، بينما سيتم إطلاق L2 في يناير من العام المقبل. سيبدأ أخذ عينات المنتج قبل شهر واحد من الإطلاق.
01
「H20 مقابل H100」
لنبدأ ب H100 ، الذي يحتوي على 80 جيجابايت من ذاكرة HBM3 ، وعرض نطاق ترددي للذاكرة يبلغ 3.4 تيرابايت / ثانية ، وأداء نظري ل 1979 TFLOPs ، وكثافة أداء (TFLOPs / حجم القالب) تصل إلى 19.4 ، وهي أقوى وحدة معالجة رسومات في خط إنتاج NVIDIA الحالي.
يحتوي H20 على ذاكرة HBM3 بسعة 96 جيجابايت وعرض نطاق ترددي للذاكرة يصل إلى 4.0 تيرابايت / ثانية ، وكلاهما أعلى من H100 ، لكن قوة الحوسبة هي 296 TFLOPs فقط وكثافة الأداء 2.9 ، وهي أدنى بكثير من H100.
بالإضافة إلى ذلك ، تتمتع وحدة معالجة الرسومات بقوة تصميم حراري تبلغ 400 واط ، وهي أقل من H100 700W ، ويمكن تهيئتها باستخدام 8 وحدات معالجة رسومات في حل HGX (حل خادم GPU من NVIDIA) ، كما أنها تحتفظ بوظيفة التوصيل البيني عالية السرعة NVLink بسرعة 900 جيجابايت / ثانية ، مع توفير 7 MIG (وحدات معالجة رسومات متعددة المثيلات).
H100 SXM TF16 (تناثر) FLOPS = 1979
H20 SXM TF16 (تناثر) FLOPS = 296
** وفقا لنموذج مقارنة أداء LLM من Peta ، فإن H20 لديه رمز مميز / ثانية ذروة بحجم دفعة معتدل ، وهو أعلى بنسبة 20٪ من H100 ، وزمن انتقال الرمز المميز إلى الرمز المميز عند حجم الدفعة المنخفض أقل بنسبة 25٪ من H100. ويرجع ذلك إلى تقليل عدد الرقائق المطلوبة للاستدلال من 2 إلى 1 ، وإذا تم استخدام التكميم 8 بت مرة أخرى ، يمكن تشغيل طراز LLAMA 70B بكفاءة على H20 واحد بدلا من طلب 2 H100s. **
تجدر الإشارة إلى أنه على الرغم من أن قوة الحوسبة ل H20 هي 296 TFLOPs فقط ، أي أقل بكثير من 1979 من H100 ، إذا كان معدل الاستخدام الفعلي ل H20 MFU (MFU الحالي ل H100 هو 38.1٪ فقط) ، مما يعني أن H20 يمكنه بالفعل تشغيل 270 TFLOPS ، فإن أداء H20 في بيئة التوصيل البيني الفعلية متعددة البطاقات يقترب من 50٪ من أداء H100.
من منظور الحوسبة التقليدية ، فإن H20 هو تدهور مقارنة ب H100 ، ولكن من حيث استدلال LLM ، سيكون H20 في الواقع أسرع بأكثر من 20٪ من H100 ، على أساس أن H20 مشابه في بعض النواحي ل H200 الذي سيتم إصداره العام المقبل. لاحظ أن H200 هو خليفة H100 ، وهي شريحة فائقة لأحمال عمل الذكاء الاصطناعي المعقدة والحوسبة عالية الأداء.
02
تكوين L20 وL2 أكثر انسيابية
وفي الوقت نفسه ، يأتي L20 مزودا بذاكرة 48 جيجابايت و 239 TFLOPs لأداء الحوسبة ، بينما يأتي تكوين L2 مع 24 جيجابايت من الذاكرة و 193 TFLOPS من أداء الحوسبة.
** يعتمد L20 على L40 ويعتمد L2 على L4 ، لكن هاتين الشريحتين لا تستخدمان بشكل شائع في الاستدلال والتدريب على LLM. **
يأتي كل من L20 و L2 في عامل شكل PCIe ، مع عوامل شكل PCIe لمحطات العمل والخوادم ، وهي أكثر انسيابية من نماذج عامل الشكل الأعلى مثل Hopper H800 و A800.
L40 TF16 (تناثر) FLOPs = 362
L20 TF16 (تناثر) FLOPs = 239
L4 TF16 (تناثر) FLOPs = 242
L2 TF16 (تناثر) FLOPs = 193