NVIDIAのH20、L20、L2チップはH100と比較してどうですか?

Question

出典: Hard AI![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5fb33e5c93-dd1a6f-cd5cc0) 画像ソース: Unbounded AIによって生成過去2日間で、エヌビディアは米国におけるAIの制約を突破するために「抜け穴を悪用」し、中国市場向けの「特別モデル」を発売し、中国企業に高性能GPUを販売し続ける準備ができています。最新のメディア報道によると、Nvidiaは、以前に米国によって輸出が制限されていたH100を置き換えるために、H20 SXM、PCIe L20、PCIe L2を含む少なくとも3つの新しいAIチップを発売しようとしています。 3つのチップはすべてHopper GPUアーキテクチャに基づいており、最大理論性能は296 TFLOPS(浮動小数点演算/秒、ピーク速度/秒とも呼ばれます)です。では、H100と比較して、NvidiaのH20、L20、L2の「特別モデル」チップの性能はどれくらいですか?**理論的には、H100はH20よりも6.68倍高速です。 アナリストのDylan Petal氏の最近のブログ記事によると、H20の実際の使用率が90%に達したとしても、実際のマルチカード相互接続環境でのパフォーマンスはH100の50%近くにとどまるとのことです。 ****一部のメディアでは、H20の包括的な計算能力はH100の20%に過ぎず、HBMビデオメモリとNVLink相互接続モジュールの追加により、計算能力のコストが大幅に増加すると述べています。 **ただし、H20の利点も明らかであり、大規模言語モデル(LLM)推論ではH100よりも20%以上高速です。 その理由は、H20が来年発売される次世代のスーパーAIチップであるH200と似ている点があるからです。 **Nvidiaはすでに3つのチップすべてのサンプルを作成しており、H20とL20は今年12月に発売され、L2は来年1月に発売される予定です。 製品のサンプルは、発売の1か月前に開始されます。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2d62e9f19f-dd1a6f-cd5cc0)   # **01****「H20 Vs. H100」**まず、80GBのHBM3メモリ、3.4Tb/sのメモリ帯域幅、1979 TFLOPの理論上のパフォーマンス、NVIDIAの現在の製品ラインの中で最も強力なGPUである最大19.4のパフォーマンス密度(TFLOPs/ダイサイズ)を備えたH100から始めましょう。H20は96GBのHBM3メモリと最大4.0Tb/sのメモリ帯域幅を搭載しており、どちらもH100よりも高いが、計算能力はわずか296TFLOPS、パフォーマンス密度は2.9で、H100よりもはるかに劣っている。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b8d381834b-dd1a6f-cd5cc0) 理論的には、H100 は H20 の 6.68 倍高速です。 ただし、この比較はFP16 Tensorコアの浮動小数点計算能力(FP16 TensorコアFLOP)に基づいており、スパース計算が可能(計算量が大幅に削減されるため、速度が大幅に向上する)であるため、すべての計算能力を完全に反映しているわけではないことに注意することが重要です。また、GPUの熱設計電力はH100の700Wよりも低い400Wで、HGXソリューション(NVIDIAのGPUサーバーソリューション)では8GPUで構成でき、900GB/sのNVLink高速相互接続機能も保持しながら、7MIG(Multi-Instance GPU)も提供します。H100 SXM TF16(スパース性)FLOPS = 1979H20 SXM TF16(スパース性)FLOPS = 296**PetaのLLMパフォーマンス比較モデルによると、H20は中程度のバッチサイズでのピークトークン/秒でH100よりも20%高く、低バッチサイズでのトークン間レイテンシーはH100よりも25%低くなっています。 これは、推論に必要なチップ数を2個から1個に減らしたためで、8ビット量子化を再び使用した場合、LLAMA70Bモデルは2つのH100を必要とせず、1つのH20で効率的に実行できます。 **H20の計算能力はわずか296 TFLOPSで、1979年のH100よりもはるかに少ないですが、H20 MFUの実際の使用率(H100の現在のMFUはわずか38.1%)、つまりH20が実際に270 TFLOPSを実行できる場合、実際のマルチカード相互接続環境でのH20のパフォーマンスはH100の50%に近いことに注意してください。従来のコンピューティングの観点から見ると、H20 は H100 に比べて劣化していますが、LLM 推論の観点からは、H20 は来年リリースされる H200 といくつかの点で似ているため、実際には H20 の方が H100 よりも 20% 以上高速になります。 H200は、複雑なAIおよびHPCワークロード向けのスーパーチップであるH100の後継機であることに注意してください。# **02** **L20 および L2 構成がより合理化されました** 一方、L20 は 48 GB のメモリと 239 TFLOPS のコンピューティング パフォーマンスを備え、L2 構成には 24 GB のメモリと 193 TFLOPS のコンピューティング パフォーマンスが搭載されています。**L20 は L40 に基づいており、L2 は L4 に基づいていますが、これら 2 つのチップは LLM の推論とトレーニングでは一般的に使用されません。 **L20 と L2 はどちらも PCIe フォームファクタで提供され、ワークステーションとサーバー用の PCIe フォームファクタで提供され、Hopper H800 や A800 などの上位フォームファクタモデルよりも合理化されています。L40 TF16 (スパース性) フロップ = 362L20 TF16 (スパース性) フロップ = 239L4 TF16 (スパース性) フロップ = 242L2 TF16 (スパース性) フロップ = 193