和H100相比，英偉達的H20、L20 和 L2 晶片性能如何？

Question

原文來源：硬 AI![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5fb33e5c93-dd1a6f-cd5cc0) 圖片來源：由無界 AI生成這兩天，英偉達「鑽空子」突破美國AI限制，推出中國市場「特供型號」，準備繼續向中國公司出售高性能GPU的傳聞鬧得沸沸揚揚。據媒體最新報導，英偉達即將推出至少三款新的AI晶元，包括 H20 SXM、PCIe L20 和 PCIe L2，以替代此前被美國限制出口的H100。 這三款晶元均基於Hopper GPU 架構，最高理論性能可達296TFLOP（每秒浮點運算次數，也叫每秒峰值速度）。那麼，和H100相比，英偉達H20、L20、L2三款「特供型號」晶元的性能如何呢？**理論上，H100比H20的速度快了6.68倍。 據分析師Dylan Petal最新發佈的一篇博文，即使H20的實際利用率能達到90%，其在實際多卡互聯環境中的性能仍只能接近H100的50%。 ****也有媒體稱，H20的綜合算力僅相當於H100的20%，而且由於增加了HBM顯存和NVLink互聯模組，算力成本會顯著提高。 ****不過，H20 的優點也很明顯，在大語言模型（LLM）推理方面比H100快了20%以上。 理由是H20在某些方面與明年要發佈的下一代超級AI晶元H200相似。 **英偉達已經做出這三款晶元的樣品，H20 和 L20預計將於今年 12 月推出，而 L2 將於明年 1 月推出。 產品採樣將於發佈前一個月開始。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2d62e9f19f-dd1a6f-cd5cc0)   # **01****「H20 與 H100」**先來看H100，擁有80GB HBM3記憶體，記憶體頻寬為3.4Tb/s，理論性能為1979 TFLOP，性能密度（TFLOPs/Die size ）高達19.4，是英偉達當前產品線中最強大的GPU。H20，擁有96GB HBM3記憶體，記憶體頻寬高達4.0 Tb/s，均高於H100，但計算能力僅為296 TFLOP，性能密度為2.9，遠不如H100。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b8d381834b-dd1a6f-cd5cc0) 理論上H100 相比H20 的速度快了6.68倍。 但值得注意的是，這個比較是基於FP16 Tensor Core的浮點計算能力（FP16 Tensor Core FLOPs），且啟用了稀疏計算（大大減少運算量，因此速度會有顯著提升），因此並不能全面反映其所有的計算能力。另外，該GPU的熱設計功耗為400W，低於H100的700W，並且在HGX解決方案（英偉達的GPU伺服器方案）中可以進行8路GPU的配置，它還保留了900 GB/s的NVLink高速互聯功能，同時還提供了7路MIG（Multi-Instance GPU，多實例GPU）的功能。H100 SXM TF16（稀疏度）FLOPS = 1979H20 SXM TF16（稀疏度）FLOPS = 296**根據Peta的LLM性能對比模型表明，H20在moderate batch size下峰值token/秒，比H100高出20%，在low batch size下的token to token延遲比H100還要低25%。 這是由於將推理所需的晶元數量從2個減少到1個，如果再使用8位量化，LLAMA 70B模型可以在單個H20上有效運行，而不是需要2個H100。 **值得一提的是，H20的計算能力雖然只有296個TFLOP，遠不及H100的1979個，但如果H20的實際利用率MFU（目前H100的MFU僅為38.1%），這意味著H20實際能跑出270 TFLOPS，那麼H20在實際多卡互聯環境中的性能接近H100的50%。從傳統計算的角度來看，H20相比H100有所降級，但在LLM推理這一方面，H20實際上會比H100快了20%以上，理由是H20在某些方面與明年要發佈的H200相似。 注意，H200是H100的後繼產品，複雜AI和HPC工作負載的超級晶片。# **02** **「L20和L2配置更精簡」** 與此同時，L20配備48 GB 記憶體和計算性能為239個TFLOP，而 L2 配置為 24 GB 記憶體和計算性能193個TFLOP。**L20基於L40，L2基於L4，但這兩款晶元在LLM推理和訓練中並不常用。 **L20和L2均採用PCIe外形規格，採用了適合工作站和伺服器的PCIe規格，相比Hopper H800和A800這些規格更高的型號，配置也更加精簡。L40 TF16（稀疏性）FLOPs = 362L20 TF16（稀疏性）FLOP = 239L4 TF16（稀疏性）FLOP = 242L2 TF16（稀疏度）FLOP = 193