和H100相比，英伟达的H20、L20 和 L2 芯片性能如何？

Question

原文来源：硬 AI![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5fb33e5c93-dd1a6f-cd5cc0)图片来源：由无界 AI生成这两天，英伟达“钻空子”突破美国AI限制，推出中国市场“特供型号”，准备继续向中国公司出售高性能GPU的传闻闹得沸沸扬扬。据媒体最新报道，英伟达即将推出至少三款新的AI芯片，包括 H20 SXM、PCIe L20 和 PCIe L2，以替代此前被美国限制出口的H100。这三款芯片均基于Hopper GPU 架构，最高理论性能可达296TFLOP（每秒浮点运算次数，也叫每秒峰值速度）。那么，和H100相比，英伟达H20、L20、L2三款“特供型号”芯片的性能如何呢？**理论上，H100比H20的速度快了6.68倍。据分析师Dylan Petal最新发布的一篇博文，即使H20的实际利用率能达到90%，其在实际多卡互联环境中的性能仍只能接近H100的50%。****也有媒体称，H20的综合算力仅相当于H100的20%，而且由于增加了HBM显存和NVLink互联模块，算力成本会显著提高。****不过，H20 的优点也很明显，在大语言模型（LLM）推理方面比H100快了20%以上。理由是H20在某些方面与明年要发布的下一代超级AI芯片H200相似。**英伟达已经做出这三款芯片的样品，H20 和 L20预计将于今年 12 月推出，而 L2将于明年 1 月推出。产品采样将于发布前一个月开始。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2d62e9f19f-dd1a6f-cd5cc0)  # **01**   **「H20 Vs. H100」** 先来看H100，拥有80GB HBM3内存，内存带宽为3.4Tb/s，理论性能为1979 TFLOP，性能密度（TFLOPs/Die size ）高达19.4，是英伟达当前产品线中最强大的GPU。H20，拥有96GB HBM3内存，内存带宽高达4.0 Tb/s，均高于H100，但计算能力仅为296 TFLOP，性能密度为2.9，远不如H100。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b8d381834b-dd1a6f-cd5cc0)理论上H100 相比H20 的速度快了6.68倍。但值得注意的是，这个比较是基于FP16 Tensor Core的浮点计算能力(FP16 Tensor Core FLOPs)，且启用了稀疏计算（大大减少运算量，因此速度会有显著提升），因此并不能全面反映其所有的计算能力。另外，该GPU的热设计功耗为400W，低于H100的700W，并且在HGX解决方案(英伟达的GPU服务器方案)中可以进行8路GPU的配置，它还保留了900 GB/s的NVLink高速互联功能，同时还提供了7路MIG(Multi-Instance GPU，多实例GPU)的功能。H100 SXM TF16（Sparsity）FLOPS = 1979 H20 SXM TF16（Sparsity）FLOPS = 296**根据Peta的LLM性能对比模型表明，H20在moderate batch size下峰值token/秒，比H100高出20%，在low batch size下的token to token延迟比H100还要低25%。这是由于将推理所需的芯片数量从2个减少到1个，如果再使用8位量化，LLAMA 70B模型可以在单个H20上有效运行，而不是需要2个H100。**值得一提的是，H20的计算能力虽然只有296个TFLOP，远不及H100的1979个，但如果H20的实际利用率MFU（目前H100的MFU仅为38.1%），这意味着H20实际能跑出270 TFLOPS，那么H20在实际多卡互联环境中的性能接近H100的50%。从传统计算的角度来看，H20相比H100有所降级，但在LLM推理这一方面，H20实际上会比H100快了20%以上，理由是H20在某些方面与明年要发布的H200相似。注意，H200是H100的后继产品，复杂AI和HPC工作负载的超级芯片。  # **02**   **「L20和L2配置更精简」** 与此同时，L20配备48 GB 内存和计算性能为239个TFLOP，而 L2 配置为 24 GB 内存和计算性能193个TFLOP。**L20基于L40，L2基于L4，但这两款芯片在LLM推理和训练中并不常用。**L20和L2均采用 PCIe 外形规格，采用了适合工作站和服务器的PCIe规格，相比Hopper H800和A800这些规格更高的型号，配置也更加精简。L40 TF16 (Sparsity) FLOPs = 362 L20 TF16 (Sparsity) FLOPs = 239 L4 TF16 (Sparsity) FLOPs = 242 L2 TF16 (Sparsity) FLOPs = 193