Comment les puces H20, L20 et L2 de NVIDIA se comparent-elles au H100 ?

Question

Source d’origine : Hard AI![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5fb33e5c93-dd1a6f-cd5cc0) Source de l’image : Généré par Unbounded AIAu cours des deux derniers jours, Nvidia a « exploité des failles » pour contourner les restrictions de l’IA aux États-Unis, a lancé des « modèles spéciaux » pour le marché chinois et est prêt à continuer à vendre des GPU haute performance aux entreprises chinoises.Selon les derniers médias, Nvidia est sur le point de lancer au moins trois nouvelles puces d’IA, dont H20 SXM, PCIe L20 et PCIe L2, pour remplacer la H100, qui était auparavant interdite d’exportation par les États-Unis. Les trois puces sont basées sur l’architecture GPU Hopper, avec une performance théorique maximale de 296 TFLOPs (opérations en virgule flottante par seconde, également connues sous le nom de vitesse de pointe par seconde).Alors, par rapport au H100, quelles sont les performances des puces H20, L20 et L2 « modèle spécial » de Nvidia ?**Théoriquement, le H100 est 6,68 fois plus rapide que le H20. Selon un récent billet de blog de l’analyste Dylan Petal, même si le taux d’utilisation réel du H20 peut atteindre 90 %, ses performances dans l’environnement d’interconnexion multi-cartes actuel ne seront toujours que proches de 50 % de celles du H100. ****Certains médias ont également déclaré que la puissance de calcul globale du H20 n’équivaut qu’à 20 % de celle du H100, et qu’en raison de l’ajout de la mémoire vidéo HBM et du module d’interconnexion NVLink, le coût de la puissance de calcul augmentera considérablement. **Cependant, les avantages de H20 sont également clairs, avec plus de 20 % de vitesse que H100 dans l’inférence de grand modèle de langage (LLM). La raison en est que le H20 est similaire à certains égards au H200, la prochaine génération de puces super AI qui sortira l’année prochaine. **Nvidia a déjà fait des échantillons des trois puces, les H20 et L20 devant être lancées en décembre de cette année, tandis que la L2 sera lancée en janvier de l’année prochaine. L’échantillonnage des produits commencera un mois avant le lancement.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2d62e9f19f-dd1a6f-cd5cc0)   # **01**   **「H20 contre H100」** Commençons par le H100, qui dispose de 80 Go de mémoire HBM3, d’une bande passante mémoire de 3,4 To/s, d’une performance théorique de 1979 TFLOP et d’une densité de performance (TFLOPs/taille de puce) allant jusqu’à 19,4, qui est le GPU le plus puissant de la gamme de produits actuelle de NVIDIA.Le H20 dispose de 96 Go de mémoire HBM3 et d’une bande passante mémoire allant jusqu’à 4,0 Tb/s, tous deux supérieurs à ceux du H100, mais la puissance de calcul n’est que de 296 TFLOPs et la densité de performance est de 2,9, ce qui est bien inférieur au H100.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b8d381834b-dd1a6f-cd5cc0) Théoriquement, le H100 est 6,68 fois plus rapide que le H20. Cependant, il est important de noter que cette comparaison est basée sur la puissance de calcul en virgule flottante des cœurs Tensor FP16 (FP16 Tensor Core FLOPs) et permet un calcul épars (ce qui réduit considérablement la quantité de calcul et augmente donc considérablement la vitesse), de sorte qu’il ne reflète pas entièrement toute sa puissance de calcul.De plus, le GPU a une puissance de conception thermique de 400 W, ce qui est inférieur aux 700 W du H100, et peut être configuré avec 8 GPU dans la solution HGX (la solution de serveur GPU de NVIDIA), et il conserve également la fonction d’interconnexion haute vitesse NVLink de 900 Go/s, tout en fournissant également 7 MIG (GPU multi-instances).H100 SXM TF16(Parcimonie)FLOPS = 1979 H20 SXM TF16(Parcimonie)FLOPS = 296**Selon le modèle de comparaison des performances LLM de Peta, le H20 a un pic de jeton/s à une taille de lot modérée, qui est 20 % plus élevée que H100, et la latence de jeton à jeton à une faible taille de lot est inférieure de 25 % à celle de H100. Cela est dû à la réduction du nombre de puces requises pour l’inférence de 2 à 1, et si la quantification 8 bits est à nouveau utilisée, le modèle LLAMA 70B peut fonctionner efficacement sur un seul H20 au lieu de nécessiter 2 H100. **Il convient de mentionner que, bien que la puissance de calcul du H20 ne soit que de 296 TFLOP, bien inférieure à celle de 1979 du H100, si le taux d’utilisation réel du MFU H20 (le MFU actuel du H100 n’est que de 38,1 %), ce qui signifie que le H20 peut réellement exécuter 270 TFLOPS, alors les performances du H20 dans l’environnement d’interconnexion multi-cartes actuel sont proches de 50 % de celles du H100.D’un point de vue informatique traditionnel, le H20 est une dégradation par rapport au H100, mais en termes d’inférence LLM, le H20 sera en fait plus de 20% plus rapide que le H100, au motif que le H20 est similaire à certains égards au H200 qui sortira l’année prochaine. Notez que le H200 est le successeur du H100, une superpuce pour les charges de travail complexes d’IA et de HPC.  # **02**   **La configuration L20 et L2 est plus rationalisée** Pendant ce temps, le L20 est livré avec 48 Go de mémoire et 239 TFLOP de performances de calcul, tandis que la configuration L2 est livrée avec 24 Go de mémoire et 193 TFLOPS de performances de calcul.**L20 est basé sur L40 et L2 est basé sur L4, mais ces deux puces ne sont pas couramment utilisées dans l’inférence et l’entraînement LLM. **Le L20 et le L2 sont tous deux disponibles dans un facteur de forme PCIe, avec des facteurs de forme PCIe pour les stations de travail et les serveurs, et sont plus rationalisés que les modèles à facteur de forme supérieur comme les Hopper H800 et A800.L40 TF16 (parcimonie) FLOPs = 362 L20 TF16 (parcimonie) FLOPs = 239 L4 TF16 (parcimonie) FLOPs = 242 L2 TF16 (parcimonie) FLOPs = 193