NVIDIA'nın H20, L20 ve L2 yongaları H100 ile nasıl karşılaştırılır?

Orijinal kaynak: Hard AI

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

Geçtiğimiz iki gün içinde Nvidia, Amerika Birleşik Devletleri'ndeki yapay zeka kısıtlamalarını aşmak için "boşluklardan yararlandı", Çin pazarı için "özel modeller" başlattı ve Çinli şirketlere yüksek performanslı GPU'lar satmaya devam etmeye hazır.

En son basında çıkan haberlere göre Nvidia, daha önce Amerika Birleşik Devletleri tarafından ihracatı kısıtlanan H100'ün yerini almak için H20 SXM, PCIe L20 ve PCIe L2 dahil olmak üzere en az üç yeni AI yongasını piyasaya sürmek üzere. Her üç yonga da maksimum teorik performans 296 TFLOP (saniyede kayan nokta işlemleri, saniyede en yüksek hız olarak da bilinir) ile Hopper GPU mimarisine dayanmaktadır.

Peki, H100 ile karşılaştırıldığında, Nvidia'nın H20, L20 ve L2 "özel model" yongalarının performansı nedir?

**Teorik olarak H100, H20'den 6,68 kat daha hızlıdır. Analist Dylan Petal'ın yakın tarihli bir blog gönderisine göre, H20'nin gerçek kullanım oranı %90'a ulaşabilse bile, gerçek çoklu kart ara bağlantı ortamındaki performansı yine de H100'ünkinin yalnızca %50'sine yakın olacaktır. **

** Bazı medya ayrıca H20'nin kapsamlı bilgi işlem gücünün H100'ünkinin yalnızca %20'sine eşdeğer olduğunu ve HBM video belleği ve NVLink ara bağlantı modülünün eklenmesi nedeniyle bilgi işlem gücünün maliyetinin önemli ölçüde artacağını söyledi. **

Bununla birlikte, büyük dil modeli (LLM) çıkarımında H100'den %20'den fazla daha hızlı olan H20'nin avantajları da açıktır. Bunun nedeni, H20'nin gelecek yıl piyasaya sürülecek yeni nesil süper AI çipleri olan H200'e bazı yönlerden benzemesidir. **

Nvidia, H20 ve L20'nin bu yıl Aralık ayında piyasaya sürülmesi beklenirken, L2'nin gelecek yıl Ocak ayında piyasaya sürülmesi bekleniyor. Ürün örneklemesi, lansmandan bir ay önce başlayacaktır.

01

「H20'ye Karşı H100」

80 GB HBM3 belleğe, 3,4 Tb/sn bellek bant genişliğine, 1979 TFLOP teorik performansa ve 19,4'e kadar performans yoğunluğuna (TFLOPs/Die boyutu) sahip olan ve NVIDIA'nın mevcut ürün serisindeki en güçlü GPU olan H100 ile başlayalım.

H20, her ikisi de H100'den daha yüksek olan 96 GB HBM3 belleğe ve 4.0 Tb/sn'ye kadar bellek bant genişliğine sahiptir, ancak bilgi işlem gücü yalnızca 296 TFLOP'tur ve performans yoğunluğu 2.9'dur, bu da H100'den çok daha düşüktür.

Teorik olarak H100, H20'den 6,68 kat daha hızlıdır. Bununla birlikte, bu karşılaştırmanın FP16 Tensor Cores'un kayan nokta bilgi işlem gücüne (FP16 Tensor Core FLOP'lar) dayandığını ve seyrek hesaplamaya olanak tanıdığını (hesaplama miktarını büyük ölçüde azaltır ve bu nedenle hızı önemli ölçüde artırır), bu nedenle tüm bilgi işlem gücünü tam olarak yansıtmaz.

Ek olarak, GPU, H100'ün 700W'ından daha düşük olan 400W'lık bir termal tasarım gücüne sahiptir ve HGX çözümünde (NVIDIA'nın GPU sunucu çözümü) 8 GPU ile yapılandırılabilir ve ayrıca 900 GB/sn NVLink yüksek hızlı ara bağlantı işlevini korurken aynı zamanda 7 MIG (Multi-Instance GPU'lar) sağlar.

H100 SXM TF16(Seyreklik)FLOP = 1979

H20 SXM TF16(Seyreklik)FLOP = 296

**Peta'nın LLM performans karşılaştırma modeline göre, H20, H100'den %20 daha yüksek olan orta parti boyutunda en yüksek token/sn'ye sahiptir ve düşük parti boyutunda token-token gecikmesi H100'ünkinden %25 daha düşüktür. Bunun nedeni, çıkarım için gereken yonga sayısının 2'den 1'e düşürülmesidir ve 8 bitlik niceleme tekrar kullanılırsa, LLAMA 70B modeli 2 H100 gerektirmek yerine tek bir H20 üzerinde verimli bir şekilde çalışabilir. **

H20'nin bilgi işlem gücü sadece 296 TFLOP olmasına rağmen, H100'ün 1979'undan çok daha az, H20 MFU'nun gerçek kullanım oranı (H100'ün mevcut MFU'su sadece% 38.1'dir), bu da H20'nin aslında 270 TFLOPS çalıştırabileceği anlamına gelir, o zaman H20'nin gerçek çoklu kart ara bağlantı ortamındaki performansı H100'ünkinin %50'sine yakındır.

Geleneksel bir bilgi işlem perspektifinden bakıldığında, H20, H100'e kıyasla bir bozulmadır, ancak LLM çıkarımı açısından, H20, H20'nin bazı yönlerden H20'e benzer olduğu gerekçesiyle H100'den% 20'den daha hızlı olacaktır. H200'ün, karmaşık yapay zeka ve HPC iş yükleri için bir süper çip olan H100'ün halefi olduğunu unutmayın.

02

L20 ve L2 yapılandırması daha akıcıdır

Bu arada, L20 48 GB bellek ve 239 TFLOP işlem performansı ile birlikte gelirken, L2 yapılandırması 24 GB bellek ve 193 TFLOPS işlem performansı ile birlikte gelir.

** L20, L40'a ve L2, L4'e dayanmaktadır, ancak bu iki çip, LLM çıkarımı ve eğitiminde yaygın olarak kullanılmamaktadır. **

Hem L20 hem de L2, iş istasyonları ve sunucular için PCIe form faktörlerine sahip bir PCIe form faktöründe gelir ve Hopper H800 ve A800 gibi daha yüksek form faktörüne sahip modellerden daha akıcıdır.

L40 TF16 (Seyreklik) FLOP'ları = 362

L20 TF16 (Seyreklik) FLOP = 239

L4 TF16 (Seyreklik) FLOP = 242

L2 TF16 (Seyreklik) FLOP'ları = 193

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)