Bagaimana chip H20, L20 dan L2 NVIDIA dibandingkan dengan H100?

Sumber asli: Hard AI

Sumber gambar: Dihasilkan oleh Unbounded AI

Dalam dua hari terakhir, Nvidia telah "mengeksploitasi celah" untuk menerobos pembatasan AI di Amerika Serikat, meluncurkan "model khusus" untuk pasar Cina, dan siap untuk terus menjual GPU berkinerja tinggi ke perusahaan Cina.

Menurut laporan media terbaru, Nvidia akan meluncurkan setidaknya tiga chip AI baru, termasuk H20 SXM, PCIe L20 dan PCIe L2, untuk menggantikan H100, yang sebelumnya dibatasi ekspornya oleh Amerika Serikat. Ketiga chip didasarkan pada arsitektur GPU Hopper, dengan kinerja teoritis maksimum 296 TFLOPs (operasi floating point per detik, juga dikenal sebagai kecepatan puncak per detik).

Jadi, dibandingkan dengan H100, bagaimana kinerja chip "model khusus" Nvidia H20, L20, dan L2?

Secara teoritis, H100 adalah 6,68 kali lebih cepat dari H20. Menurut posting blog baru-baru ini oleh analis Dylan Petal, bahkan jika tingkat pemanfaatan aktual H20 dapat mencapai 90%, kinerjanya di lingkungan interkoneksi multi-kartu yang sebenarnya masih hanya akan mendekati 50% dari H100. **

**Beberapa media juga mengatakan bahwa daya komputasi komprehensif H20 hanya setara dengan 20% dari H100, dan karena penambahan memori video HBM dan modul interkoneksi NVLink, biaya daya komputasi akan meningkat secara signifikan. **

Namun, keuntungan H20 juga jelas, dengan lebih dari 20% lebih cepat daripada H100 dalam inferensi model bahasa besar (LLM). Alasannya adalah bahwa H20 mirip dalam beberapa hal dengan H200, generasi berikutnya dari chip AI super yang akan dirilis tahun depan. **

Nvidia telah membuat sampel dari ketiga chip, dengan H20 dan L20 diharapkan akan diluncurkan pada bulan Desember tahun ini, sedangkan L2 akan diluncurkan pada bulan Januari tahun depan. Pengambilan sampel produk akan dimulai satu bulan sebelum peluncuran.

01

「H20 vs. H100」

Mari kita mulai dengan H100, yang memiliki memori HBM3 80GB, bandwidth memori 3.4Tb / s, kinerja teoritis TFLOPs 1979, dan kepadatan kinerja (TFLOPs / Die size) hingga 19.4, yang merupakan GPU paling kuat di lini produk NVIDIA saat ini.

H20 memiliki memori HBM3 96GB dan bandwidth memori hingga 4,0 Tb / s, keduanya lebih tinggi dari H100, tetapi daya komputasi hanya 296 TFLOPs dan kepadatan kinerja adalah 2,9, yang jauh lebih rendah daripada H100.

Secara teoritis, H100 adalah 6,68 kali lebih cepat dari H20. Namun, penting untuk dicatat bahwa perbandingan ini didasarkan pada daya komputasi floating-point FP16 Tensor Cores (FP16 Tensor Core FLOPs) dan memungkinkan komputasi yang jarang (yang sangat mengurangi jumlah komputasi dan karenanya secara signifikan meningkatkan kecepatan), sehingga tidak sepenuhnya mencerminkan semua daya komputasinya.

Selain itu, GPU memiliki kekuatan desain termal 400W, yang lebih rendah dari 700W H100, dan dapat dikonfigurasi dengan 8 GPU dalam solusi HGX (solusi server GPU NVIDIA), dan juga mempertahankan fungsi interkoneksi berkecepatan tinggi NVLink 900 GB / s, sementara juga menyediakan 7 MIG (GPU Multi-Instance).

H100 SXM TF16(Sparsitas)FLOPS = 1979

H20 SXM TF16(Sparsitas)FLOPS = 296

**Menurut model perbandingan kinerja LLM Peta, H20 memiliki token/detik puncak pada ukuran batch sedang, yang 20% lebih tinggi dari H100, dan latensi token-to-token pada ukuran batch rendah adalah 25% lebih rendah dari H100. Hal ini disebabkan untuk mengurangi jumlah chip yang diperlukan untuk inferensi dari 2 menjadi 1, dan jika kuantisasi 8-bit digunakan lagi, model LLAMA 70B dapat berjalan secara efisien pada H20 tunggal daripada membutuhkan 2 H100. **

Perlu disebutkan bahwa meskipun daya komputasi H20 hanya 296 TFLOPs, jauh lebih kecil dari 1979 dari H100, jika tingkat pemanfaatan aktual H20 MFU (MFU H100 saat ini hanya 38,1%), yang berarti bahwa H20 sebenarnya dapat menjalankan 270 TFLOPS, maka kinerja H20 di lingkungan interkoneksi multi-kartu aktual mendekati 50% dari H100.

Dari perspektif komputasi tradisional, H20 adalah degradasi dibandingkan dengan H100, tetapi dalam hal inferensi LLM, H20 sebenarnya akan lebih dari 20% lebih cepat daripada H100, dengan alasan bahwa H20 mirip dalam beberapa hal dengan H200 yang akan dirilis tahun depan. Perhatikan bahwa H200 adalah penerus H100, superchip untuk beban kerja AI dan HPC yang kompleks.

02

Konfigurasi L20 dan L2 lebih ramping

Sementara itu, L20 hadir dengan memori 48 GB dan kinerja komputasi 239 TFLOPs, sedangkan konfigurasi L2 hadir dengan memori 24 GB dan kinerja komputasi 193 TFLOPS.

**L20 didasarkan pada L40 dan L2 didasarkan pada L4, tetapi kedua chip ini tidak umum digunakan dalam inferensi dan pelatihan LLM. **

Baik L20 dan L2 hadir dalam faktor bentuk PCIe, dengan faktor bentuk PCIe untuk workstation dan server, dan lebih ramping daripada model faktor bentuk yang lebih tinggi seperti Hopper H800 dan A800.

L40 TF16 (Sparsitas) FLOPs = 362

L20 TF16 (Sparsitas) FLOPs = 239

L4 TF16 (Sparsitas) FLOPs = 242

L2 TF16 (Sparsitas) FLOPs = 193

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)