Como os chips H20, L20 e L2 da NVIDIA se comparam ao H100?

Fonte original: Hard AI

Fonte da imagem: Gerado por Unbounded AI

Nos últimos dois dias, a Nvidia "explorou lacunas" para romper as restrições da IA nos Estados Unidos, lançou "modelos especiais" para o mercado chinês e está pronta para continuar a vender GPUs de alto desempenho para empresas chinesas.

De acordo com os últimos relatos da mídia, a Nvidia está prestes a lançar pelo menos três novos chips de IA, incluindo H20 SXM, PCIe L20 e PCIe L2, para substituir o H100, que anteriormente era restrito de exportação pelos Estados Unidos. Todos os três chips são baseados na arquitetura GPU Hopper, com um desempenho teórico máximo de 296 TFLOPs (operações de ponto flutuante por segundo, também conhecidas como velocidade de pico por segundo).

Então, em comparação com o H100, qual é o desempenho dos chips de "modelo especial" H20, L20 e L2 da Nvidia?

**Teoricamente, o H100 é 6,68 vezes mais rápido que o H20. De acordo com uma postagem recente no blog do analista Dylan Petal, mesmo que a taxa de utilização real do H20 possa chegar a 90%, seu desempenho no ambiente real de interconexão de várias placas ainda será apenas perto de 50% do do H100. **

**Alguns meios de comunicação também disseram que o poder de computação abrangente do H20 é apenas equivalente a 20% do do H100, e devido à adição de memória de vídeo HBM e módulo de interconexão NVLink, o custo do poder de computação aumentará significativamente. **

No entanto, as vantagens do H20 também são claras, com mais de 20% mais rápido do que o H100 na inferência de modelos de linguagem grande (LLM). A razão é que o H20 é semelhante em alguns aspetos ao H200, a próxima geração de chips de super IA a ser lançada no próximo ano. **

A Nvidia já fez amostras dos três chips, com o H20 e L20 previstos para serem lançados em dezembro deste ano, enquanto o L2 será lançado em janeiro do próximo ano. A amostragem do produto começará um mês antes do lançamento.

01

「H20 vs. H100」

Vamos começar com o H100, que tem 80GB de memória HBM3, uma largura de banda de memória de 3,4 Tb / s, um desempenho teórico de 1979 TFLOPs e uma densidade de desempenho (TFLOPs / tamanho de matriz) de até 19,4, que é a GPU mais poderosa da linha de produtos atual da NVIDIA.

O H20 tem 96GB de memória HBM3 e uma largura de banda de memória de até 4,0 Tb/s, ambos superiores ao H100, mas o poder de computação é de apenas 296 TFLOPs e a densidade de desempenho é de 2,9, o que é muito inferior ao H100.

Teoricamente, o H100 é 6,68 vezes mais rápido que o H20. No entanto, é importante notar que esta comparação é baseada no poder de computação de ponto flutuante do FP16 Tensor Cores (FP16 Tensor Core FLOPs) e permite computação esparsa (o que reduz muito a quantidade de computação e, portanto, aumenta significativamente a velocidade), portanto, não reflete totalmente todo o seu poder de computação.

Além disso, a GPU tem um poder de design térmico de 400W, que é inferior aos 700W do H100, e pode ser configurada com 8 GPUs na solução HGX (solução de servidor GPU da NVIDIA), e também mantém a função de interconexão de alta velocidade NVLink de 900 GB/s, além de fornecer 7 MIG (GPUs Multi-Instance).

H100 SXM TF16(Esparidade)FLOPS = 1979

H20 SXM TF16(Esparidade)FLOPS = 296

**De acordo com o modelo de comparação de desempenho LLM da Peta, o H20 tem um pico de token/seg no tamanho de lote moderado, que é 20% maior do que o H100, e a latência token-to-token no tamanho de lote baixo é 25% menor do que a do H100. Isso se deve à redução do número de chips necessários para inferência de 2 para 1, e se a quantização de 8 bits for usada novamente, o modelo LLAMA 70B pode ser executado de forma eficiente em um único H20 em vez de exigir 2 H100s. **

Vale a pena mencionar que, embora o poder de computação do H20 seja de apenas 296 TFLOPs, muito menos do que o de 1979 do H100, se a taxa de utilização real do H20 MFU (o MFU atual do H100 é de apenas 38,1%), o que significa que o H20 pode realmente executar 270 TFLOPS, então o desempenho do H20 no ambiente real de interconexão de várias placas é próximo de 50% do do H100.

De uma perspetiva de computação tradicional, o H20 é uma degradação em comparação com o H100, mas em termos de inferência LLM, o H20 será realmente mais de 20% mais rápido do que o H100, com o argumento de que o H20 é semelhante em alguns aspetos ao H200 que será lançado no próximo ano. Note que o H200 é o sucessor do H100, um superchip para cargas de trabalho complexas de IA e HPC.

02

A configuração L20 e L2 é mais simplificada

Enquanto isso, o L20 vem com 48 GB de memória e 239 TFLOPs de desempenho de computação, enquanto a configuração L2 vem com 24 GB de memória e 193 TFLOPS de desempenho de computação.

**L20 é baseado em L40 e L2 é baseado em L4, mas esses dois chips não são comumente usados em inferência e treinamento LLM. **

Tanto o L20 quanto o L2 vêm em um fator de forma PCIe, com fatores de forma PCIe para estações de trabalho e servidores, e são mais simplificados do que modelos de formato mais alto, como o Hopper H800 e A800.

L40 TF16 (Esparidade) FLOPs = 362

L20 TF16 (Esparidade) FLOPs = 239

L4 TF16 (Esparidade) FLOPs = 242

L2 TF16 (Esparidade) FLOPs = 193

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)