💙 Gate廣場 #Gate品牌蓝创作挑战# 💙
用Gate品牌藍,描繪你的無限可能!
📅 活動時間
2025年8月11日 — 8月20日
🎯 活動玩法
1. 在 Gate廣場 發布原創內容(圖片 / 視頻 / 手繪 / 數字創作等),需包含 Gate品牌藍 或 Gate Logo 元素。
2. 帖子標題或正文必須包含標籤: #Gate品牌蓝创作挑战# 。
3. 內容中需附上一句對Gate的祝福或寄語(例如:“祝Gate交易所越辦越好,藍色永恆!”)。
4. 內容需爲原創且符合社區規範,禁止抄襲或搬運。
🎁 獎勵設置
一等獎(1名):Gate × Redbull 聯名賽車拼裝套裝
二等獎(3名):Gate品牌衛衣
三等獎(5名):Gate品牌足球
備注:若無法郵寄,將統一替換爲合約體驗券:一等獎 $200、二等獎 $100、三等獎 $50。
🏆 評選規則
官方將綜合以下維度評分:
創意表現(40%):主題契合度、創意獨特性
內容質量(30%):畫面精美度、敘述完整性
社區互動度(30%):點讚、評論及轉發等數據
和H100相比,英偉達的H20、L20 和 L2 晶片性能如何?
原文來源:硬 AI
這兩天,英偉達「鑽空子」突破美國AI限制,推出中國市場「特供型號」,準備繼續向中國公司出售高性能GPU的傳聞鬧得沸沸揚揚。
據媒體最新報導,英偉達即將推出至少三款新的AI晶元,包括 H20 SXM、PCIe L20 和 PCIe L2,以替代此前被美國限制出口的H100。 這三款晶元均基於Hopper GPU 架構,最高理論性能可達296TFLOP(每秒浮點運算次數,也叫每秒峰值速度)。
那麼,和H100相比,英偉達H20、L20、L2三款「特供型號」晶元的性能如何呢?
**理論上,H100比H20的速度快了6.68倍。 據分析師Dylan Petal最新發佈的一篇博文,即使H20的實際利用率能達到90%,其在實際多卡互聯環境中的性能仍只能接近H100的50%。 **
**也有媒體稱,H20的綜合算力僅相當於H100的20%,而且由於增加了HBM顯存和NVLink互聯模組,算力成本會顯著提高。 **
**不過,H20 的優點也很明顯,在大語言模型(LLM)推理方面比H100快了20%以上。 理由是H20在某些方面與明年要發佈的下一代超級AI晶元H200相似。 **
英偉達已經做出這三款晶元的樣品,H20 和 L20預計將於今年 12 月推出,而 L2 將於明年 1 月推出。 產品採樣將於發佈前一個月開始。
01
「H20 與 H100」
先來看H100,擁有80GB HBM3記憶體,記憶體頻寬為3.4Tb/s,理論性能為1979 TFLOP,性能密度(TFLOPs/Die size )高達19.4,是英偉達當前產品線中最強大的GPU。
H20,擁有96GB HBM3記憶體,記憶體頻寬高達4.0 Tb/s,均高於H100,但計算能力僅為296 TFLOP,性能密度為2.9,遠不如H100。
另外,該GPU的熱設計功耗為400W,低於H100的700W,並且在HGX解決方案(英偉達的GPU伺服器方案)中可以進行8路GPU的配置,它還保留了900 GB/s的NVLink高速互聯功能,同時還提供了7路MIG(Multi-Instance GPU,多實例GPU)的功能。
H100 SXM TF16(稀疏度)FLOPS = 1979
H20 SXM TF16(稀疏度)FLOPS = 296
**根據Peta的LLM性能對比模型表明,H20在moderate batch size下峰值token/秒,比H100高出20%,在low batch size下的token to token延遲比H100還要低25%。 這是由於將推理所需的晶元數量從2個減少到1個,如果再使用8位量化,LLAMA 70B模型可以在單個H20上有效運行,而不是需要2個H100。 **
值得一提的是,H20的計算能力雖然只有296個TFLOP,遠不及H100的1979個,但如果H20的實際利用率MFU(目前H100的MFU僅為38.1%),這意味著H20實際能跑出270 TFLOPS,那麼H20在實際多卡互聯環境中的性能接近H100的50%。
從傳統計算的角度來看,H20相比H100有所降級,但在LLM推理這一方面,H20實際上會比H100快了20%以上,理由是H20在某些方面與明年要發佈的H200相似。 注意,H200是H100的後繼產品,複雜AI和HPC工作負載的超級晶片。
02
「L20和L2配置更精簡」
與此同時,L20配備48 GB 記憶體和計算性能為239個TFLOP,而 L2 配置為 24 GB 記憶體和計算性能193個TFLOP。
**L20基於L40,L2基於L4,但這兩款晶元在LLM推理和訓練中並不常用。 **
L20和L2均採用PCIe外形規格,採用了適合工作站和伺服器的PCIe規格,相比Hopper H800和A800這些規格更高的型號,配置也更加精簡。
L40 TF16(稀疏性)FLOPs = 362
L20 TF16(稀疏性)FLOP = 239
L4 TF16(稀疏性)FLOP = 242
L2 TF16(稀疏度)FLOP = 193