大幅降低GPU算力閑置率,Enfabrica獲NVIDIA參投的1.25億美元融資

原文來源:阿爾法公社

圖片來源:由無界 AI生成

算力不足是目前整個AI行業都在面對的問題,就在上周OpenAI的Devday后,由於一系列新功能吸引了大量用戶試用,ChatGPT和GPT的API出現了大範圍長時間的宕機,而Sam Altman也宣佈暫停Plus新會員的註冊。

目前在AI算力領域,NVIDIA的GPU佔據近乎壟斷的地位,無論是A100,H100還是剛剛發佈的H200,都是AI算力晶元的標杆,但是它的GPU面臨一個問題:布署於數據中心的顯卡算力集群,會因為連接網路無法足夠快速地提供數據,在部分時間無法滿負載運行,從而造成算力的浪費,進而推高總擁有成本(TCO)。

而一家叫Enfabrica的初創公司,利用專為人工智慧數據中心開發的網路晶元,可以使GPU性能節點的算力利用率提升50%,降低AI推理和訓練的算力成本。

近日,Enfabrica完成了由Atreides Management領投,NVIDIA作為戰略投資人參投的1.25億美元B輪融資,其他參與本輪融資的投資者包括IAG Capital Partners、Liberty Global Ventures、Valor Equity Partners、Infinitum Partners和Alumni Ventures,它的早期投資者Sutter Hill Ventures也繼續加磅。

這一輪融資使公司估值較前一輪增長了5倍以上,使其累計融資達到1.48億美元。 Atreides Management的創始人Gavin Baker加入董事會,以協助公司的發展和戰略方向。

瞄準AI算力領域的重大挑戰,兩位晶元領域資深人士聯手創業

根據650集團(專注雲計算供應鏈的研究機構)最新市場研究,AI/ML計算需求的規模可能會在每24個月內增長8到275倍,在未來十年的時間里,基於AI/ML的伺服器將從市場的1%增長到近20%。

但是,因為AI計算的特點,數據和元數據在分散式計算元素之間的大量移動形成了瓶頸。 SemiAnalysis的分析師Dylan Patel指出:每一代晶元/封裝的浮點運算能力(FLOPs)的增長速度都超過數據輸入輸出速度。 而且這種不匹配正變得越來越嚴重。

Enfabrica由Rochan Sankar和Shrijeet Mukherjee聯手創建。 Rochan Sankar曾是晶元巨頭博通的工程總監,Shrijeet Mukherjee曾在谷歌負責網路平臺和架構,他們對於晶元和網路架構有深刻的理解和豐富的經驗。

在組織架構上,Sankar擔任首席執行官,Mukherjee擔任首席開發官,Enfabrica核心團隊包括來自思科、Meta和英特爾等公司AI,網路,晶元領域的資深工程師。

Enfabrica瞄準的是AI行業對“並行、加速和異構”基礎算力設施(也就是GPU)的增長需求。

Rochan Sankar表示:「當前AI革命帶來的最大挑戰是AI基礎設施的擴展—無論是計算成本還是計算的可持續性。

傳統的網路晶元,如交換機,在跟上現代AI工作負載的數據移動需求方面存在困難,這會對在訓練過程中需要大量數據集的AI訓練或AI微調等計算需求造成瓶頸。

AI計算領域迫切需要彌合不斷增長的AI工作負載需求與計算集群的總體成本、效率、可持續性和擴展便利性之間的差距。 ”

Enfabrica推出了加速計算結構交換機(ACF-S)設備和解決方案,這些解決方案與GPU、CPU和加速器相輔相成,能夠解決數據中心AI和高性能計算集群中的關鍵網路、I/O和記憶體擴展問題。 它能使數據中心GPU和加速計算集群的計算成本降低50%,記憶體擴展50倍,並且在相同的性能點上將大模型推理的計算成本降低約50%,實現了總擁有成本(TCO)的降低。

根據Dell'Oro Group的數據,AI基礎設施投資將使數據中心資本支出在2027年前超過5000億美元。 同時,根據IDC的預測,廣義上針對AI的硬體投資在未來五年內預計將有20.5%的複合年增長率。

預計到2027年,數據中心用的互聯半導體市場規模將從2022年的近125億美元翻倍至近250億美元。

加入Enfabrica董事會的Gavin Baker是Atreides Management的首席資訊官兼管理合夥人,它曾經投資了Nutanix、Jet.com、AppNexus、Dataminr、Cloudflare和SpaceX等公司,並且擔任部分公司的董事會成員。

在談到AI的算力基礎設施時,他談到了幾個重要的改進方面:“通過更快的存儲、更好的後端網络(尤其是Enfabrica),以及現在正在出現的線性可插拔/共封裝光學器件和改進的CPU/GPU集成(NVIDIA的GraceHopper、AMD的MI300和特斯拉的Dojo)來提高GPU利用率,這些結合在一起打破了”記憶體牆” ,將進一步提高訓練的投資回報率——既直接降低了訓練成本,也間接地通過以下方式增加了獲利率降低推理成本。

總結來說,在“每單位能量有用計算”具有優勢的架構將獲勝,我們正在快速朝著每單位能量更有用的計算邁進。 ”

説明NVIDIA GPU計算集群打破“記憶體牆”

在AI加速計算領域,「記憶體壁壘」是一個實際存在的問題,它指的是處理性能與提供這種性能所需的記憶體頻寬之間日益擴大的差距。

相對於傳統CPU計算,AI普遍使用的GPU計算在這個方面表現得更嚴重,因為GPU擁有更多的核心,更高的處理輸送量,以及對數據的巨大需求。

AI使用的數據必須首先被組織和存儲在記憶體中,然後才能由GPU處理。 為AI提供必要的記憶體頻寬和容量是一個當前急需解決的問題。

為了解決這個問題,已經有幾個關鍵技術可以利用:之前已經在CPU和分散式集群計算中使用的記憶體性能/容量分層和緩存架構;支援擴展AI系統的遠端直接記憶體訪問(RDMA)網路技術;以及業界廣泛認可和採用的Compute Express Link(CXL)介面標準。

Enfabrica的方案融合了CXL.mem解耦、性能/容量分層和RDMA網路等關鍵技術,實現了一個可擴展的、高頻寬、高容量、延遲有界的記憶體層次結構,為任何大規模AI計算集群提供服務。

它的第一款晶元叫做ACF (Accelerated Compute Fabric)轉換晶元,它能夠讓GPU算力池與數十TB的本地CXL.mem DRAM池直接連接,延遲極低。

具體來說,ACF進一步推動了記憶體分層構造,通過800GbE網路埠,實現對分佈在計算集群和數據中心其餘部分的PB級DRAM的高頻寬訪問。 進而為加速計算構建一個具有近記憶體、近遠記憶體、網路遠記憶體,並在每個記憶體層次上都有嚴格延遲限制的層次化數據存儲。 通過ACF的幫助,執行數據處理的NVIDIA GPU能夠從多個不同的地方提取數據,而不會遇到速度障礙。

Enfabrica的解決方案叫ACF-S,它由多個ACF晶片組成,具有8-Tbps人工智慧基礎設施網路節點,具有800G乙太網、PCIe第5代和CXL 2.0+介面,與NVIDIA DGX-H100系統和Meta Grand Teton搭載八個NVIDIA H100 GPU的系統相比,它可以將I/O功耗降低高達50%(每機架節省2千瓦)。

“ACF-S是一種融合解決方案,它消除了對傳統的、各不相同的伺服器I/O和網路晶片的需求,如架級網路交換機、伺服器網路介面控制器和PCIe交換機的需求。 “Rochan Sankar解釋道。

ACF-S設備能夠讓處理AI推理任務的公司使用盡可能少的GPU、CPU和其他AI加速器。 這是因為ACF-S能夠通過快速移動大量數據,更有效地利用現有硬體。

而且,Enfabrica的解決方案不僅可以用於大規模AI推理,也適用於AI訓練,以及資料庫和網格計算等非AI用例。

Enfabrica計劃向系統構建者(雲廠商,數據中心運營商)銷售晶元和解決方案,而不是自己構建系統。 Sankar透露,Enfabrica與NVIDIA生態系統具有較深的契合度,但是他們也計劃與更多不同的AI算力公司合作。

他說:「ACF-S對用於AI計算的AI處理器的類型和品牌,以及部署的確切模型都持中立態度,這允許構建跨多個不同用例的AI基礎設施,並支援多個處理器供應商,無需專有技術鎖定。 ”

速度更快,能耗更低,新一代AI算力體系正在成型

H100剛剛出貨一年時間,NVIDIA就推出了H200,這顯示出它維護自己在AI算力領域領先地位的急迫。 因為過去一年的生成式AI大爆發,它的競爭對手們也都推出了強力的AI算力產品,無論是AMD的MI300系列晶元還是微軟推出的對標H100的Maia晶元。

AI算力是一個技術集中和資金集中的產業,面對巨頭們的“神仙打架”,AI算力創業公司們如何生存?Enfabrica和此前我們介紹過的d-Matrix給出了自己的答案。

d-Matrix的做法是專注在AI推理上,推出的AI推理專用晶元比NVIDIA的同類產品更快更省電。 Enfabrica卻沒有去直接「搶NVIDIA的飯碗」,而是作為AI算力體系的一個重要部分,説明NVIDIA的GPU(以及其他AI算力晶元)打破「記憶體牆」,減少算力閑置,整體上提高算力系統的利用率。

AI算力系統與所有算力系統一樣,有兩個重要的因素,速度和能耗。 儘管大型的AI計算(無論是訓練還是推理)都由算力集群來運行,但是更快的運算速度和更低的能耗仍然是行業整體的努力方向。

NVIDIA的GPU在更快的運算速度這個方向上優勢明顯,而Enfabrica這樣的公司則在往更低的能耗上努力。

正如Enfabrica的創始人Rochan Sankar所說:“要想讓AI計算真正普及,成本曲線必須下降。 關鍵在於GPU的算力是否得到更好,更高效的利用。 ”

顯然,NVIDIA對於Enfabrica的投資也是基於這個邏輯,隨著Enfabrica技術讓NVIDIA的GPU算力利用率進一步提高,它在行業中的領先優勢有望進一步穩固。

不過,面對這個顯而易見又迫切的需求,行業中並不止Enfabrica一家在做,行業巨頭思科也已經推出了Silicon One G200和G202系列AI網路硬體,博通也在這個領域耕耘。 Enfabrica想要進一步成長,仍然面臨著競爭。

如果說海外的AI行業已經面臨著暫時的算力不足問題,那麼中國的AI行業更要面對長期的AI算力不足問題,隨著NIVDIA的GPU被進一步的限制,行業對本土的AI算力產品產生了強烈的需求。 目前已經有華為,阿裡,百度,摩爾線程,寒武紀等公司在AI算力領域發展,希望他們,以及更多的公司,能夠説明建立起中國自己的AI算力體系。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)