GPU コンピューティング パワーのアイドル率を劇的に低下させた Enfabrica は、NVIDIA から 1 億 2,500 万ドルの資金調達ラウンドを受けました

出典:アルファ・コミューン

画像ソース: Unbounded AIによって生成

コンピューティング能力の不足は現在、AI業界全体が直面している問題であり、先週、OpenAIのDevdayの後、多数のユーザーが試してみた一連の新機能により、ChatGPTとGPTのAPIは広範囲にわたる長期のダウンタイムを経験し、サム・アルトマンも新しいPlusメンバーの登録の停止を発表しました。

現在、AIコンピューティングパワーの分野では、A100、H100、リリースされたばかりのH200のいずれであっても、NVIDIAのGPUがほぼ独占的な地位を占めており、AIコンピューティングチップのベンチマークとなっていますが、そのGPUは問題に直面しています:データセンターに展開されたグラフィックスカードコンピューティングパワークラスターは、接続ネットワークがデータを迅速に提供できず、一部の時間で全負荷で実行できないため、コンピューティングパワーの浪費が発生し、総所有コスト(TCO)を押し上げます。

Enfabricaというスタートアップは、AIデータセンター専用に開発されたネットワークチップを使用して、GPUパフォーマンスノードのコンピューティングパワー使用率を50%向上させ、AI推論とトレーニングのコンピューティングパワーコストを削減しています。

Enfabricaは、Atreides Managementが主導し、NVIDIAを戦略的投資家とし、IAG Capital Partners、Liberty Global Ventures、Valor Equity Partners、Infinitum Partners、Alumni%が参加した1億2,500万ドルのシリーズB資金調達ラウンドを完了しました 初期の投資家であるSutter Hill Venturesも、引き続きウェイトを増やしている。

今回の資金調達により、同社の評価額は前回の5倍以上に上昇し、累計資金調達額は1億4,800万ドルに達しました。 Atreides Managementの創設者であるGavin Bakerが取締役会に加わり、会社の成長と戦略的方向性を支援します。

AIコンピューティングパワーの分野における大きな課題を目指し、チップ分野の2人のベテランが力を合わせて起業する

クラウドコンピューティングのサプライチェーンに焦点を当てた研究機関である650 Groupの最新の市場調査によると、AI/MLコンピューティングの需要規模は24か月ごとに8倍から275倍に増加する可能性があり、AI/MLベースのサーバーは今後10年間で市場の1%から20%近くに成長すると予想されています。

しかし、AIコンピューティングの特性上、分散コンピューティング要素間でのデータやメタデータの大規模な移動がボトルネックとなっていました。 SemiAnalysisのアナリストであるDylan Patel氏は、各世代のチップ/パッケージの浮動小数点演算能力(FLOPS)は、データの入出力速度よりも速く成長していると指摘しています。 そして、このミスマッチは悪化しています。

Enfabrica は、Rochan Sankar と Shrijeet Mukherjee によって作成されました。 Rochan Sankar 氏はチップ大手の Broadcom の元エンジニアリング ディレクターであり、Shrijeet Mukherjee 氏は Google でネットワーク プラットフォームとアーキテクチャを担当しており、チップとネットワーク アーキテクチャについて深い理解と経験を持っています。

組織構造としては、Sankar氏がCEOを務め、Mukherjee氏が最高開発責任者を務め、Enfabricaのコアチームには、Cisco、Meta、Intelなど、AI、ネットワーキング、チップ分野のシニアエンジニアが名を連ねています。

Enfabricaは、AI業界における「並列、高速化、ヘテロジニアス」コンピューティングインフラストラクチャ(GPUなど)に対する需要の高まりをターゲットとしています。

「現在のAI革命がもたらす最大の課題は、AIインフラの拡大です。これは、計算コストと計算の持続可能性の両面からです。

スイッチなどの従来のネットワークチップは、最新のAIワークロードのデータ移動要求に追いつくのが難しく、トレーニングプロセス中に大規模なデータセットを必要とするAIトレーニングやAIの微調整などの計算要求のボトルネックになる可能性があります。

AIコンピューティング分野では、AIワークロードの需要の高まりと、コンピューティングクラスタの全体的なコスト、効率、持続可能性、スケーリングの容易さとの間のギャップを埋めることが急務となっています。 "

Enfabricaは、GPU、CPU、アクセラレータを補完するアクセラレーテッド・コンピュート・ファブリック・スイッチ(ACF-S)デバイスとソリューションを導入し、データセンターのAIおよびハイパフォーマンス・コンピューティング・クラスターにおける重要なネットワーキング、I/O、メモリ・スケーリングの問題に対処します。 データセンターのGPUとアクセラレーテッドコンピューティングクラスタのコンピューティングコストを50%削減し、メモリを50倍に拡張し、大規模モデル推論のコンピューティングコストを同じパフォーマンスポイントで約50%削減し、総所有コスト(TCO)の削減を実現します。

Dell'Oro Groupによると、AIインフラストラクチャへの投資により、データセンターの設備投資は2027年までに5,000億ドルを超えるとされています。 同時に、IDCの予測によると、広義のAIへのハードウェア投資は、今後5年間で20.5%のCAGRで成長すると予想されています。

データセンター向けのコネクテッド半導体の市場は、2022年の約125億ドルから2027年には約250億ドルに倍増すると予想されています。

Enfabricaの取締役会に加わるGavin Bakerは、Atreides ManagementのCIO兼マネージングパートナーであり、Nutanix、Jet.com、AppNexus、Dataminr、Cloudflare、SpaceXなどの企業に投資し、取締役を務めてきました。

AIのコンピューティングインフラに関しては、いくつかの重要な改善点について語っています:「より高速なストレージ、より優れたバックエンドネットワーク(特にEnfabrica)、そして現在出現しているリニアプラガブル/コパッケージ光学系と改善されたCPU/GPU統合(NVIDIAのGraceHopper、AMDのMI300、TeslaのDojo)の組み合わせは、メモリの壁を打ち破りました これにより、トレーニングのROIがさらに向上し、トレーニングのコストが直接的に削減され、利益率が間接的に増加し、推論のコストが削減されます。

要するに、「エネルギー単位当たりの有用な計算」に有利なアーキテクチャが勝利し、より有用なエネルギー当たりの計算へと急速に移行しています。 "

NVIDIA GPU コンピューティング クラスターが「メモリの壁」を打ち破るのを支援

AIアクセラレーテッドコンピューティングの分野では、処理性能と、その性能を実現するために必要なメモリ帯域幅のギャップが広がることを指す「メモリバリア」が現実的な問題となっています。

従来のCPUコンピューティングと比較して、GPUはより多くのコア、より高い処理スループット、およびデータに対する膨大な需要を備えているため、AIで一般的に使用されているGPUコンピューティングは、この点でより深刻です。

AIが使用するデータは、GPUで処理する前に、まず整理してメモリに保存する必要があります。 AIに必要なメモリ、帯域幅、容量を提供することは喫緊の課題です。

この問題に対処するために、CPU や分散クラスタ コンピューティングでこれまで使用されていたメモリ パフォーマンス/容量階層化およびキャッシュ アーキテクチャ、拡張 AI システムを可能にするリモート ダイレクト メモリ アクセス (RDMA) ネットワーク テクノロジ、業界で広く認知され採用されている Compute Express Link (CXL) インターフェイス標準など、いくつかの主要なテクノロジをすでに活用できます。

Enfabricaのソリューションには、CXL.memデカップリング、パフォーマンス/容量階層化、RDMAネットワークなどの主要テクノロジーが組み込まれており、スケーラブルで高帯域幅、大容量、レイテンシ制限のあるメモリ階層を実現し、大規模なAIコンピューティングクラスターに対応します。

ACF(Accelerated Compute Fabric)コンバーターと呼ばれる最初のチップにより、GPUコンピューティングパワープールを数十テラバイトのローカルCXL.mem DRAMプールに超低レイテンシーで直接接続できます。

具体的には、ACFはメモリ階層化をさらに推し進め、800GbEネットワークポートを介して、コンピューティングクラスタとデータセンターの残りの部分に分散されたペタバイトのDRAMへの高帯域幅アクセスを可能にします。 次に、高速コンピューティングのために、ニア メモリ、ニア メモリとファー メモリ、およびネットワーク ファー メモリを備えた階層型データ ストアが構築され、各メモリ レベルには厳密な待機時間制限があります。 ACFの助けを借りて、データ処理を実行するNVIDIA GPUは、速度の障壁を経験することなく、複数の異なる場所からデータを引き出すことができます。

ACF-Sと呼ばれるEnfabricaのソリューションは、800Gイーサネット、PCIe Gen 5、CXL 2.0+インターフェースを備えた8TbpsのAIインフラストラクチャネットワークノードを備えた複数のACFチップで構成されており、8つのNVIDIA H100 GPUを搭載したNVIDIA DGX-H100システムおよびMeta Grand Tetonシステムと比較して、I/O消費電力を最大50%削減(ラックあたり2キロワットを節約)できます。

「ACF-Sは、ラックレベルのネットワークスイッチ、サーバーネットワークインターフェースコントローラ、PCIeスイッチなど、従来の異種サーバーI/Oやネットワークチップの必要性を排除するコンバージドソリューションです。 ロカン・シャンカルは説明した。

ACF-S デバイスを使用すると、AI 推論タスクを扱う企業は、使用する GPU、CPU、その他の AI アクセラレータをできるだけ少なくすることができます。 これは、ACF-Sが大量のデータを高速に移動することで、既存のハードウェアをより効率的に使用できるためです。

さらに、Enfabricaのソリューションは、大規模なAI推論だけでなく、AIトレーニングや、データベースやグリッドコンピューティングなどのAI以外のユースケースにも使用できます。

Enfabricaは、システム自体を構築するのではなく、システムビルダー(クラウドベンダー、データセンター事業者)にチップとソリューションを販売する予定です。 Sankar氏は、EnfabricaはNVIDIAのエコシステムと深く結びついているが、さらに多くのAIコンピューティング企業と協力することを計画していることを明らかにした。

「ACF-Sは、AIコンピューティングに使用されるAIプロセッサの種類とブランド、および展開される正確なモデルについて中立的です。これにより、複数の異なるユースケースにわたるAIインフラストラクチャの構築が可能になり、独自のテクノロジーに縛られることなく複数のプロセッサベンダーをサポートできます」と彼は述べています。 "

より速く、より低いエネルギー消費、新世代のAIコンピューティングパワーシステムが具体化しています

H100の出荷からわずか1年後、NVIDIAはH200を発売し、AIコンピューティングパワーの分野で主導的な地位を維持する緊急性を示しています。 昨年のジェネレーティブAIの爆発的な普及により、競合他社もAMDのMI300シリーズチップやMicrosoftのMaiaチップなど、強力なAIコンピューティング製品を発売し、H100に対抗するベンチマークとなっています。

AIコンピューティングパワーは、テクノロジー集約型で資本集約型の産業であり、巨人の「妖精の戦い」に直面して、AIコンピューティングのスタートアップはどのように生き残ることができますか?

d-MatrixのアプローチはAI推論に焦点を当てており、発売されたAI推論チップは、NVIDIAの同様の製品よりも高速で電力効率が優れています。 Enfabricaは、AIコンピューティングシステムの重要な部分として、NVIDIAのGPU(およびその他のAIコンピューティングチップ)が「メモリの壁」を打ち破り、アイドル状態のコンピューティングパワーを削減し、コンピューティングシステム全体の使用率を向上させるのを支援しています。

AIコンピューティングシステムには、他のコンピューティングシステムと同様に、速度とエネルギー消費という2つの重要な要素があります。 大規模なAIコンピューティング(トレーニングまたは推論)はコンピューティングパワークラスターによって実行されますが、コンピューティング速度の高速化とエネルギー消費の削減は、依然として業界全体の方向性です。

NVIDIAのGPUは、より高速なコンピューティング速度の方向で明らかな利点を持っていますが、Enfabricaのような企業はエネルギー消費の削減を推進しています。

Enfabricaの創業者であるRochan Sankar氏は、「AIコンピューティングが真にユビキタスであるためには、コスト曲線を下げる必要があります」と述べています。 重要なのは、GPUの計算能力がより良く、より効率的に使用されるかどうかです。 "

もちろん、NVIDIAのEnfabricaへの投資もこのロジックに基づいており、Enfabricaの技術がNVIDIAのGPU電力使用率をさらに向上させることで、業界におけるNVIDIAの主導的地位はさらに確固たるものになると予想されます。

しかし、この明白で緊急なニーズに直面して、Enfabricaは業界で唯一のものではなく、業界大手のCiscoもAIネットワークハードウェアのSilicon One G200およびG202シリーズを発売しており、Broadcomもこの分野に取り組んでいます。 Enfabricaはさらなる成長を望んでいますが、まだ競争に直面しています。

海外のAI産業が一時的な計算能力の不足に直面しているとすれば、中国のAI産業はAI計算能力の長期的な不足に直面する必要があり、NIVDIAのGPUがさらに制限されているため、業界はローカルAIコンピューティング製品に対する強い需要を持っています。 現在、ファーウェイ、アリババ、バイドゥ、ムーア・スレッド、カンブリア紀などの企業がAIコンピューティングパワーの分野で発展しており、彼らだけでなく、より多くの企業が中国独自のAIコンピューティングパワーシステムの構築に貢献できることを願っています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)