NVIDIA: Empire Rift Satu per Satu

Sumber asli: Decode

Sumber gambar: Dihasilkan oleh Unbounded AI

Sering ada ilusi bahwa CPU Intel terjual dengan baik dan menghubungkannya dengan perusahaan perangkat keras yang sukses, padahal sebenarnya, dominasi Intel terhadap prosesor desktop adalah arsitektur X86, yang lahir pada tahun 1978.

Ilusi yang sama ditemukan di Nvidia.

Alasan mengapa NVIDIA dapat memonopoli pasar chip pelatihan kecerdasan buatan, arsitektur CUDA jelas merupakan salah satu pahlawan di balik layar.

Arsitektur ini, lahir pada tahun 2006, telah terlibat dalam semua bidang komputasi komputer dan hampir dibentuk menjadi bentuk NVIDIA. 80% penelitian di bidang kedirgantaraan, penelitian biosains, simulasi mekanik dan fluida, dan eksplorasi energi dilakukan berdasarkan CUDA.

Di bidang AI terpanas, hampir semua produsen besar sedang mempersiapkan Rencana B: Google, Amazon, Huawei, Microsoft, OpenAI, Baidu ... Tidak ada yang menginginkan masa depan mereka di tangan orang lain.

Lembaga konsultan layanan wirausaha Dealroom.co merilis serangkaian data, dalam gelombang gelombang panas AI generatif ini, Amerika Serikat telah memperoleh 89% dari investasi dan pembiayaan global, dan dalam investasi dan pembiayaan chip AI, investasi dan pembiayaan chip AI China menempati urutan pertama di dunia, lebih dari dua kali lipat dari Amerika Serikat.

Artinya, meskipun ada banyak perbedaan dalam metode pengembangan dan tahapan model besar perusahaan Cina dan Amerika, setiap orang sangat konsisten dalam mengendalikan daya komputasi.

Mengapa CUDA memiliki keajaiban ini? **

Pada tahun 2003, untuk bersaing dengan Intel, yang memperkenalkan CPU 4-core, NVIDIA mulai mengembangkan teknologi arsitektur perangkat komputasi terpadu, atau CUDA.

Tujuan awal CUDA adalah untuk menambahkan antarmuka pemrograman yang mudah digunakan ke GPU, sehingga pengembang tidak perlu mempelajari bahasa bayangan yang kompleks atau primitif pemrosesan grafis. Ide asli Nvidia adalah untuk menyediakan pengembang game dengan aplikasi di bidang komputasi grafis, yang disebut Huang "membuat grafis dapat diprogram."

Namun, sejak peluncuran CUDA, belum dapat menemukan aplikasi utama dan tidak memiliki dukungan pelanggan yang penting. Dan NVIDIA juga harus menghabiskan banyak uang untuk mengembangkan aplikasi, memelihara layanan, dan mempromosikan dan memasarkan, dan pada tahun 2008 menghadapi badai keuangan, pendapatan Nvidia turun tajam dengan penjualan kartu grafis yang buruk, dan harga saham pernah turun menjadi hanya $ 1,50, lebih buruk dari waktu terburuk AMD.

Baru pada tahun 2012 dua siswa Hinton menggunakan GPU NVIDIA untuk bersaing dalam kecepatan pengenalan gambar yang disebut ImageNet. Mereka menggunakan kartu grafis GTX580 dan dilatih dengan teknologi CUDA, dan hasilnya puluhan kali lebih cepat dari tempat kedua, dan akurasinya lebih dari 10% lebih tinggi daripada tempat kedua.

Bukan hanya model ImageNet itu sendiri yang mengejutkan industri. Jaringan saraf ini, yang membutuhkan 14 juta gambar dan total 262 kuadriliun operasi floating-point, hanya menggunakan empat GTX 580 dalam pelatihan seminggu. Sebagai referensi, Google Cat menggunakan 10 juta gambar, 16.000 CPU, dan 1.000 komputer.

Kompetisi ini tidak hanya menjadi titik balik sejarah bagi AI, tetapi juga membuka terobosan bagi NVIDIA. NVIDIA mulai bekerja sama dengan industri untuk mempromosikan ekosistem AI, mempromosikan kerangka kerja AI open source, dan bekerja sama dengan Google, Facebook, dan perusahaan lain untuk mempromosikan pengembangan teknologi AI seperti TensorFlow.

Ini setara dengan menyelesaikan langkah kedua yang dikatakan Huang, "buka GPU untuk programabilitas untuk segala macam hal."

Ketika nilai daya komputasi GPU ditemukan, produsen besar juga tiba-tiba terbangun dengan fakta bahwa CUDA, yang telah diiterasi dan diaspal NVIDIA selama beberapa tahun, telah menjadi tembok tinggi yang tidak dapat dihindari AI.

Untuk membangun ekosistem CUDA, NVIDIA menyediakan pengembang dengan banyak perpustakaan dan alat, seperti cuDNN, cuBLAS dan TensorRT, dll., Yang nyaman bagi pengembang untuk melakukan pembelajaran mendalam, aljabar linier, dan akselerasi inferensi dan tugas lainnya. Selain itu, NVIDIA menawarkan toolchain pengembangan lengkap termasuk kompiler dan pengoptimal CUDA, membuat pemrograman GPU dan pengoptimalan kinerja lebih mudah bagi pengembang.

Pada saat yang sama, NVIDIA juga bekerja sama dengan banyak kerangka kerja pembelajaran mendalam populer seperti TensorFlow, PyTorch, dan MXNet, memberikan CUDA keuntungan signifikan dalam tugas pembelajaran mendalam.

Dedikasi untuk "membantu kuda dan memberinya tumpangan" memungkinkan NVIDIA untuk menggandakan jumlah pengembang di ekosistem CUDA hanya dalam dua setengah tahun.

Selama dekade terakhir, NVIDIA telah mempromosikan kursus pengajaran CUDA ke lebih dari 350 universitas, dengan pengembang profesional dan pakar domain di platform yang telah memberikan dukungan kaya untuk aplikasi CUDA dengan berbagi pengalaman dan menjawab pertanyaan sulit.

Lebih penting lagi, NVIDIA tahu bahwa cacat perangkat keras sebagai parit adalah tidak ada kelengketan pengguna, sehingga menggabungkan perangkat keras dengan perangkat lunak, rendering GPU untuk menggunakan CUDA, pengurangan kebisingan AI untuk menggunakan OptiX, kebutuhan komputasi mengemudi otonom CUDA...

Meskipun NVIDIA saat ini memonopoli 90% pasar daya komputasi AI dengan GPU + NVlink + CUDA, ada lebih dari satu celah di kekaisaran.

Retak

Produsen AI telah menderita CUDA untuk waktu yang lama, dan itu tidak mengkhawatirkan.

Keajaiban CUDA adalah bahwa ia berada di posisi kunci dari kombinasi perangkat lunak dan perangkat keras, yang merupakan landasan dari seluruh ekosistem untuk perangkat lunak, dan sulit bagi pesaing untuk melewati CUDA agar kompatibel dengan ekosistem NVIDIA; Untuk perangkat keras, desain CUDA pada dasarnya adalah abstraksi perangkat lunak dalam bentuk perangkat keras NVIDIA, dan pada dasarnya setiap konsep inti sesuai dengan konsep perangkat keras GPU.

Kemudian untuk pesaing, hanya ada dua opsi tersisa:

1 Lewati CUDA dan bangun kembali ekosistem perangkat lunak, yang membutuhkan tantangan besar dari kelekatan pengguna NVIDIA;

2 Kompatibel dengan CUDA, tetapi juga menghadapi dua masalah, satu adalah bahwa jika rute perangkat keras Anda tidak konsisten dengan NVIDIA, maka dimungkinkan untuk mencapai tidak efisien dan tidak nyaman, dan yang lainnya adalah bahwa CUDA akan mengikuti evolusi karakteristik perangkat keras NVIDIA, dan kompatibilitas hanya dapat memilih untuk mengikuti.

Namun untuk menyingkirkan cengkeraman Nvidia, kedua opsi tersebut telah dicoba.

Pada tahun 2016, AMD meluncurkan ROCm, ekosistem GPU berdasarkan proyek open source, menyediakan alat HIP yang sepenuhnya kompatibel dengan CUDA, yang merupakan cara untuk mengikuti rute.

Namun, karena kurangnya sumber daya perpustakaan toolchain dan tingginya biaya pengembangan dan kompatibilitas iterasi, sulit bagi ekosistem ROCm untuk tumbuh. Di Github, lebih dari 32.600 pengembang berkontribusi pada repositori paket CUDA, sementara ROCm memiliki kurang dari 600.

Kesulitan mengambil rute CUDA yang kompatibel dengan NVIDIA adalah bahwa kecepatan iterasi pembaruannya tidak pernah dapat mengikuti CUDA dan sulit untuk mencapai kompatibilitas penuh:

Iterasi 1 selalu selangkah lebih lambat: GPU NVIDIA beriterasi dengan cepat pada mikroarsitektur dan set instruksi, dan banyak tempat di tumpukan perangkat lunak atas juga harus melakukan pembaruan fitur yang sesuai. Tetapi AMD tidak dapat mengetahui peta jalan produk NVIDIA, dan pembaruan perangkat lunak akan selalu selangkah lebih lambat daripada NVIDIA. Misalnya, AMD mungkin baru saja mengumumkan dukungan untuk CUDA11, tetapi NVIDIA telah meluncurkan CUDA12.

2 Kesulitan dalam kompatibilitas penuh akan meningkatkan beban kerja pengembang: Perangkat lunak besar seperti CUDA sendiri sangat kompleks, dan AMD perlu menginvestasikan banyak tenaga kerja dan sumber daya material selama beberapa tahun atau bahkan lebih dari satu dekade untuk mengejar ketinggalan. Karena ada perbedaan fungsional yang tak terhindarkan, jika kompatibilitas tidak dilakukan dengan baik, itu akan mempengaruhi kinerja (meskipun 99% serupa, tetapi menyelesaikan 1% perbedaan yang tersisa dapat menghabiskan 99% waktu pengembang).

Ada juga perusahaan yang memilih untuk memotong CUDA, seperti Modular, yang didirikan pada Januari 2022.

Ide Modular adalah menjaga bar serendah mungkin, tetapi lebih seperti serangan mendadak. Ini mengusulkan mesin AI "untuk meningkatkan kinerja model kecerdasan buatan" untuk memecahkan masalah bahwa "tumpukan aplikasi AI saat ini sering digabungkan dengan perangkat keras dan perangkat lunak tertentu" melalui pendekatan "modular".

Untuk menemani AI engine ini, Modular juga telah mengembangkan bahasa pemrograman open-source Mojo. Anda dapat menganggapnya sebagai bahasa pemrograman "dibangun untuk AI", Modular menggunakannya untuk mengembangkan alat untuk diintegrasikan ke dalam mesin AI yang disebutkan di atas, sambil berintegrasi dengan Python dan mengurangi biaya pembelajaran.

Masalah dengan Modular, bagaimanapun, adalah bahwa visinya tentang "alat pengembangan semua platform" terlalu idealis.

Meskipun menyandang gelar "beyond Python" dan didukung oleh reputasi Chris Lattner, Mojo, sebagai bahasa baru, perlu diuji oleh banyak pengembang dalam hal promosi.

Mesin AI menghadapi lebih banyak masalah, tidak hanya dengan perjanjian dengan banyak perusahaan perangkat keras, tetapi juga dengan kompatibilitas antar platform. Ini semua adalah tugas yang membutuhkan waktu lama untuk diselesaikan, dan Nvidia akan berkembang menjadi apa pada saat itu, saya khawatir tidak ada yang akan tahu.

Penantang Huawei

Pada 17 Oktober, Amerika Serikat memperbarui aturan kontrol ekspornya untuk chip AI, mencegah perusahaan seperti NVIDIA mengekspor chip AI canggih ke China. Menurut aturan terbaru, ekspor chip NVIDIA ke China, termasuk A800 dan H800, akan terpengaruh.

Sebelumnya, setelah dua model NVIDIA A100 dan H100 dilarang diekspor ke China, "versi dikebiri" A800 dan H800 khusus untuk China dirancang untuk mematuhi peraturan. Intel juga telah meluncurkan chip AI Gaudi2 untuk pasar Cina. Sekarang tampaknya perusahaan harus menyesuaikan tanggapan mereka di bawah babak baru larangan ekspor.

Pada bulan Agustus tahun ini, Mate60Pro yang dilengkapi dengan chip Kirin 9000S yang dikembangkan sendiri oleh Huawei tiba-tiba mulai dijual, yang langsung memicu gelombang besar opini publik, membuat berita lain pada saat yang hampir bersamaan dengan cepat tenggelam.

Liu Qingfeng, ketua iFLYTEK, membuat pernyataan langka di sebuah acara publik, mengatakan bahwa GPU Huawei dapat dibandingkan dengan NVIDIA A100, tetapi hanya jika Huawei mengirim kelompok kerja khusus untuk mengoptimalkan pekerjaan iFLYTEK.

Pernyataan mendadak seperti itu seringkali memiliki niat yang dalam, dan meskipun mereka tidak memiliki kemampuan untuk memprediksinya, utilitas mereka masih untuk menanggapi larangan chip dua bulan kemudian.

GPU Huawei, platform perangkat lunak dan perangkat keras full-stack Ascend AI, mencakup 5 lapisan, yaitu perangkat keras seri Atlas, arsitektur komputasi heterogen, kerangka kerja AI, pemberdayaan aplikasi, dan aplikasi industri dari bawah ke atas.

Pada dasarnya, dapat dipahami bahwa Huawei telah membuat satu set pengganti NVIDIA, lapisan chip adalah Ascend 910 dan Ascend 310, dan arsitektur komputasi heterogen (CANN) membandingkan lapisan perangkat lunak inti NVIDIA CUDA + CuDNN.

Tentu saja, kesenjangan tidak dapat dihilangkan, dan beberapa praktisi terkait merangkum dua poin:

1 Kinerja kartu tunggal tertinggal, dan masih ada celah antara Ascend 910 dan A100, tetapi kemenangannya adalah harganya murah dan jumlahnya dapat ditumpuk, dan kesenjangan keseluruhan tidak besar setelah mencapai skala cluster;

2 Kerugian ekologis memang ada, tetapi Huawei juga berusaha mengejar ketinggalan, misalnya, melalui kerja sama antara komunitas PyTorch dan Ascend, PyTorch versi 2.1 telah secara sinkron mendukung Ascend NPU, yang berarti bahwa pengembang dapat langsung mengembangkan model berdasarkan Ascend di PyTorch 2.1.

Saat ini, Huawei Ascend terutama menjalankan produk model besar loop tertutup Huawei sendiri, dan model publik apa pun harus dioptimalkan secara mendalam oleh Huawei untuk berjalan di platform Huawei, dan bagian dari pekerjaan pengoptimalan ini sangat bergantung pada Huawei.

Dalam konteks saat ini, Ascend memiliki arti khusus.

Pada bulan Mei tahun ini, Zhang Dixuan, Presiden Bisnis Komputasi Ascend Huawei, mengungkapkan bahwa platform perangkat lunak dan perangkat keras dasar "Ascend AI" telah diinkubasi dan disesuaikan dengan lebih dari 30 model besar arus utama, dan lebih dari setengah model besar asli China didasarkan pada platform perangkat lunak dan perangkat keras dasar "Ascend AI", termasuk seri Pengcheng, seri Zidong, dan seri HUAWEI CLOUD Pangu. Pada bulan Agustus tahun ini, Baidu juga secara resmi mengumumkan adaptasi Ascend AI dengan model dayung terbang + Wen Xin.

Dan menurut gambar yang beredar di Internet, Chinese Intelligent Supercomputing Center pada dasarnya adalah Ascend kecuali untuk dirahasiakan, dan dikatakan bahwa setelah putaran baru pembatasan chip, 30-40% dari kapasitas produksi chip Huawei akan disediakan untuk cluster Ascend, dan sisanya adalah Kirin.

Epilog

Pada tahun 2006, ketika NVIDIA membuka narasi besarnya, tidak ada yang mengira CUDA akan menjadi produk revolusioner, dan Huang harus membujuk dewan direksi untuk menginvestasikan $ 500 juta setahun untuk bertaruh pada periode pengembalian yang tidak diketahui lebih dari 10 tahun, dan pendapatan NVIDIA hanya $ 3 miliar tahun itu.

Tetapi dalam semua kisah bisnis yang menggunakan teknologi dan inovasi sebagai kata kunci, selalu ada orang yang telah mencapai kesuksesan besar karena kepatuhan mereka yang gigih terhadap tujuan jangka panjang, dan NVIDIA dan Huawei termasuk yang terbaik.

Sumber daya

[1] "Sabit" NVIDIA bukanlah chip AI, laboratorium berbasis silikon

[2] Untuk menjadi "pengganti NVIDIA", produsen model besar membuka buku itu, dan meja makan kecil membuat pakaian

[3] Hanya 1 tahun setelah berdiri, startup bintang AI ini ingin menantang NVIDIA dan magnesium kenet

[4] Celah di Kekaisaran Nvidia, Institut Penelitian Enukawa

[5] Amerika Serikat berencana untuk meningkatkan ekspor chip ke China, Huawei memimpin peningkatan produksi dalam negeri, dan West China Securities

[6] Laporan Mendalam Industri AIGC (11): Huawei Computing Power Spin-off: Kutub Kedua Kekuatan Komputasi AI Global, West China Securities

[7] Laporan Khusus Industri AIGC 2023: Empat rute teknis utama chip AI, Cambrian Copy NVIDIA, Shenwan Hongyuan

[8] Bagaimana CUDA Mencapai NVIDIA: Terobosan Besar dalam AI, Komunitas Tencent Cloud

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)