Bukankah model besarnya terlalu berlebihan?

Sumber asli: Yuanchuan Science and Technology Review

Sumber gambar: Dihasilkan oleh Unbounded AI

Bulan lalu, "perang hewan" pecah di industri AI.

Di satu sisi adalah Meta's Llama (llama), yang secara historis populer di kalangan komunitas pengembang karena sifatnya yang open source. Setelah mempelajari kertas Llama dan kode sumber dengan cermat, NEC dengan cepat "mengembangkan secara independen" ChatGPT versi Jepang, membantu Jepang memecahkan masalah leher AI.

** Di sisi lain adalah model besar yang disebut Falcon (Falcon). ** Pada bulan Mei tahun ini, Falcon-40B diluncurkan, mengalahkan llama ke "Open Source LLM (Large Language Model) Ranking".

Daftar ini, diproduksi oleh Hugging face, sebuah komunitas model open-source, menyediakan seperangkat kriteria untuk mengukur kemampuan LLM dan memberi peringkat pada mereka. Papan peringkat pada dasarnya adalah Llama dan Falcon bergiliran menggulir grafik.

Setelah peluncuran Llama 2, keluarga llama mengambil kembali sebuah kota; Namun pada awal September, Falcon meluncurkan versi 180B, sekali lagi mencapai peringkat yang lebih tinggi.

Falcon menghancurkan Llama 2 dengan 68,74 poin

Menariknya, pengembang "Falcon" bukanlah perusahaan teknologi, tetapi Institut Inovasi Sains dan Teknologi yang berbasis di Abu Dhabi, ibu kota Uni Emirat Arab. Sumber-sumber pemerintah mengatakan, "Kami terlibat dalam permainan ini untuk menumbangkan para pemain inti."[4] 。

Sehari setelah rilis versi 180B, Menteri Kecerdasan Buatan UEA Omar terpilih sebagai salah satu dari "100 orang paling berpengaruh di bidang AI" oleh Majalah Time; Bersama dengan wajah Timur Tengah ini adalah "Godfather of AI" Hinton, Altman OpenAI, dan Robin Li.

Menteri Kecerdasan Buatan UEA

Saat ini, bidang AI telah memasuki tahap "tarian kelompok": semua negara dan perusahaan dengan sedikit sumber daya keuangan memiliki sedikit banyak rencana untuk membuat "ChatGPT versi nasional XX". Ada lebih dari satu pemain di lingkaran Teluk saja – Arab Saudi baru saja membeli lebih dari 3.000 H100 untuk universitasnya pada bulan Agustus untuk melatih LLM.

Zhu Xiaohu, ibu kota ventura Sungai GSR, pernah mengeluh di lingkaran teman-teman: "Saat itu, saya memandang rendah inovasi model bisnis (Internet) dan merasa bahwa tidak ada hambatan: perang seratus resimen, perang seratus mobil, seratus perang siaran; Saya tidak menyangka bahwa kewirausahaan model besar teknologi keras masih merupakan perang seratus model ..."

Bagaimana teknologi keras tingkat kesulitan tinggi yang dikatakan sebagai suatu negara menghasilkan 100.000 kati per mu?

Transformer melahap dunia

Startup Amerika, raksasa teknologi China, dan baron minyak Timur Tengah mampu memimpikan model-model besar berkat makalah terkenal: "Perhatian Adalah Yang Anda Butuhkan."

Pada tahun 2017, 8 ilmuwan komputer Google mengungkapkan algoritma Transformer kepada dunia dalam makalah ini. Makalah ini saat ini merupakan makalah ketiga yang paling banyak dikutip dalam sejarah kecerdasan buatan, dan kemunculan Transformer telah menarik pemicu putaran ledakan kecerdasan buatan ini.

Tidak peduli apa kebangsaan model besar saat ini, termasuk seri GPT yang mengguncang dunia, berdiri di pundak Transformer.

Sebelum ini, "mengajar mesin untuk membaca" adalah masalah akademis yang diakui. Berbeda dengan pengenalan gambar, ketika manusia membaca teks, mereka tidak hanya akan memperhatikan kata-kata dan kalimat yang mereka lihat saat ini, tetapi juga memahaminya dalam konteks.

Misalnya, kata "Transformer" sebenarnya dapat diterjemahkan sebagai "Transformer", tetapi pembaca artikel ini pasti tidak akan memahaminya seperti ini, karena semua orang tahu bahwa ini bukan artikel tentang film-film Hollywood. **

Namun, pada tahun-tahun awal, input jaringan saraf tidak bergantung satu sama lain, dan mereka tidak memiliki kemampuan untuk memahami paragraf besar teks atau bahkan seluruh artikel, sehingga masalah menerjemahkan "ruang air mendidih" menjadi "ruang air terbuka" muncul.

Baru pada tahun 2014 Ilya Sutskever, seorang ilmuwan komputer yang bekerja di Google dan kemudian pindah ke OpenAI, adalah orang pertama yang membuahkan hasil. Dia menggunakan jaringan saraf berulang (RNN) untuk memproses bahasa alami, dengan cepat menempatkan kinerja Google Translate terpisah dari kompetisi.

RNN mengusulkan "desain loop", sehingga setiap neuron menerima informasi input dari momen saat ini dan informasi input dari momen sebelumnya, sehingga jaringan saraf memiliki kemampuan untuk "menggabungkan konteks".

Jaringan saraf berulang

Munculnya RNN memicu hasrat untuk penelitian di kalangan akademis, dan Noam Shazeer, penulis makalah Transformer, juga kecanduan. Namun, pengembang dengan cepat menyadari bahwa RNN memiliki kelemahan serius:

** Algoritma menggunakan perhitungan berurutan, yang dapat memecahkan masalah konteks, tetapi tidak efisien dan sulit untuk menangani sejumlah besar parameter. **

Desain RNN yang rumit dengan cepat membuat Shazel bosan. Jadi sejak 2015, Shazel dan 7 temannya telah mengembangkan alternatif untuk RNN, dan hasilnya adalah Transformer[8] 。

Noam Shazeer

Dibandingkan dengan RNN, transformasi Transformer memiliki dua poin:

Pertama, desain loop RNN digantikan oleh pengkodean posisional, sehingga mewujudkan komputasi paralel - perubahan ini sangat meningkatkan efisiensi pelatihan Transformer, sehingga menjadi mampu memproses data besar, mendorong AI ke era model besar; Kedua, kemampuan untuk lebih memperkuat konteks telah semakin diperkuat.

Ketika Transformer memecahkan banyak cacat sekaligus, secara bertahap berkembang menjadi satu-satunya solusi untuk NLP (pemrosesan bahasa alami), yang memiliki arti "Transformer tidak lahir di alam, NLP seperti malam yang panjang". Bahkan Ilya meninggalkan RNN, yang memegang altar dengan tangannya sendiri, dan beralih ke Transformer.

Dengan kata lain, Transformer adalah kakek dari semua model besar saat ini, karena ia telah mengubah model besar dari masalah penelitian teoretis menjadi masalah rekayasa murni. **

[9]Diagram pohon pengembangan teknologi LLM, akar pohon abu-abu adalah Transformer

Pada tahun 2019, OpenAI mengembangkan GPT-2 berbasis Transformer, yang pernah mengejutkan kalangan akademis. Sebagai tanggapan, Google dengan cepat meluncurkan AI yang lebih kuat yang disebut Meena.

Dibandingkan dengan GPT-2, Meena tidak memiliki inovasi algoritma yang mendasarinya, tetapi 8,5 kali lebih banyak parameter pelatihan dan daya komputasi 14 kali lebih banyak daripada GPT-2. Shazel, penulis makalah Transformer, sangat terkejut dengan "tumpukan kekerasan" sehingga dia menulis memo di tempat "Meena Devours the World".

Munculnya Transformer telah sangat memperlambat inovasi algoritma yang mendasarinya di dunia akademis. Elemen teknik seperti rekayasa data, skala daya komputasi, dan arsitektur model semakin menjadi pemenang dan pecundang penting dalam kompetisi AI, dan selama perusahaan teknologi dengan beberapa kemampuan teknis dapat menggosok model besar dengan tangan.

Oleh karena itu, ketika ilmuwan komputer Andrew Ng memberikan pidato di Stanford University, ia menyebutkan sebuah poin: "AI adalah kumpulan alat, termasuk pembelajaran yang diawasi, pembelajaran tanpa pengawasan, pembelajaran penguatan, dan sekarang kecerdasan buatan generatif." Semua ini adalah teknologi tujuan umum, mirip dengan teknologi tujuan umum lainnya seperti listrik dan internet.[10] "

OpenAI masih menjadi pemimpin LLM, tetapi perusahaan analis semikonduktor Semi Analysis percaya bahwa daya saing GPT-4 berasal dari solusi teknik – jika open source, pesaing mana pun dapat dengan cepat mereplikasi.

Analis memperkirakan bahwa mungkin tidak lama lagi perusahaan teknologi besar lainnya dapat membuat model besar dengan kinerja yang sama dengan GPT-4[11] 。

Parit dibangun di atas kaca

Saat ini, "perang seratus model" bukan lagi perangkat retoris, tetapi realitas objektif.

Laporan yang relevan menunjukkan bahwa pada Juli tahun ini, jumlah model besar domestik telah mencapai 130, lebih tinggi dari 114 di Amerika Serikat, berhasil mencapai penyalipan sudut, dan berbagai mitos dan legenda hampir tidak cukup bagi perusahaan teknologi dalam negeri untuk mengambil nama[12] 。

Selain Cina dan Amerika Serikat, sejumlah negara kaya juga pada awalnya mencapai "satu negara, satu model":* * Selain Jepang dan Uni Emirat Arab, ada juga model besar yang dipimpin pemerintah India Bhashini, perusahaan Internet Korea Selatan Naver HyperClova X dan sebagainya. **

Pertempuran di depan kita tampaknya telah kembali ke era perintis Internet, di mana gelembung dan "kemampuan uang kertas" dibombardir.

Seperti disebutkan sebelumnya, Transformer mengubah model besar menjadi masalah rekayasa murni, selama seseorang memiliki uang dan kartu grafis, sisanya hilang karena parameter. Namun, meski tiket masuknya tidak sulit didapatkan, bukan berarti setiap orang berkesempatan menjadi BAT di era AI.

"Perang hewan" yang disebutkan di awal adalah kasus yang khas: meskipun Falcon mengalahkan llama di peringkat, sulit untuk mengatakan seberapa besar dampaknya terhadap Meta. **

Seperti yang kita semua tahu, perusahaan membuka sumber hasil penelitian ilmiah mereka sendiri, tidak hanya untuk berbagi kesejahteraan sains dan teknologi dengan publik, tetapi juga untuk memobilisasi kebijaksanaan masyarakat. Karena profesor universitas, lembaga penelitian, dan usaha kecil dan menengah terus menggunakan dan meningkatkan Llama, Meta dapat menerapkan hasil ini ke produknya sendiri.

**Untuk model open source, komunitas pengembang aktif adalah kompetensi intinya. **

Pada awal 2015, ketika AI Lab didirikan, Meta telah menetapkan nada utama open source; Zuckerberg juga membuat kekayaannya dalam bisnis media sosial, dan dia berpengalaman dalam hal "melakukan pekerjaan dengan baik dalam hubungan masyarakat".

Misalnya, pada bulan Oktober, Meta meluncurkan kampanye "AI Creator Incentive": pengembang yang menggunakan Llama 2 untuk memecahkan masalah sosial seperti pendidikan dan lingkungan akan memiliki kesempatan untuk menerima dana $500.000.

Hari ini, seri Llama Meta adalah baling-baling LLM open source.

Pada awal Oktober, total 8 dari 10 daftar LLM open source Hugging face didasarkan pada Llama 2 dan menggunakan lisensi open source-nya. Pada Hugging face saja, ada lebih dari 1.500 LLM menggunakan protokol open source Llama 2[13] 。

Pada awal Oktober, LLM nomor satu di wajah Memeluk didasarkan pada Llama 2

Tentu saja, tidak apa-apa untuk meningkatkan kinerja seperti Falcon, tetapi hingga hari ini, sebagian besar LLM di pasaran masih memiliki kesenjangan kinerja yang terlihat dengan GPT-4.

Misalnya, tempo hari, GPT-4 menduduki puncak tes AgentBench dengan skor 4.41. Standar AgentBench diluncurkan bersama oleh Tsinghua University, The Ohio State University dan University of California, Berkeley, untuk mengevaluasi kemampuan penalaran LLM dan kemampuan pengambilan keputusan dalam lingkungan generasi terbuka multi-dimensi, termasuk tugas di 8 lingkungan yang berbeda seperti sistem operasi, database, grafik pengetahuan, dan pertempuran kartu.

Hasil tes menunjukkan bahwa Claude yang finis kedua hanya memiliki 2,77 poin, dan jaraknya masih terlihat jelas. Adapun LLM open source besar itu, nilai tes mereka berkisar sekitar 1 poin, kurang dari 1/4 dari GPT-4[14] 。

Hasil tes AgentBench

Anda tahu, GPT-4 dirilis pada bulan Maret tahun ini, yang masih merupakan hasil setelah rekan-rekan global telah menyusul selama lebih dari setengah tahun. Apa yang menyebabkan kesenjangan ini adalah pengalaman yang dikumpulkan oleh tim ilmuwan OpenAI dengan "kepadatan IQ" tinggi dan LLM penelitian jangka panjang, sehingga selalu bisa jauh di depan.

Dengan kata lain, kemampuan inti dari model besar bukanlah parameter, tetapi konstruksi ekologi (open source) atau kemampuan penalaran murni (closed source). **

Ketika komunitas open source menjadi lebih aktif, kinerja LLM dapat menyatu karena mereka semua menggunakan arsitektur model yang serupa dan kumpulan data yang serupa.

Teka-teki lain yang lebih intuitif: selain Midjourney, tidak ada model besar yang menghasilkan uang.

Jangkar Nilai

Pada bulan Agustus tahun ini, sebuah artikel aneh berjudul "OpenAI mungkin bangkrut pada akhir 2024" menarik banyak perhatian[16] 。 Dorongan utama artikel ini dapat diringkas hampir dalam satu kalimat: uang pembakaran OpenAI terlalu cepat. **

Artikel tersebut menyebutkan bahwa sejak pengembangan ChatGPT, kerugian OpenAI berkembang pesat, kehilangan sekitar $540 juta pada tahun 2022 saja, dan hanya bisa menunggu investor Microsoft membayar.

Meskipun judul artikelnya sensasional, artikel ini juga menceritakan situasi saat ini dari banyak penyedia model besar: ** Ada ketidakseimbangan serius antara biaya dan pendapatan. **

Biayanya terlalu tinggi, mengakibatkan ketergantungan saat ini pada kecerdasan buatan untuk menghasilkan banyak uang hanya NVIDIA, paling banyak menambahkan Broadcom.

Menurut perusahaan konsultan Omdia, Nvidia menjual lebih dari 300.000 unit H100 pada kuartal kedua tahun ini. Ini adalah chip AI, efisiensi pelatihan AI sangat tinggi, dan perusahaan teknologi serta lembaga penelitian ilmiah di seluruh dunia mengambil alih. Jika 300.000 H100 yang dijual ditumpuk di atas satu sama lain, beratnya setara dengan 4,5 pesawat Boeing 747[18] 。

Kinerja Nvidia juga lepas landas, melonjak 854% pendapatan tahun-ke-tahun, yang pernah mengejutkan rahang Wall Street. Ngomong-ngomong, harga H100 saat ini di pasar barang bekas telah berspekulasi menjadi $40.000-50.000, tetapi biaya materialnya hanya sekitar $3.000.

Tingginya biaya daya komputasi telah menjadi hambatan bagi perkembangan industri sampai batas tertentu. Sequoia Capital telah membuat perhitungan: ** perusahaan teknologi global diperkirakan akan menghabiskan $ 200 miliar per tahun untuk pembangunan infrastruktur model besar; Sebaliknya, model besar hanya dapat menghasilkan hingga $ 75 miliar per tahun, dengan kesenjangan setidaknya $ 125 miliar[17] 。 **

Jensen Huang dengan H100

Selain itu, dengan beberapa pengecualian seperti Midjourney, sebagian besar perusahaan perangkat lunak belum menemukan cara menghasilkan uang setelah membayar biaya besar. Secara khusus, dua kakak laki-laki terkemuka di industri ini, Microsoft dan Adobe, telah sedikit tersandung.

Microsoft dan OpenAI telah berkolaborasi untuk mengembangkan alat pembuat kode AI, GitHub Copilot, yang mengenakan biaya $ 10 per bulan, tetapi karena biaya fasilitas, Microsoft kehilangan $ 20, dan pengguna berat bahkan dapat membuat Microsoft membayar $ 80 per bulan. Berdasarkan spekulasi ini, Microsoft 365 Copilot seharga $30 tidak rugi.

Secara kebetulan, Adobe yang baru saja merilis alat Firefly AI juga dengan cepat meluncurkan sistem poin pendukung untuk mencegah pengguna menggunakannya secara berlebihan dan menyebabkan perusahaan merugi. Setelah pengguna menggunakan lebih dari kredit yang dialokasikan setiap bulan, Adobe memperlambat layanan.

Anda harus tahu bahwa Microsoft dan Adobe sudah menjadi raksasa perangkat lunak dengan skenario bisnis yang jelas dan sejumlah besar pengguna berbayar yang sudah jadi. Sebagian besar parameter ditumpuk di langit, dan skenario aplikasi terbesar adalah obrolan.

Tidak dapat dipungkiri bahwa tanpa munculnya OpenAI dan ChatGPT, revolusi AI ini mungkin tidak akan terjadi sama sekali; Tetapi saat ini, nilai pelatihan model besar mungkin menjadi tanda tanya.

Selain itu, karena persaingan homogenisasi meningkat dan ada semakin banyak model open source di pasaran, mungkin ada sedikit ruang untuk vendor model besar sederhana.

Popularitas iPhone 4 bukan karena prosesor A4 45nm, tetapi karena dapat memainkan Plants vs Zombies dan Angry Birds.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)