Mengapa model casing yang besar masih hidup?

Sumber asli: AI New Intelligence

Sumber gambar: Dihasilkan oleh Unbounded AI

Cangkang model skala besar domestik adalah fenomena yang telah lama dikeluhkan.

Baru-baru ini, Jia Yangqing, mantan wakil presiden Alibaba dan kerangka kerja AI yang terkenal, memposting di Moments kemarin untuk meledakkan model shell LLaMA dari produsen domestik besar.

Intinya adalah: ubah jika Anda mau, tetapi jangan menyembunyikannya dan mencuri bel, jangan sampai perusahaan kecil melakukan pekerjaan adaptasi yang berlebihan ...

Menanggapi berita ini, banyak orang di industri berspekulasi bahwa "pabrik cangkang" yang disebutkan oleh Jia Yangqing sebenarnya adalah nol dan sepuluh ribu hal yang baru saja merilis model besar Yi-34B belum lama ini.

Sebagai model besar pertama dari tim AI Kai-Fu Lee, Yi-34B memiliki parameter 34B, juga didasarkan pada arsitektur GPT, dan telah mencapai hasil pertama dalam dua peringkat model open-source Hugging Face dan C-.

Namun, tak lama setelah model dirilis, komunitas Hugging Face meninggalkan pesan untuk Zero One Things, memintanya untuk memodifikasi model tensor.

Alasannya adalah ini: kecuali dua tensor yang telah diganti namanya, Yi menggunakan arsitektur Llama sepenuhnya.

Melihat ini, banyak orang di industri mengerutkan kening: Apakah ini "cangkang" telanjang?

Jika demikian, mengapa gelombang model besar berlalu selama lebih dari setengah tahun, dan "suasana bengkok" semacam ini masih muncul?

1

Apa itu "cangkang"?

Bahkan, tak lama setelah insiden itu pecah, Zero One Thing menanggapi, mengakui bahwa desain struktural Yi-34B didasarkan pada struktur GPT yang matang, menggambar pada hasil publik LLaMA, tetapi ini harus konsisten dengan arus utama industri dan lebih kondusif untuk adaptasi dan iterasi.

Namun, interpretasi ini melibatkan pertanyaan penting, yaitu: bagaimana mendefinisikan dengan jelas "cangkang" dan "pinjaman"?

Apakah memodifikasi dan menyesuaikan berdasarkan model open source semacam perilaku "penembakan"?

Dari sudut pandang teknis, kunci untuk menentukan apakah suatu proyek "meminjam" atau "casing" adalah mengevaluasi apakah perbaikan atau pengoptimalan yang dilakukan bersifat substantif dan asli.

Dalam prosesnya, pengembang menambahkan nilai signifikan ke model yang ada, seperti memperkenalkan teknik pemrosesan data baru, mengoptimalkan kinerja algoritma, atau mengembangkan fitur khusus untuk industri atau aplikasi.

Pada saat yang sama, pengembang sering menjelaskan model open source mana yang menjadi dasar perubahan mereka, dan menjelaskan peningkatan dan inovasi yang telah mereka buat. Pendekatan ini sejalan dengan prinsip dan semangat komunitas open source.

Sebaliknya, jika perubahan itu dangkal dan tidak memberikan wawasan teknis baru atau peningkatan kinerja yang substansial, mereka dapat dianggap casing.

Jadi kali ini Yi-34B dengan nol dan seribu hal, apakah itu dianggap cangkang?

Dilihat dari informasi yang telah dipublikasikan, pendekatan 0100000 tampaknya berada di antara "penembakan" dan "pinjaman".

Mereka memang mengandalkan arsitektur LLaMA sampai batas tertentu, tetapi mereka juga melakukan pekerjaan dan inovasi mereka sendiri dalam pemrosesan data, metode pelatihan, dll.

Misalnya, ia menggunakan pipa datanya sendiri, memilih data berkualitas tinggi dari 3PB data mentah ke token 3T, dan menguji metode Norma yang berbeda dalam lebar dan kedalaman jaringan.

Peningkatan ini mungkin tidak mudah diamati langsung dari arsitektur atau kode model, dan seringkali berada di dalam model daripada secara langsung tercermin dalam infrastruktur model.

Dalam hal ini, mungkin tidak adil untuk mengklasifikasikannya sebagai "casing" sepenuhnya.

Namun, itu tidak dapat dianggap sebagai "referensi" independen karena kesamaan yang tinggi antara arsitektur modelnya dan arsitektur LLaMA.

Ketika model baru sangat mirip atau hampir identik dengan model open source yang ada dalam hal arsitektur inti, sulit untuk dianggap sebagai "pinjaman" independen bahkan jika itu inovatif dan ditingkatkan.

2

** TEKANAN WAKTU **

Meskipun kecelakaan 010000 hal kali ini mungkin bukan "cangkang" yang lengkap, situasi "cangkang" model skala besar domestik memang sudah ada sejak lama.

Mengapa model besar domestik berulang kali "kaskade"?

Selain kekurangan daya komputasi, bakat, dan dana, yang membuat beberapa tim "mencari cara lain", alasan penting lainnya adalah bahwa jendela waktu saat ini untuk kewirausahaan model skala besar menjadi semakin ketat.

Bagaimanapun, kegemaran model besar telah membara selama lebih dari setengah tahun, dan para pemain yang seharusnya memasuki permainan telah memasuki permainan, dan pola seluruh industri pada dasarnya telah terbentuk.

Status pabrikan terkemuka telah terguncang, dan rekan-rekan asing terus berinovasi, dan benar-benar tidak ada banyak waktu tersisa untuk tim lapisan model.

Dalam kasus semakin banyak model besar serupa di pasaran, mengapa pelanggan harus tetap berpegang pada model besar yang lambat dikembangkan dan masa depan tidak begitu jelas?

Kebutuhan akan solusi cepat sudah dekat. Kebutuhan pelanggan tidak bisa menunggu. Mereka membutuhkan solusi yang bekerja sekarang, bukan bertahun-tahun dari sekarang.

Di bawah tekanan seperti itu, beberapa tim membuat pilihan: menggunakan model open source sebagai fondasi, meningkatkan dan menyesuaikannya agar sesuai dengan kebutuhan pasar.

Lagi pula, bahkan dengan talenta terbaik, proses inovasi dan pengembangan in-house panjang dan tidak pasti. Karena bidang kecerdasan buatan berkembang pesat dan berubah, ketidakpastian pasar dan teknologi berarti risiko R&D yang sangat besar.

Sebelum Oktober tahun ini, banyak tim domestik menganggap GPT-4 sebagai target "benchmarking". Namun, seperti yang diketahui semua orang, Anda maju, dan lawan Anda juga maju.

Pada akhir September, OpenAI meluncurkan DALL-E3, diikuti oleh GPT-4V dan fungsi interaksi suara, membawanya ke tingkat berikutnya di tingkat multimodal.

Pada awal November, serangkaian pembaruan "bom raja" di konferensi pengembang menghambat model domestik yang ingin menerobos di "domain lokal" dengan panjang teks yang lebih panjang, API Asisten baru, dan teknologi text-to-speech (TTS).

Dalam konteks iterasi teknologi yang cepat, banyak tim masih berjuang untuk mengembangkan model besar, yang mungkin sudah usang sebelum dirilis.

Untuk tim startup, sambil mempertahankan inovasi teknologi, perlu juga mempertimbangkan kelayakan model bisnis dan penerimaan pasar.

Model open source, yang memiliki kerangka kerja yang matang dan diakui secara luas oleh pasar, tidak diragukan lagi telah menjadi solusi andal yang dapat segera digunakan.

Dan, kerangka kerja open source yang matang sering kali memiliki komunitas dukungan yang besar, yang berarti bahwa tim bisa mendapatkan lebih banyak bantuan ketika mereka mengalami masalah.

Pada saat yang sama, pengembang lain di komunitas mungkin telah mengatasi beberapa masalah umum, dan tim dapat langsung belajar dari solusi ini untuk menghindari duplikasi usaha.

3

Model Shell, bisakah saya memilih?

Dalam hal "cangkang" model skala besar domestik telah menjadi fenomena umum dan sangat mungkin menjadi norma di masa depan, semua investor harus menghadapi masalah, yaitu:

Jika Anda bersikeras mencari perusahaan yang dapat diinvestasikan di perusahaan model besar "cangkang" ini, bagaimana Anda harus memilih?

Ketika mempertimbangkan hal ini, ada faktor yang sangat penting, yaitu:

Apakah perusahaan model skala besar ini sepenuhnya bergantung pada "cangkang" dan tidak memiliki upaya dan rencana penelitian dan pengembangan independen, atau apakah mereka menggunakan "cangkang" sebagai sarana kompromi dan transisi, tetapi memiliki rencana pengembangan jangka panjang yang jelas, visi inovatif, dan kemampuan untuk akhirnya beralih ke penelitian dan pengembangan independen?

Kedua situasi ini perlu diperlakukan secara berbeda.

Metrik penting untuk diukur ketika melihat kedua jenis perusahaan ini adalah teknologi dan peta jalan produk.

Karena peta jalan teknologi dan produk yang jelas dan berwawasan ke depan secara langsung mencerminkan niat strategis jangka panjang dan kemampuan inovasi perusahaan. Ini tidak hanya menunjukkan apakah perusahaan memiliki rencana untuk beralih dari "shell" ke penelitian dan pengembangan independen, tetapi juga menunjukkan arah pengembangan teknologi masa depan dan daya saing pasar potensial perusahaan.

Bahkan, tidak jarang dalam bisnis memasuki pasar dengan cara yang mirip dengan "shell", tetapi akhirnya mengandalkan produk yang dikembangkan sendiri untuk mendapatkan pengakuan pengguna.

Misalnya, Xiaomi di era Internet seluler adalah contoh yang jelas.

Pada awalnya, smartphone Xiaomi tampaknya bagi dunia luar hanya meniru desain dan fitur merek lain, terutama Apple. Produk awalnya dikritik karena kurangnya inovasi dan lebih mengandalkan desain dan sistem operasi yang ada (sistem MIUI berbasis Android).

Namun, Xiaomi sejak itu menunjukkan komitmen jangka panjang terhadap teknologi dan peta jalan produknya sendiri, tidak hanya dalam hal perangkat lunak (sistem MIUI), tetapi juga dalam desain perangkat keras, inovasi fungsional, dan pengalaman pengguna.

Misalnya, chip ponsel yang dikembangkan sendiri Surge S1 menandai inovasi independen Xiaomi di bidang teknologi inti ponsel.

Dengan berlalunya waktu, Xiaomi telah memperoleh peringkat yang sangat tinggi dan basis pengguna yang luas di pasar dengan teknologi yang lebih inovatif.

Demikian pula, di antara perusahaan model skala besar domestik "cangkang" saat ini, tidak dikecualikan bahwa ada beberapa perusahaan dengan rute teknis jangka panjang.

Jika Anda melihatnya dari sudut pandang ini, apa yang disebut "cangkang" tidak berarti bahwa prospek gelap model besar domestik.

Dari perspektif industri, hanya lebih banyak perusahaan dengan potensi inovasi yang selamat dari "filter besar" pada tahap awal gelombang AI, dan inovasi yang lebih independen dapat muncul di masa depan.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)