Büyük model biraz fazla değil mi?

Orijinal kaynak: Yuanchuan Bilim ve Teknoloji İncelemesi

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

Geçen ay, AI endüstrisinde bir "hayvan savaşı" patlak verdi.

Bir tarafta, açık kaynak doğası nedeniyle tarihsel olarak geliştirici topluluğu arasında popüler olan Meta'nın Llama'sı (lama) var. NEC, Llama makalesini ve kaynak kodunu dikkatlice inceledikten sonra, ChatGPT'nin Japonca sürümünü hızla "bağımsız olarak geliştirdi" ve Japonya'nın yapay zeka boyun sorununu çözmesine yardımcı oldu.

**Diğer tarafta Falcon (Şahin) adı verilen büyük bir model var. ** Bu yılın Mayıs ayında, Falcon-40B fırlatıldı ve lamayı "Açık Kaynak LLM (Büyük Dil Modeli) Sıralaması"na taşıdı.

Açık kaynaklı bir model topluluğu olan Hugging face tarafından hazırlanan liste, LLM'nin yeteneklerini ölçmek için bir dizi kriter sağlıyor ve bunları sıralıyor. Skor tablosu temel olarak Llama ve Falcon'un sırayla listelerde gezinmesidir.

Llama 2'nin piyasaya sürülmesinden sonra, lama ailesi bir şehri geri aldı; Ancak Eylül ayı başlarında, Falcon 180B versiyonunu piyasaya sürdü ve bir kez daha daha yüksek sıralamalar elde etti.

Falcon, Llama 2'yi 68.74 puanla ezdi

İlginç bir şekilde, "Falcon" geliştiricisi bir teknoloji şirketi değil, Birleşik Arap Emirlikleri'nin başkenti Abu Dabi'de bulunan Bilim ve Teknoloji İnovasyon Enstitüsü'dür. Hükümet kaynakları, "Çekirdek oyuncuları yıkmak için bu oyuna dahil olduk" dedi.[4] 。

180B sürümünün yayınlanmasından bir gün sonra, BAE Yapay Zeka Bakanı Omar, Time Dergisi tarafından "AI alanındaki en etkili 100 kişiden" biri seçildi; Bu Orta Doğulu yüzün yanı sıra "Yapay Zekanın Vaftiz Babası" Hinton, OpenAI'den Altman ve Robin Li de vardı.

BAE Yapay Zeka Bakanı

Bugün, AI alanı zaten "grup dansı" aşamasına girdi: biraz finansal kaynağa sahip tüm ülkeler ve işletmeler, "ChatGPT'nin XX ulusal versiyonunu" oluşturmak için aşağı yukarı planlara sahip. Sadece Körfez çevrelerinde birden fazla oyuncu var – Suudi Arabistan, LLM'yi eğitmek için Ağustos ayında üniversiteleri için 3.000'den fazla H100 satın aldı.

GSR River'ın risk sermayesi olan Zhu Xiaohu, bir keresinde arkadaş çevresinden şikayet etti: "O zamanlar, (İnternet'in) iş modeli yeniliğine baktım ve hiçbir engel olmadığını hissettim: yüz alay savaşı, yüz araba savaşı, yüz yayın savaşı; Sert teknoloji büyük model girişimciliğin hala yüz model savaş olduğunu beklemiyordum..."

Bir ülke olduğu söylenen yüksek zorluktaki sert teknoloji nasıl olur da mu'da 100.000 kedi üretebilir?

Transformer Dünyayı Yutuyor

Amerikalı girişimler, Çin'in teknoloji devleri ve Orta Doğulu petrol baronları, ünlü makale sayesinde büyük modeller hayal edebildiler: "İhtiyacınız Olan Tek Şey Dikkat".

2017 yılında, 8 Google bilgisayar bilimcisi bu makalede Transformer algoritmasını dünyaya açıkladı. Bu makale şu anda yapay zeka tarihinde en çok alıntı yapılan üçüncü makaledir ve Transformer'ın ortaya çıkışı, bu yapay zeka patlamasının tetiğini çekmiştir.

Hangi milletten olursa olsun, dünyayı sarsan GPT serisi de dahil olmak üzere mevcut büyük modeller Transformer'ın omuzlarında duruyor.

Bundan önce, "makinelere okumayı öğretmek" bilinen bir akademik problemdi. Görüntü tanımadan farklı olarak, insanlar metin okurken, yalnızca o anda gördükleri kelimelere ve cümlelere dikkat etmekle kalmayacak, aynı zamanda onları bağlam içinde de anlayacaklardır.

Örneğin, "Transformer" kelimesi aslında "Transformer" olarak çevrilebilir, ancak bu makalenin okuyucuları kesinlikle bu şekilde anlamayacaktır, çünkü herkes bunun Hollywood filmleri hakkında bir makale olmadığını bilir. **

Bununla birlikte, ilk yıllarda, sinir ağlarının girdileri birbirinden bağımsızdı ve büyük bir metin paragrafını ve hatta tüm makaleyi anlama yeteneğine sahip değillerdi, bu nedenle "kaynar su odasını" "açık su odasına" çevirme sorunu ortaya çıktı.

Google'da çalışan ve daha sonra OpenAI'ye geçen bir bilgisayar bilimcisi olan Ilya Sutskever, 2014 yılına kadar sonuç üreten ilk kişi değildi. Doğal dili işlemek için tekrarlayan sinir ağlarını (RNN'ler) kullandı ve Google Çeviri'nin performansını hızla rakiplerinden ayırdı.

RNN, her nöronun hem mevcut anın girdi bilgisini hem de önceki anın girdi bilgisini kabul etmesi, böylece sinir ağının "bağlamı birleştirme" yeteneğine sahip olması için bir "döngü tasarımı" önerir.

Tekrarlayan sinir ağları

RNN'lerin ortaya çıkışı, akademik çevrelerde araştırma tutkusunu ateşledi ve Transformer makalesinin yazarı Noam Shazeer de buna bağımlıydı. Ancak geliştiriciler, RNN'lerin ciddi bir kusuru olduğunu çabucak fark ettiler:

** Algoritma, bağlam sorununu çözebilen sıralı hesaplamalar kullanır, ancak çok sayıda parametreyi işlemek verimli ve zor değildir. **

RNN'nin hantal tasarımı Shazel'i hızla sıktı. Yani 2015'ten beri Shazel ve 7 arkadaşı RNN'lere alternatifler geliştiriyor ve sonuç Transformer[8] 。

Noam Shazeer

RNN'lerle karşılaştırıldığında, Transformer'ın dönüşümünün iki noktası vardır:

İlk olarak, RNN'lerin döngü tasarımı konumsal kodlama ile değiştirilir, böylece paralel hesaplama gerçekleştirilir - bu değişiklik Transformer'ın eğitim verimliliğini büyük ölçüde artırır, böylece büyük verileri işleyebilir hale gelir ve AI'yı büyük modeller çağına iter; İkincisi, bağlamı daha da güçlendirme yeteneği daha da güçlendirildi.

Transformer birçok kusuru tek seferde çözdüğü için zamanla "Transformer doğada doğmaz, NLP uzun bir gece gibidir" duygusuna sahip olan NLP'nin (doğal dil işleme) tek çözümü haline geldi. Ilya bile sunağı kendi elleriyle tutan RNN'yi terk etti ve Transformer'a geçti.

Başka bir deyişle, Transformer günümüzün tüm büyük modellerinin büyükbabasıdır, çünkü büyük modeli teorik bir araştırma probleminden tamamen mühendislik problemine dönüştürmüştür. **

[9]LLM teknoloji geliştirme ağacı diyagramı, gri ağaç kökü Transformatördür

2019'da OpenAI, bir zamanlar akademik çevreyi şaşırtan Transformer tabanlı GPT-2'yi geliştirdi. Buna yanıt olarak Google, Meena adlı daha güçlü bir yapay zekayı hızla kullanıma sundu.

GPT-2 ile karşılaştırıldığında, Meena'nın altta yatan bir algoritma yeniliği yoktur, ancak GPT-2'den 8,5 kat daha fazla eğitim parametresi ve 14 kat daha fazla bilgi işlem gücü vardır. Transformer makalesinin yazarı Shazel, "şiddetli yığın" karşısında o kadar şok oldu ki, "Meena Dünyayı Yutuyor" adlı bir not yazdı.

Transformer'ın ortaya çıkışı, akademide altta yatan algoritmaların yeniliğini büyük ölçüde yavaşlattı. Veri mühendisliği, bilgi işlem gücü ölçeği ve model mimarisi gibi mühendislik unsurları, yapay zeka rekabetinde giderek daha önemli kazananlar ve kaybedenler haline geldi ve bazı teknik yeteneklere sahip teknoloji şirketleri büyük bir modeli elle ovalayabildiği sürece.

Bu nedenle, bilgisayar bilimcisi Andrew Ng, Stanford Üniversitesi'nde bir konuşma yaptığında bir noktaya değindi: "Yapay zeka, denetimli öğrenme, denetimsiz öğrenme, pekiştirmeli öğrenme ve şimdi üretken yapay zeka dahil olmak üzere bir araçlar topluluğudur." Bunların tümü, elektrik ve internet gibi diğer genel amaçlı teknolojilere benzer şekilde genel amaçlı teknolojilerdir.[10] "

OpenAI hala LLM'nin öncüsüdür, ancak yarı iletken analist firması Semi Analysis, GPT-4'ün rekabet gücünün mühendislik çözümlerinden geldiğine inanıyor - eğer açık kaynak varsa, herhangi bir rakip hızla kopyalanabilir.

Analist, diğer büyük teknoloji şirketlerinin GPT-4 ile aynı performansa sahip büyük modeller oluşturmasının çok uzun sürmeyebileceğini tahmin ediyor[11] 。

Cam üzerine inşa edilmiş hendek

Şu anda, "yüz model savaşı" artık retorik bir araç değil, nesnel bir gerçekliktir.

İlgili raporlar, bu yılın Temmuz ayı itibariyle, yerli büyük modellerin sayısının Amerika Birleşik Devletleri'ndeki 130'ten daha yüksek olan 114'a ulaştığını, viraj geçişini başarıyla başardığını ve çeşitli efsane ve efsanelerin yerli teknoloji şirketlerinin isim alması için neredeyse yeterli olmadığını gösteriyor[12] 。

Çin ve Amerika Birleşik Devletleri'ne ek olarak, bir dizi zengin ülke de başlangıçta "bir ülke, bir model" elde etti:* * Japonya ve Birleşik Arap Emirlikleri'ne ek olarak, Hindistan hükümeti liderliğindeki büyük model Bhashini, Güney Koreli İnternet şirketi Naver'in HyperClova X'i ve benzerleri de var. **

Önümüzdeki savaş, baloncukların ve "banknot yeteneklerinin" bombardımana tutulduğu İnternet öncülüğü çağına geri dönmüş gibi görünüyor.

Daha önce de belirtildiği gibi, Transformer büyük modelleri tamamen mühendislik problemlerine dönüştürür, birisinin parası ve grafik kartları olduğu sürece gerisi parametrelere kaybolur. Ancak giriş biletini almak zor olmasa da bu, yapay zeka çağında herkesin BAT olma fırsatına sahip olduğu anlamına gelmiyor.

Başta bahsedilen "hayvan savaşı" tipik bir durumdur: Falcon sıralamada lamayı yenmiş olsa da, Meta üzerinde ne kadar etkisi olduğunu söylemek zor. **

Hepimizin bildiği gibi, işletmeler sadece bilim ve teknolojinin refahını halkla paylaşmak için değil, aynı zamanda insanların bilgeliğini harekete geçirmek için kendi bilimsel araştırma sonuçlarını açık kaynaklı hale getirirler. Üniversite profesörleri, araştırma kurumları ve küçük ve orta ölçekli işletmeler Llama'yı kullanmaya ve geliştirmeye devam ettikçe Meta bu sonuçları kendi ürünlerine uygulayabilir.

**Açık kaynak modeli için, aktif bir geliştirici topluluğu temel yetkinliğidir. **

Yapay Zeka Laboratuvarı'nın kurulduğu 2015 gibi erken bir tarihte Meta, açık kaynağın ana tonunu belirlemişti; Zuckerberg ayrıca sosyal medya işinde de servet kazandı ve "halkla ilişkilerde iyi bir iş çıkarma" konusunda çok bilgili.

Örneğin, Ekim ayında Meta bir "AI Creator Incentive" kampanyası başlattı: Llama 2'yi eğitim ve çevre gibi sosyal sorunları çözmek için kullanan geliştiriciler, 500.000 dolarlık fon alma fırsatına sahip olacak.

Bugün, Meta'nın Llama serisi, açık kaynaklı LLM'nin kanadıdır.

Ekim ayı başı itibariyle, Hugging Face'in en iyi 10 açık kaynaklı LLM listesinin toplam 8'i Llama 2'ye dayanıyor ve açık kaynak lisansını kullanıyor. Yalnızca Hugging face'de, Llama 2 açık kaynak protokolünü kullanan 1.500'den fazla LLM var[13] 。

Ekim ayı başı itibariyle, Hugging face'deki bir numaralı LLM, Llama 2'ye dayanıyor

Tabii ki, Falcon gibi performansı artırmak sorun değil, ancak bugüne kadar piyasadaki çoğu LLM'nin GPT-4 ile hala gözle görülür bir performans farkı var.

Örneğin, geçen gün GPT-4, AgentBench testinde 4.41 puanla zirvede yer aldı. AgentBench standardı, işletim sistemi, veritabanı, bilgi grafiği ve kart savaşı gibi 8 farklı ortamdaki görevler de dahil olmak üzere çok boyutlu bir açık üretim ortamında LLM'nin akıl yürütme yeteneğini ve karar verme yeteneğini değerlendirmek için Tsinghua Üniversitesi, Ohio Eyalet Üniversitesi ve California Üniversitesi, Berkeley tarafından ortaklaşa başlatılmıştır.

Test sonuçları, ikinci olan Claude'un sadece 2.77 puana sahip olduğunu ve farkın hala açık olduğunu gösterdi. Bu devasa açık kaynaklı LLM'lere gelince, test puanları GPT-4'ün 1/4'ünden daha az, 1 puan civarında seyrediyor[14] 。

AgentBench test sonuçları

Biliyorsunuz, GPT-4 bu yıl Mart ayında piyasaya sürüldü ve bu, küresel akranların altı aydan fazla bir süredir arayı kapatmasının ardından hala sonuç. Bu boşluğa neden olan şey, OpenAI'nin yüksek "IQ yoğunluğuna" ve uzun vadeli araştırma LLM'sine sahip bilim adamları ekibinin biriktirdiği deneyimdir, bu nedenle her zaman çok ileride olabilir.

Başka bir deyişle, büyük modelin temel yeteneği bir parametre değil, ekolojinin inşası (açık kaynak) veya saf akıl yürütme yeteneğidir (kapalı kaynak). **

Açık kaynak topluluğu daha aktif hale geldikçe, hepsi benzer model mimarileri ve benzer veri kümeleri kullandığından LLM'lerin performansı birleşebilir.

Daha sezgisel bir muamma daha: Midjourney dışında hiçbir büyük model para kazanmıyor gibi görünüyor.

Değer Çıpası

Bu yılın Ağustos ayında "OpenAI 2024'ün sonunda iflas edebilir" başlıklı ilginç bir makale oldukça ilgi gördü[16] 。 Makalenin ana itici gücü neredeyse tek bir cümleyle özetlenebilir: OpenAI'nin para yakması çok hızlı. **

Makalede, ChatGPT'nin geliştirilmesinden bu yana OpenAI'nin kayıplarının hızla arttığı, yalnızca 2022'de yaklaşık 540 milyon dolar kaybettiği ve yalnızca Microsoft yatırımcılarının ödeme yapmasını bekleyebileceği belirtildi.

Yazının başlığı sansasyonel olsa da birçok büyük model sağlayıcının mevcut durumunu da anlatıyor: ** Maliyet ve gelir arasında ciddi bir dengesizlik var. **

Maliyet çok yüksek, bu da sadece NVIDIA'nın çok para kazanması için yapay zekaya olan mevcut güvene neden oluyor, en fazla bir Broadcom ekliyor.

Danışmanlık firması Omdia'ya göre Nvidia, bu yılın ikinci çeyreğinde 300.000'den fazla H100 sattı. Bu bir yapay zeka çipi, yapay zeka eğitiminin verimliliği son derece yüksek ve dünyanın dört bir yanındaki teknoloji şirketleri ve bilimsel araştırma kurumları kapanıyor. Satılan 300.000 H100 üst üste istiflenseydi, 4.5 Boeing 747 uçağına eşdeğer ağırlıkta olacaklardı[18] 。

Nvidia'nın performansı da yükselişe geçti ve bir zamanlar Wall Street'in çenesini şok eden yıllık %854 gelir elde etti. Bu arada, H100'ün ikinci el piyasasındaki mevcut fiyatı 40.000-50.000 dolar olarak tahmin ediliyor, ancak malzeme maliyeti sadece 3.000 dolar civarında.

Bilgi işlem gücünün yüksek maliyeti, bir dereceye kadar endüstrinin gelişmesine karşı bir direnç haline geldi. Sequoia Capital bir hesaplama yaptı: ** küresel teknoloji şirketlerinin büyük model altyapı inşaatına yılda 200 milyar dolar harcaması bekleniyor; Buna karşılık, büyük modeller en az 125 milyar dolarlık bir boşlukla yılda yalnızca 75 milyar dolara kadar üretebilir[17] 。 **

H100 ile Jensen Huang

Ayrıca Midjourney gibi birkaç istisna dışında çoğu yazılım şirketi büyük maliyetler ödedikten sonra nasıl para kazanılacağını henüz çözebilmiş değil. Özellikle, sektörün önde gelen iki ağabeyi Microsoft ve Adobe biraz tökezledi.

Microsoft ve OpenAI, ayda 10 ABD doları ücret alan bir yapay zeka kod oluşturma aracı olan GitHub Copilot'u geliştirmek için işbirliği yaptı, ancak tesislerin maliyeti nedeniyle Microsoft 20 ABD doları kaybediyor ve yoğun kullanıcılar Microsoft'un ayda 80 ABD doları ödemesini bile sağlayabiliyor. Bu spekülasyona dayanarak, 30 dolarlık Microsoft 365 Copilot bir kayıp değil.

Tesadüfen, Firefly AI aracını yeni piyasaya süren Adobe, kullanıcıların yoğun bir şekilde kullanmasını ve şirketin para kaybetmesine neden olmasını önlemek için hızlı bir şekilde destekleyici bir puan sistemi başlattı. Bir kullanıcı her ay tahsis edilen kredilerden daha fazlasını kullandığında, Adobe hizmeti yavaşlatır.

Microsoft ve Adobe'nin zaten net iş senaryoları ve çok sayıda hazır ödeme yapan kullanıcısı olan yazılım devleri olduğunu bilmelisiniz. Parametrelerin çoğu gökyüzünde yığılmıştır ve en büyük uygulama senaryosu sohbettir.

OpenAI ve ChatGPT'nin ortaya çıkması olmasaydı, bu yapay zeka devriminin hiç gerçekleşmeyebileceği yadsınamaz; Ancak şu anda, büyük modelleri eğitmenin değeri bir soru işareti olabilir.

Ayrıca, homojenizasyon rekabeti yoğunlaştıkça ve piyasada giderek daha fazla açık kaynaklı model oldukça, basit büyük model satıcılar için daha az yer olabilir.

İPhone 4'ün popülaritesi 45nm A4 işlemciden değil, Plants vs. Zombies ve Angry Birds oynayabildiği için.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)