Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu
En çok beklenen oyunculardan biri olan 100 modellik savaş nihayet resmi çıkışını yaptı!
Dr. Kai-Fu Lee tarafından kurulan AI 2.0 şirketinin ilk açık kaynaklı modelidir.
Yi-34B和Yi-6B。
Yi serisi büyük modeller nispeten geç piyasaya sürülmüş olsa da, etki açısından kesinlikle geç gelen olarak adlandırılabilir.
Vurulur vurulmaz dünya çapında birçok ilke imza attı**:
Hugging Face, 2B boyutundaki Llama-2 70B ve Falcon-180B gibi bir dizi büyük ölçekli modeli ezerek İngilizce test listesinde ilk sırada yer aldı;
HuggingFace'in zirvesine başarıyla ulaşan tek yerli büyük ölçekli model;
C-Çin yeteneği, dünyadaki tüm açık kaynak modellerini geride bırakarak ilk sırada yer alıyor;
MMLU, BBH ve diğer sekiz kapsamlı yeteneğin tümü performansı kazandı;
Ultra uzun metin girişi için 400.000 Çince karakteri doğrudan işleyebilen 200K'ya ulaşarak dünyanın en uzun bağlam penceresinin tahtını kazandı.
......
Zero One Thousand Things ve büyük modelinin bir gecede elde edilmediğini, ancak yarım yıldan fazla bir süredir demlendiğini belirtmekte fayda var.
Bu kaçınılmaz olarak birçok soruyu gündeme getiriyor:
Örneğin, neden yarım yıl geri durmak ve yıl sonuna doğru çekim yapmayı seçmek istiyorsunuz?
Bir başka örnek ise ilk seferde bu kadar çok ilke nasıl ulaşılacağıdır?
Bu sorularla Zero One Everything ile özel bir iletişim gerçekleştirdik ve şimdi sırları tek tek ortaya çıkaracağız.
100 milyar parametreli büyük modeli yenin
Özellikle, yeni piyasaya sürülen ve açık kaynaklı Yi serisi büyük modellerin iki ana özelliği vardır:
100 milyar parametre modelini yenmek için "Küçükle büyük kazanın"
Dünyanın en uzun bağlam penceresi 400.000 kelimeyi destekler
Hugging Face'in önceden eğitilmiş açık kaynaklı modelleri sıralamasında Yi-34B, LLaMA-70B ve Falcon-180B'yi geride bırakarak 70,72 puanla dünyada ilk sırada yer aldı.
Yi-34B'nin parametre sayısının, son ikisinin yalnızca 1/2, 1/5 olduğunu bilmelisiniz. Listeyi sadece "küçük ve büyük" ile kazanmakla kalmadı, aynı zamanda 100 milyar ölçekli 100 milyar seviyesindeki büyük modeli yenerek büyüklükte bir sollama sırası elde etti.
Bunlar arasında Yi-34B, MMLU (Massive Multi-task Language Understanding) ve TruthfulQA (Authenticity Benchmark) olmak üzere iki göstergede diğer büyük modellerden büyük ölçüde daha iyi performans gösterdi.
** **##### △Hugging Face Open LLM Leaderboard (önceden eğitilmiş) Large Model Leaderboard, Yi-34B listenin başında (5 Kasım 2023)
Çince yeterliliğine odaklanan Yi-34B, C-Çince yeterlilik sıralamasında tüm açık kaynaklı modellerden daha iyi performans gösteriyor.
Benzer şekilde, açık kaynaklı Yi-6B, aynı ölçekteki tüm açık kaynaklı modelleri geride bırakıyor.
** **###### △C- Liderlik Tablosu: Halka açık model, Yi-34B dünyada 1 numara (5 Kasım 2023)
CMMLU, E- ve Gaokao'nun üç ana Çince göstergesinde **, GPT-4'ün önemli ölçüde önündedir ve Çince'nin güçlü avantajını gösterir ve kökler hakkında daha fazla şey biliyoruz
。
BooIQ ve OBQA açısından GPT-4 ile aynı seviyededir.
Buna ek olarak, büyük modellerin en kritik değerlendirme göstergeleri olan MMLU (Massive Multitask Language Understanding) ve BBH gibi modelin kapsamlı yeteneğini yansıtan değerlendirme setinde Yi-34B, genel yetenek, bilgi akıl yürütme, okuduğunu anlama ve diğer göstergelerin değerlendirilmesinde öne çıkıyor ve bu da Hugging Face değerlendirmesi ile oldukça tutarlı.
###### △Her değerlendirme kümesinin puanı: Yi model v.s. Diğer açık kaynak modelleri
Ancak sürümde 010000, Yi serisi modellerin GSM8k ve MBPP'nin matematiksel ve kod değerlendirmelerinde GPT modelleri kadar iyi performans göstermediğini de söyledi.
Bunun nedeni, ekibin eğitim öncesi aşamada modelin genel özelliklerini mümkün olduğunca korumak istemesi ve bu nedenle eğitim verilerine çok fazla matematik ve kod verisi eklememesidir.
Şu anda, ekip matematik yönünde araştırmalar yürütüyor ve matematik problemlerini çözmek için CoT ve PoT kullanarak genel matematik problemlerini çözebilen ve tüm ölçek versiyonlarında ve dahili ve harici test setlerinde SOTA modelinden daha üstün olan büyük bir model MammoTH öneriyor. Bunlar arasında MammoTH-34B, MATH'de %44'lük bir doğruluk oranına sahiptir ve bu, GPT-4'ün CoT sonucunu aşmaktadır.
Takip eden Yi serisi, kod ve matematik konusunda uzmanlaşmış sürekli bir eğitim modeli de başlatacak.
Göz kamaştırıcı sonuçlara ek olarak, Yi-34B, yaklaşık 400.000 Çince karakterden oluşan ultra uzun metin girişini işleyebilen büyük model bağlam penceresinin uzunluğunu 200K'ya yeniledi.
Bu, iki "Üç Cisim Problemi 1" romanını** aynı anda işleyebilmek** ilebilmek, 1000'den fazla sayfadan oluşan PDF belgelerini anlayabilmek** ve hatta harici bilgi tabanları oluşturmak için vektör veritabanlarına dayanan birçok senaryoyu değiştirebilmek ile eşdeğerdir.
Ultra uzun bağlam penceresi, büyük modelin gücünü yansıtmak için önemli bir boyuttur ve daha uzun bir bağlam penceresine sahip olmak, daha zengin bilgi bankası bilgilerini işleyebilir, daha tutarlı ve doğru metinler oluşturabilir ve büyük modelin belge özetleme/Soru-Cevap gibi görevleri daha iyi işlemesini destekleyebilir.
Büyük modellerin (finans, hukuk, finans vb.) birçok dikey endüstri uygulamasında, belge işleme yeteneklerine sadece ihtiyaç duyulduğunu bilmek önemlidir.
Örneğin, GPT-4 32K, yaklaşık 25.000 karakteri destekleyebilir ve Claude 2, 100K, yaklaşık 200.000 karakteri destekleyebilir.
Zero One Everything sadece endüstri rekorunu yenilemekle kalmadı, aynı zamanda açık kaynak topluluğunda ultra uzun bir bağlam penceresi açan ilk büyük ölçekli model şirket oldu.
Peki, Yi serisi nasıl yapılır?
Süper Infra+ kendi geliştirdiği eğitim platformu
Zero One Ten Thousand Things, Yi serisinin sırrının iki yönden geldiğini söylüyor:
Kendi geliştirdiği büyük ölçekli eğitim deneysel platformu
Süper Altyapı ekibi
Yukarıdaki ikisinin birleşimi, büyük model eğitim sürecini daha verimli, doğru ve otomatik hale getirebilir. Mevcut çok modlu yakın dövüşte değerli zamandan, hesaplamadan ve işçilik maliyetlerinden tasarruf edin.
Yi serisi büyük modellerin "yavaş" olmasının nedenlerinden biri de bunlar, aynı zamanda onlar yüzünden "yavaş hızlı".
İlk olarak model eğitimi kısmına bakalım.
Bu, büyük modellerin yeteneğinin temelini atmanın bir parçasıdır ve eğitim verilerinin ve yöntemlerinin kalitesi, modelin nihai etkisi ile doğrudan ilişkilidir.
Bu nedenle, 010000 kendi akıllı veri işleme hattını ve büyük ölçekli eğitim deneysel platformunu oluşturmuştur.
Akıllı veri işleme hattı verimli, otomatik, değerlendirilebilir ve ölçeklenebilirdir ve ekip eski Google büyük veri ve bilgi grafiği uzmanları tarafından yönetilmektedir.
"Büyük Ölçekli Eğitim Deney Platformu", modellerin tasarımına ve optimizasyonuna rehberlik edebilir, model eğitim verimliliğini artırabilir ve bilgi işlem kaynaklarının israfını azaltabilir.
Bu platforma dayanarak, Yi-34B'nin her bir düğümünün tahmin hatası, veri eşleştirme, hiper parametre arama ve model yapısı deneyleri gibi %0,5 içinde kontrol edilir.
Sonuç olarak, önceki "kapsamlı simya" eğitimi ile karşılaştırıldığında, Yi serisi büyük modellerin eğitimi "model eğitim bilimi"ne ilerlemiştir: daha ayrıntılı ve bilimsel hale gelmiştir, deneysel sonuçlar daha kararlı olabilir ve modelin ölçeği gelecekte daha hızlı genişletilebilir.
Infra kısmına bakalım.
AI Infra, işlemciler, işletim sistemleri, depolama sistemleri, ağ altyapısı, bulut bilişim platformları vb. dahil olmak üzere büyük modellerin eğitimi ve dağıtımında çeşitli temel teknik olanakları içeren yapay zekanın temel çerçeve teknolojisini ifade eder.
Eğitim süreci modelin kalitesinin temelini atacaksa, AI Infra bu bağlantı için bir garanti sağlayarak temeli daha sağlam hale getirir ve aynı zamanda doğrudan büyük modelin alt katmanıyla da ilgilidir.
Zero One Everything ekibi bunu açıklamak için daha canlı bir metafor kullandı:
Büyük model eğitimi dağcılık ise, Infra'nın yetenekleri, büyük model eğitim algoritması ile model arasındaki yetenek sınırını, yani "dağcılık yüksekliği" tavanını tanımlar.
Özellikle sektördeki mevcut bilgi işlem kaynakları sıkıntısında, büyük modellerin araştırma ve geliştirmesinin daha hızlı ve daha istikrarlı bir şekilde nasıl teşvik edileceği çok önemlidir.
Bu yüzden Zero One, Infra kısmını çok ciddiye alıyor.
Kai-Fu Lee ayrıca büyük ölçekli model Infra yapan kişilerin algoritmik yeteneklerden daha az olduğunu söyledi.
Infra ekibi, yüz milyarlarca büyük modelin büyük ölçekli eğitimini desteklemeye katıldı.
Onların desteğiyle, Yi-34B modelinin eğitim maliyeti% 40 oranında azaltıldı ve 100 milyar yuan simülasyon ölçeğinin eğitim maliyeti% 50'ye kadar azaltılabilir. Gerçek eğitim, standart zaman alanının tahmin süresini tamamlarhata 1 saatten azdır - bilirsiniz, genellikle endüstri birkaç günü hata olarak ayırır.
Ekibe göre, şimdiye kadar, 010000 Infra yeteneğinin hata tahmin doğruluk oranı %90'ı aştı, arıza erken tespit oranı %99,9'a ulaştı ve manuel katılım olmadan arıza kendi kendini iyileştirme oranı %95'i aştı, bu da model eğitiminin sorunsuz ilerlemesini etkili bir şekilde sağlayabilir.
Kai-Fu Lee, Yi-34B'nin ön eğitimini tamamlarken, 100 milyar seviyeli parametre modelinin eğitiminin resmi olarak başlatıldığını açıkladı.
Ve daha büyük modellerin herkesin beklediğinden daha hızlı satışa sunulacağını ima ediyor:
Zero-One'ın veri işleme hatları, algoritma araştırması, deney platformları, GPU kaynakları ve AI Infra'sı hazır ve daha hızlı ve daha hızlı hareket edeceğiz.
Önleyici Sıfır Bir Şeyler
Son olarak başta bahsettiğimiz soruları cevaplayalım.
Zero One Everything'in yıl sonunda "geç trene" binmeyi seçmesinin nedeni aslında kendi hedefleriyle yakından ilgili.
Kai-Fu Lee'nin bu sürümde belirttiği gibi:
Zero One Everything, işe alınan ilk kişiden, yazılan ilk kod satırına ve tasarlanan ilk modele kadar dünyanın ilk kademe hedefine sağlam bir şekilde girmiş, her zaman "Dünyanın 1 Numarası" olma niyetini ve kararlılığını korumuştur.
Ve ilk olmak için, ilk çıkışınızda gişe rekorları kıran bir film elde etmek için mizaca dayanabilmeniz ve sağlam bir temel oluşturmaya konsantre olmanız gerekir.
Sadece bu da değil, Zero One Things'in kurulduğu sırada, başlangıç noktası diğer büyük ölçekli model üreticilerininkinden temelde farklıydı.
Sıfır, sıfırdan bire kadar tüm dijital dünyayı temsil eder ve hatta evrendeki her şey, sözde Tao bir kişiyi doğurur... Her şeyi doğurmak, "sıfır bir zeka, her şey güçlendirilmiş" hırsı anlamına gelir.
Bu aynı zamanda Kai-Fu Lee'nin AI2.0 hakkındaki düşüncesi ve yargısıyla da tutarlıdır, ChatGPT büyük modellerde patlamayı yönlendirdikten sonra, bir keresinde kamuoyuna şunları söyledi:
AI 2.0 çağı, kaide modelinin atılımıyla birlikte, teknolojiden platforma ve uygulamaya kadar birçok düzeyde bir devrim başlatacak. Tıpkı Windows'un PC'lerin popülerleşmesini yönlendirmesi gibi, Android de mobil İnternet'in ekolojisini doğurdu, AI2.0, mobil İnternet'ten on kat daha büyük platform fırsatları doğuracak, mevcut yazılımı, kullanıcı arayüzünü ve uygulamaları yeniden yazacak, ayrıca yeni bir yapay zeka öncelikli uygulama grubunu doğuracak ve yapay zeka liderliğindeki iş modellerini doğuracak.
** Konsept yapay zeka önceliklidir, itici güç teknik vizyondur **, mükemmel Çin mühendislik mirası tarafından desteklenmektedir, atılım noktası, birden fazla teknoloji, platform ve uygulama seviyesini kapsayan kaide modelidir.
Bu amaçla, Zero One'ın kuruluşundan bu yana seçtiği girişimcilik rotası, kendi geliştirdiği bir modeldir.
Geç piyasaya sürülmesine rağmen, hız açısından kesinlikle yavaş değil.
Örneğin, ilk üç ayda 010000000000, 10 milyar parametre ölçeğinde model dahili testi gerçekleştirdi; Üç ay sonra, 34B parametre ölçeği ile dünyanın ilkinin kilidini açabilirsiniz.
Böyle bir hız ve bu kadar yüksek bir hedef, 01000000000'in arkasındaki güçlü ekip gücünden ayrılamaz.
Zero One Everything** kişisel olarak Dr. Kai-Fu Lee tarafından yönetilmektedir ve CEO olarak görev yapmaktadır**.
Zero One, erken aşamada, büyük model teknolojisi, yapay zeka algoritmaları, doğal dil işleme, sistem mimarisi, bilgi işlem mimarisi, veri güvenliği, ürün araştırma ve geliştirme ve diğer alanlara odaklanan düzinelerce çekirdek üyeden oluşan bir ekip topladı.
Bunlar arasında, katılan ortak ekibin üyeleri arasında Alibaba'nın eski başkan yardımcısı, Baidu'nun eski başkan yardımcısı, Google Çin'in eski yöneticisi ve Microsoft/SAP/Cisco'nun eski başkan yardımcısı yer alıyor ve algoritma ve ürün ekiplerinin geçmişi büyük yerli ve yabancı üreticilerden.
Algoritma ve model ekibinin üyelerini örnek alırsak, makaleleri GPT-4 tarafından alıntılanan algoritma ustaları, Microsoft'un dahili araştırma ödüllerini kazanan seçkin araştırmacılar ve Alibaba CEO Özel Ödülü'nü kazanan süper mühendisler var. Toplamda, ICLR, NeurIPS, CVPR ve ICCV gibi tanınmış akademik konferanslarda büyük modellerle ilgili 100'den fazla akademik makale yayınlamıştır.
Ayrıca, kuruluşunun başlangıcında 010000, eğitim, ayarlama ve çıkarım için binlerce GPU'dan oluşan bir küme oluşturarak deneysel bir platform oluşturmaya başladı. Veriler açısından ana odak noktası, geçerli parametrelerin sayısını ve kullanılan yüksek kaliteli verilerin yoğunluğunu iyileştirmektir.
Bundan, sıfır bir şeyin Yi serisi modelinin güveninin geriye doğru vurmaya cesaret etmek olduğunu görmek zor değil.
Yi serisi büyük modellere dayanarak, daha nicel sürümleri, diyalog modellerini, matematiksel modelleri, kod modellerini ve çok modlu modelleri hızlı bir şekilde yineleyeceği ve açık kaynak sağlayacağı anlaşılmaktadır.
Sonuç olarak, 010.000 şeyin karanlık atının girmesiyle, 100 modelin savaşı daha yoğun ve canlı hale geldi.
Yi serisi büyük modelin gelecekte kaç tane "küresel ilk" yapacağını dört gözle beklemeye değer.
Bir Şey Daha
Neden "Yi" adı? **
Adı, "一" kelimesinin pinyininden gelir ve "Yi" deki "Y" baş aşağıdır, akıllıca Çince "insan" karakterine benzer ve İnsan + AI'yı temsil eden AI'daki i ile birleştirilir.
Yapay zekanın güçlendirilmesinin insan toplumunu ileriye taşıyacağına ve yapay zekanın insanları ilk sıraya koyma ruhuyla insanlar için büyük değer yaratması gerektiğine inanıyoruz.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
En güçlü açık kaynaklı model el değiştiriyor mu? Kai-Fu Lee, ekibi birçok küresel listenin zirvesine taşıdı ve 400.000 metin işleme rekor kırdı
Orijinal kaynak: kübitler
En çok beklenen oyunculardan biri olan 100 modellik savaş nihayet resmi çıkışını yaptı!
Dr. Kai-Fu Lee tarafından kurulan AI 2.0 şirketinin ilk açık kaynaklı modelidir.
Yi-34B和Yi-6B。
Vurulur vurulmaz dünya çapında birçok ilke imza attı**:
Bu kaçınılmaz olarak birçok soruyu gündeme getiriyor:
Örneğin, neden yarım yıl geri durmak ve yıl sonuna doğru çekim yapmayı seçmek istiyorsunuz?
Bir başka örnek ise ilk seferde bu kadar çok ilke nasıl ulaşılacağıdır?
Bu sorularla Zero One Everything ile özel bir iletişim gerçekleştirdik ve şimdi sırları tek tek ortaya çıkaracağız.
100 milyar parametreli büyük modeli yenin
Özellikle, yeni piyasaya sürülen ve açık kaynaklı Yi serisi büyük modellerin iki ana özelliği vardır:
Hugging Face'in önceden eğitilmiş açık kaynaklı modelleri sıralamasında Yi-34B, LLaMA-70B ve Falcon-180B'yi geride bırakarak 70,72 puanla dünyada ilk sırada yer aldı.
Yi-34B'nin parametre sayısının, son ikisinin yalnızca 1/2, 1/5 olduğunu bilmelisiniz. Listeyi sadece "küçük ve büyük" ile kazanmakla kalmadı, aynı zamanda 100 milyar ölçekli 100 milyar seviyesindeki büyük modeli yenerek büyüklükte bir sollama sırası elde etti.
Bunlar arasında Yi-34B, MMLU (Massive Multi-task Language Understanding) ve TruthfulQA (Authenticity Benchmark) olmak üzere iki göstergede diğer büyük modellerden büyük ölçüde daha iyi performans gösterdi.
**
**##### △Hugging Face Open LLM Leaderboard (önceden eğitilmiş) Large Model Leaderboard, Yi-34B listenin başında (5 Kasım 2023)
Çince yeterliliğine odaklanan Yi-34B, C-Çince yeterlilik sıralamasında tüm açık kaynaklı modellerden daha iyi performans gösteriyor.
Benzer şekilde, açık kaynaklı Yi-6B, aynı ölçekteki tüm açık kaynaklı modelleri geride bırakıyor.
**
**###### △C- Liderlik Tablosu: Halka açık model, Yi-34B dünyada 1 numara (5 Kasım 2023)
CMMLU, E- ve Gaokao'nun üç ana Çince göstergesinde **, GPT-4'ün önemli ölçüde önündedir ve Çince'nin güçlü avantajını gösterir ve kökler hakkında daha fazla şey biliyoruz
BooIQ ve OBQA açısından GPT-4 ile aynı seviyededir.
Ancak sürümde 010000, Yi serisi modellerin GSM8k ve MBPP'nin matematiksel ve kod değerlendirmelerinde GPT modelleri kadar iyi performans göstermediğini de söyledi.
Bunun nedeni, ekibin eğitim öncesi aşamada modelin genel özelliklerini mümkün olduğunca korumak istemesi ve bu nedenle eğitim verilerine çok fazla matematik ve kod verisi eklememesidir.
Şu anda, ekip matematik yönünde araştırmalar yürütüyor ve matematik problemlerini çözmek için CoT ve PoT kullanarak genel matematik problemlerini çözebilen ve tüm ölçek versiyonlarında ve dahili ve harici test setlerinde SOTA modelinden daha üstün olan büyük bir model MammoTH öneriyor. Bunlar arasında MammoTH-34B, MATH'de %44'lük bir doğruluk oranına sahiptir ve bu, GPT-4'ün CoT sonucunu aşmaktadır.
Takip eden Yi serisi, kod ve matematik konusunda uzmanlaşmış sürekli bir eğitim modeli de başlatacak.
Bu, iki "Üç Cisim Problemi 1" romanını** aynı anda işleyebilmek** ilebilmek, 1000'den fazla sayfadan oluşan PDF belgelerini anlayabilmek** ve hatta harici bilgi tabanları oluşturmak için vektör veritabanlarına dayanan birçok senaryoyu değiştirebilmek ile eşdeğerdir.
Büyük modellerin (finans, hukuk, finans vb.) birçok dikey endüstri uygulamasında, belge işleme yeteneklerine sadece ihtiyaç duyulduğunu bilmek önemlidir.
Örneğin, GPT-4 32K, yaklaşık 25.000 karakteri destekleyebilir ve Claude 2, 100K, yaklaşık 200.000 karakteri destekleyebilir.
Zero One Everything sadece endüstri rekorunu yenilemekle kalmadı, aynı zamanda açık kaynak topluluğunda ultra uzun bir bağlam penceresi açan ilk büyük ölçekli model şirket oldu.
Peki, Yi serisi nasıl yapılır?
Süper Infra+ kendi geliştirdiği eğitim platformu
Zero One Ten Thousand Things, Yi serisinin sırrının iki yönden geldiğini söylüyor:
Yukarıdaki ikisinin birleşimi, büyük model eğitim sürecini daha verimli, doğru ve otomatik hale getirebilir. Mevcut çok modlu yakın dövüşte değerli zamandan, hesaplamadan ve işçilik maliyetlerinden tasarruf edin.
Yi serisi büyük modellerin "yavaş" olmasının nedenlerinden biri de bunlar, aynı zamanda onlar yüzünden "yavaş hızlı".
İlk olarak model eğitimi kısmına bakalım.
Bu, büyük modellerin yeteneğinin temelini atmanın bir parçasıdır ve eğitim verilerinin ve yöntemlerinin kalitesi, modelin nihai etkisi ile doğrudan ilişkilidir.
Bu nedenle, 010000 kendi akıllı veri işleme hattını ve büyük ölçekli eğitim deneysel platformunu oluşturmuştur.
Akıllı veri işleme hattı verimli, otomatik, değerlendirilebilir ve ölçeklenebilirdir ve ekip eski Google büyük veri ve bilgi grafiği uzmanları tarafından yönetilmektedir.
"Büyük Ölçekli Eğitim Deney Platformu", modellerin tasarımına ve optimizasyonuna rehberlik edebilir, model eğitim verimliliğini artırabilir ve bilgi işlem kaynaklarının israfını azaltabilir.
Bu platforma dayanarak, Yi-34B'nin her bir düğümünün tahmin hatası, veri eşleştirme, hiper parametre arama ve model yapısı deneyleri gibi %0,5 içinde kontrol edilir.
Sonuç olarak, önceki "kapsamlı simya" eğitimi ile karşılaştırıldığında, Yi serisi büyük modellerin eğitimi "model eğitim bilimi"ne ilerlemiştir: daha ayrıntılı ve bilimsel hale gelmiştir, deneysel sonuçlar daha kararlı olabilir ve modelin ölçeği gelecekte daha hızlı genişletilebilir.
AI Infra, işlemciler, işletim sistemleri, depolama sistemleri, ağ altyapısı, bulut bilişim platformları vb. dahil olmak üzere büyük modellerin eğitimi ve dağıtımında çeşitli temel teknik olanakları içeren yapay zekanın temel çerçeve teknolojisini ifade eder.
Eğitim süreci modelin kalitesinin temelini atacaksa, AI Infra bu bağlantı için bir garanti sağlayarak temeli daha sağlam hale getirir ve aynı zamanda doğrudan büyük modelin alt katmanıyla da ilgilidir.
Zero One Everything ekibi bunu açıklamak için daha canlı bir metafor kullandı:
Özellikle sektördeki mevcut bilgi işlem kaynakları sıkıntısında, büyük modellerin araştırma ve geliştirmesinin daha hızlı ve daha istikrarlı bir şekilde nasıl teşvik edileceği çok önemlidir.
Bu yüzden Zero One, Infra kısmını çok ciddiye alıyor.
Kai-Fu Lee ayrıca büyük ölçekli model Infra yapan kişilerin algoritmik yeteneklerden daha az olduğunu söyledi.
Infra ekibi, yüz milyarlarca büyük modelin büyük ölçekli eğitimini desteklemeye katıldı.
Onların desteğiyle, Yi-34B modelinin eğitim maliyeti% 40 oranında azaltıldı ve 100 milyar yuan simülasyon ölçeğinin eğitim maliyeti% 50'ye kadar azaltılabilir. Gerçek eğitim, standart zaman alanının tahmin süresini tamamlarhata 1 saatten azdır - bilirsiniz, genellikle endüstri birkaç günü hata olarak ayırır.
Ekibe göre, şimdiye kadar, 010000 Infra yeteneğinin hata tahmin doğruluk oranı %90'ı aştı, arıza erken tespit oranı %99,9'a ulaştı ve manuel katılım olmadan arıza kendi kendini iyileştirme oranı %95'i aştı, bu da model eğitiminin sorunsuz ilerlemesini etkili bir şekilde sağlayabilir.
Kai-Fu Lee, Yi-34B'nin ön eğitimini tamamlarken, 100 milyar seviyeli parametre modelinin eğitiminin resmi olarak başlatıldığını açıkladı.
Ve daha büyük modellerin herkesin beklediğinden daha hızlı satışa sunulacağını ima ediyor:
Önleyici Sıfır Bir Şeyler
Son olarak başta bahsettiğimiz soruları cevaplayalım.
Zero One Everything'in yıl sonunda "geç trene" binmeyi seçmesinin nedeni aslında kendi hedefleriyle yakından ilgili.
Kai-Fu Lee'nin bu sürümde belirttiği gibi:
Ve ilk olmak için, ilk çıkışınızda gişe rekorları kıran bir film elde etmek için mizaca dayanabilmeniz ve sağlam bir temel oluşturmaya konsantre olmanız gerekir.
Sadece bu da değil, Zero One Things'in kurulduğu sırada, başlangıç noktası diğer büyük ölçekli model üreticilerininkinden temelde farklıydı.
Sıfır, sıfırdan bire kadar tüm dijital dünyayı temsil eder ve hatta evrendeki her şey, sözde Tao bir kişiyi doğurur... Her şeyi doğurmak, "sıfır bir zeka, her şey güçlendirilmiş" hırsı anlamına gelir.
** Konsept yapay zeka önceliklidir, itici güç teknik vizyondur **, mükemmel Çin mühendislik mirası tarafından desteklenmektedir, atılım noktası, birden fazla teknoloji, platform ve uygulama seviyesini kapsayan kaide modelidir.
Bu amaçla, Zero One'ın kuruluşundan bu yana seçtiği girişimcilik rotası, kendi geliştirdiği bir modeldir.
Geç piyasaya sürülmesine rağmen, hız açısından kesinlikle yavaş değil.
Örneğin, ilk üç ayda 010000000000, 10 milyar parametre ölçeğinde model dahili testi gerçekleştirdi; Üç ay sonra, 34B parametre ölçeği ile dünyanın ilkinin kilidini açabilirsiniz.
Böyle bir hız ve bu kadar yüksek bir hedef, 01000000000'in arkasındaki güçlü ekip gücünden ayrılamaz.
Zero One Everything** kişisel olarak Dr. Kai-Fu Lee tarafından yönetilmektedir ve CEO olarak görev yapmaktadır**.
Bunlar arasında, katılan ortak ekibin üyeleri arasında Alibaba'nın eski başkan yardımcısı, Baidu'nun eski başkan yardımcısı, Google Çin'in eski yöneticisi ve Microsoft/SAP/Cisco'nun eski başkan yardımcısı yer alıyor ve algoritma ve ürün ekiplerinin geçmişi büyük yerli ve yabancı üreticilerden.
Algoritma ve model ekibinin üyelerini örnek alırsak, makaleleri GPT-4 tarafından alıntılanan algoritma ustaları, Microsoft'un dahili araştırma ödüllerini kazanan seçkin araştırmacılar ve Alibaba CEO Özel Ödülü'nü kazanan süper mühendisler var. Toplamda, ICLR, NeurIPS, CVPR ve ICCV gibi tanınmış akademik konferanslarda büyük modellerle ilgili 100'den fazla akademik makale yayınlamıştır.
Ayrıca, kuruluşunun başlangıcında 010000, eğitim, ayarlama ve çıkarım için binlerce GPU'dan oluşan bir küme oluşturarak deneysel bir platform oluşturmaya başladı. Veriler açısından ana odak noktası, geçerli parametrelerin sayısını ve kullanılan yüksek kaliteli verilerin yoğunluğunu iyileştirmektir.
Bundan, sıfır bir şeyin Yi serisi modelinin güveninin geriye doğru vurmaya cesaret etmek olduğunu görmek zor değil.
Yi serisi büyük modellere dayanarak, daha nicel sürümleri, diyalog modellerini, matematiksel modelleri, kod modellerini ve çok modlu modelleri hızlı bir şekilde yineleyeceği ve açık kaynak sağlayacağı anlaşılmaktadır.
Sonuç olarak, 010.000 şeyin karanlık atının girmesiyle, 100 modelin savaşı daha yoğun ve canlı hale geldi.
Yi serisi büyük modelin gelecekte kaç tane "küresel ilk" yapacağını dört gözle beklemeye değer.
Bir Şey Daha
Neden "Yi" adı? **
Adı, "一" kelimesinin pinyininden gelir ve "Yi" deki "Y" baş aşağıdır, akıllıca Çince "insan" karakterine benzer ve İnsan + AI'yı temsil eden AI'daki i ile birleştirilir.
Yapay zekanın güçlendirilmesinin insan toplumunu ileriye taşıyacağına ve yapay zekanın insanları ilk sıraya koyma ruhuyla insanlar için büyük değer yaratması gerektiğine inanıyoruz.