2017 yılında, “Attention is All You Need” adlı makale ortaya çıktı ve ilk kez kendi dikkat mekanizmasına dayanan Transformer modelini tanıttı. Bu model, geleneksel RNN ve CNN sınırlamalarından kurtularak, paralel işlemle uzun mesafe bağımlılık sorununu etkili bir şekilde aşmayı başardı. 2024 GTC konferansında, Nvidia CEO'su Jen-Hsun Huang, Transformer'ın yedi yazarını davet etti.
Jen-Hsun Huang, o zaman karşılaştıkları sorunun ne olduğunu ve ekibi Transformer'ı yaratmaya neyin ilham verdiğini sordu. Illia Polosukhin yanıtladı: “Eğer gerçekten arama sonuçlarını okuyabilen bir model yayınlamak istiyorsanız, yığınlar halinde belgeleri işleyebilecek bazı bilgileri hızlı bir şekilde işleyebilen modellere ihtiyacınız var. O zamanlar, geri döngü sinir ağları (RNN) bu tür bir ihtiyacı karşılayamıyordu.”
Jakob Uszkoreit ekledi: “Eğitim verilerini üretme hızımız, en gelişmiş yapıların eğitim kapasitesinden çok daha fazla. Aslında daha basit yapılar kullanıyoruz, örneğin n-gram'ı girdi özellikleri olarak kullanan ileri beslemeli ağlar. Bu yapılar, en azından Google ölçeğindeki büyük eğitim verilerinde, daha hızlı eğitim hızı nedeniyle genellikle daha karmaşık ve daha gelişmiş modelleri geride bırakabiliyor.”
Noam Shazeer kritik bir içgörü sağladı: “Görünüşe göre bu, çözülmesi gereken acil bir sorun. 2015 civarında bu Scaling law'ları fark etmeye başladık, model boyutu büyüdükçe zekâ seviyesinin de arttığını görebilirsiniz. Ve büyük bir hayal kırıklığı, RNN'lerin işlenmesinin gerçekten çok zor olması. Sonra tesadüfen bu adamların, 'Hey, bunu konvolüsyon veya dikkat mekanizması ile değiştirelim' diye tartıştıklarını duydum. İçimden, harika, bunu yapalım dedim. Transformer'ı buharlı makineden içten yanmalı motora geçiş olarak tanımlamayı seviyorum. Sanayi devrimini buharlı makine ile tamamlayabilirdik ama bu çok acı verici olurdu, içten yanmalı motor her şeyi daha iyi hale getirdi.”
Transformer'ın Çözdüğü Üç Temel Sorun
Paralel İşleme: RNN'nin sıralı işlem kısıtlamalarından kurtulmak, gerçek paralel hesaplama sağlamak.
Uzun Mesafe Bağımlılığı: Kendi dikkat mekanizması aracılığıyla uzak mesafedeki kelimeler arasındaki ilişkileri etkili bir şekilde yakalamak.
Eğitim Verimliliği: Model eğitim hızını önemli ölçüde artırarak büyük ölçekli ön eğitimleri mümkün kılar.
Bu teknik atılımlar, Transformer'ı modern AI'nin temel taşı haline getirdi. ChatGPT, BERT, GPT-4 gibi büyük dil modelleri, Transformer mimarisine dayanmaktadır. Ancak, yedi yıl sonra, yaratıcılar bunun aşılması gerektiğini düşünüyor.
ilk modelin verimlilik çıkmazında sıkışmış
Aidan Gomez itiraf etti: “Bence bu dünyada Transformer'dan daha iyi bir şeye ihtiyaç var, sanırım burada bulunan herkes bunun bir şeyle değiştirilmesini istiyor ve bizi yeni bir performans platolarına götürecek.” Llion Jones ekledi: “İlk modelin içinde sıkıştık, teknik olarak bu belki de şu anda sahip olduğumuz en güçlü şey değil. Ama herkes ne tür bir kişisel araca sahip olmak istediğini biliyor, daha iyi bir bağlam penceresi istiyorsunuz, daha hızlı token üretme yeteneği istiyorsunuz. Şu anda çok fazla hesaplama kaynağı kullanıyorlar. Bence herkes çok fazla israf hesaplama yaptı.”
Jakob Uszkoreit, ana sorunu şöyle belirtiyor: “Ama bence bu esasen kaynakların nasıl dağıtılacağı ile ilgili, toplamda ne kadar kaynak tüketildiğinden ziyade. Örneğin, kolay bir soruna fazla para harcamak istemiyoruz ya da çok zor bir soruna çok az harcayıp sonunda bir çözüm bulamamak istemiyoruz.”
Illia Polosukhin canlı bir örnek sundu: “Bu örnek 2+2 gibidir, eğer onu bu modele doğru bir şekilde girerseniz, bir trilyon parametre kullanacaktır. Bu yüzden, kendi kendine uyum sağlayan hesaplamaların, önümüzdeki dönemde ortaya çıkması gereken şeylerden biri olduğunu düşünüyorum, belirli sorunlar üzerinde ne kadar hesaplama kaynağı harcayacağımızı biliyoruz.” Bu eleştiri, mevcut AI modellerinin temel eksikliğini ortaya koyuyor: uyum yeteneğinin eksikliği, basit ve karmaşık sorunlara aynı hesaplama kaynaklarını harcayarak büyük israfa neden olması.
Noam Shazeer ekonomik açıdan analiz ediyor: “Bence mevcut modeller çok ekonomik ve ölçekleri hala çok küçük. Her işlem için hesaplama maliyeti yaklaşık 10 ila 18 dolar. Eğer 500 milyar parametreye sahip bir modele bakarsanız ve her bir token için bir trilyon hesaplama yaparsanız, bu yaklaşık bir milyon token için bir dolar ediyor, bu da dışarıda bir cilt kitabı alıp okumaktan 100 kat daha ucuz.” Bu görüş alışılmadık ama derin: AI şu anda çok ucuz, bu da insanların hesaplama kaynaklarını kötüye kullanmasına ve değer vermemesine neden oluyor.
Gelecek Yönü: Adaptif Hesaplama ve Akıl Yürütme Yeteneği
Lukasz Kaiser, önemli bir gerçeği ortaya koydu: “İlk hedefimizde başarılı olamadık, Transformer'ı başlatma amacımız Token'ın evrim sürecini simüle etmekti. Bu sadece lineer bir üretim süreci değil, yazı veya kodun aşamalı evrimi.” Bu itiraf, Transformer'ın başarılı olduğunu ancak yaratıcılarının vizyonunu tam olarak gerçekleştiremediğini gösteriyor.
Jakob Uszkoreit, bir sonraki adımı belirtti: “Bir sonraki adım akıl yürütme. Akıl yürütmenin önemini hepimiz biliyoruz, ancak birçok iş şu anda mühendisler tarafından manuel olarak yapılıyor. Modellerin, ister video, ister metin ya da 3D mesaj olsun, istediğimiz içeriği üretebilmesini umuyoruz; bunların bir araya getirilmesi gerekiyor.” Bu, gelecekteki AI mimarisinin daha güçlü bir akıl yürütme yeteneğine ve çok modlu entegrasyona ihtiyaç duyacağını ima ediyor.
Aidan Gomez ekledi: “Çoklu görevler ve çoklu hatlar arasında paralellik sağlama imkanımız var mı? Eğer gerçekten böyle bir model oluşturmak istiyorsanız, bize böyle bir model tasarlamamızda yardımcı olmanın çok iyi bir yoludur.” Lukasz Kaiser ise şöyle düşünüyor: “Akıl yürütme aslında verilerden gelir, verileri daha dolu hale getirmemiz gerekiyor.” Bu tartışmalar, Transformer sonrası AI mimarisinin birkaç anahtar yönüne işaret ediyor: uyarlanabilir hesaplama, artırılmış akıl yürütme, çok modlu entegrasyon ve daha verimli veri kullanımı.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Transformer yaratıcısı uyarısı: AI, orijinal yapı içinde sıkıştı, Jen-Hsun Huang yedi yazarı çözüme yönlendiriyor.
2017 yılında, “Attention is All You Need” adlı makale ortaya çıktı ve ilk kez kendi dikkat mekanizmasına dayanan Transformer modelini tanıttı. Bu model, geleneksel RNN ve CNN sınırlamalarından kurtularak, paralel işlemle uzun mesafe bağımlılık sorununu etkili bir şekilde aşmayı başardı. 2024 GTC konferansında, Nvidia CEO'su Jen-Hsun Huang, Transformer'ın yedi yazarını davet etti.
Transformer, makine çevirisinin verimlilik krizinden doğmuştur
(Kaynak: NVIDIA)
Jen-Hsun Huang, o zaman karşılaştıkları sorunun ne olduğunu ve ekibi Transformer'ı yaratmaya neyin ilham verdiğini sordu. Illia Polosukhin yanıtladı: “Eğer gerçekten arama sonuçlarını okuyabilen bir model yayınlamak istiyorsanız, yığınlar halinde belgeleri işleyebilecek bazı bilgileri hızlı bir şekilde işleyebilen modellere ihtiyacınız var. O zamanlar, geri döngü sinir ağları (RNN) bu tür bir ihtiyacı karşılayamıyordu.”
Jakob Uszkoreit ekledi: “Eğitim verilerini üretme hızımız, en gelişmiş yapıların eğitim kapasitesinden çok daha fazla. Aslında daha basit yapılar kullanıyoruz, örneğin n-gram'ı girdi özellikleri olarak kullanan ileri beslemeli ağlar. Bu yapılar, en azından Google ölçeğindeki büyük eğitim verilerinde, daha hızlı eğitim hızı nedeniyle genellikle daha karmaşık ve daha gelişmiş modelleri geride bırakabiliyor.”
Noam Shazeer kritik bir içgörü sağladı: “Görünüşe göre bu, çözülmesi gereken acil bir sorun. 2015 civarında bu Scaling law'ları fark etmeye başladık, model boyutu büyüdükçe zekâ seviyesinin de arttığını görebilirsiniz. Ve büyük bir hayal kırıklığı, RNN'lerin işlenmesinin gerçekten çok zor olması. Sonra tesadüfen bu adamların, 'Hey, bunu konvolüsyon veya dikkat mekanizması ile değiştirelim' diye tartıştıklarını duydum. İçimden, harika, bunu yapalım dedim. Transformer'ı buharlı makineden içten yanmalı motora geçiş olarak tanımlamayı seviyorum. Sanayi devrimini buharlı makine ile tamamlayabilirdik ama bu çok acı verici olurdu, içten yanmalı motor her şeyi daha iyi hale getirdi.”
Transformer'ın Çözdüğü Üç Temel Sorun
Paralel İşleme: RNN'nin sıralı işlem kısıtlamalarından kurtulmak, gerçek paralel hesaplama sağlamak.
Uzun Mesafe Bağımlılığı: Kendi dikkat mekanizması aracılığıyla uzak mesafedeki kelimeler arasındaki ilişkileri etkili bir şekilde yakalamak.
Eğitim Verimliliği: Model eğitim hızını önemli ölçüde artırarak büyük ölçekli ön eğitimleri mümkün kılar.
Bu teknik atılımlar, Transformer'ı modern AI'nin temel taşı haline getirdi. ChatGPT, BERT, GPT-4 gibi büyük dil modelleri, Transformer mimarisine dayanmaktadır. Ancak, yedi yıl sonra, yaratıcılar bunun aşılması gerektiğini düşünüyor.
ilk modelin verimlilik çıkmazında sıkışmış
Aidan Gomez itiraf etti: “Bence bu dünyada Transformer'dan daha iyi bir şeye ihtiyaç var, sanırım burada bulunan herkes bunun bir şeyle değiştirilmesini istiyor ve bizi yeni bir performans platolarına götürecek.” Llion Jones ekledi: “İlk modelin içinde sıkıştık, teknik olarak bu belki de şu anda sahip olduğumuz en güçlü şey değil. Ama herkes ne tür bir kişisel araca sahip olmak istediğini biliyor, daha iyi bir bağlam penceresi istiyorsunuz, daha hızlı token üretme yeteneği istiyorsunuz. Şu anda çok fazla hesaplama kaynağı kullanıyorlar. Bence herkes çok fazla israf hesaplama yaptı.”
Jakob Uszkoreit, ana sorunu şöyle belirtiyor: “Ama bence bu esasen kaynakların nasıl dağıtılacağı ile ilgili, toplamda ne kadar kaynak tüketildiğinden ziyade. Örneğin, kolay bir soruna fazla para harcamak istemiyoruz ya da çok zor bir soruna çok az harcayıp sonunda bir çözüm bulamamak istemiyoruz.”
Illia Polosukhin canlı bir örnek sundu: “Bu örnek 2+2 gibidir, eğer onu bu modele doğru bir şekilde girerseniz, bir trilyon parametre kullanacaktır. Bu yüzden, kendi kendine uyum sağlayan hesaplamaların, önümüzdeki dönemde ortaya çıkması gereken şeylerden biri olduğunu düşünüyorum, belirli sorunlar üzerinde ne kadar hesaplama kaynağı harcayacağımızı biliyoruz.” Bu eleştiri, mevcut AI modellerinin temel eksikliğini ortaya koyuyor: uyum yeteneğinin eksikliği, basit ve karmaşık sorunlara aynı hesaplama kaynaklarını harcayarak büyük israfa neden olması.
Noam Shazeer ekonomik açıdan analiz ediyor: “Bence mevcut modeller çok ekonomik ve ölçekleri hala çok küçük. Her işlem için hesaplama maliyeti yaklaşık 10 ila 18 dolar. Eğer 500 milyar parametreye sahip bir modele bakarsanız ve her bir token için bir trilyon hesaplama yaparsanız, bu yaklaşık bir milyon token için bir dolar ediyor, bu da dışarıda bir cilt kitabı alıp okumaktan 100 kat daha ucuz.” Bu görüş alışılmadık ama derin: AI şu anda çok ucuz, bu da insanların hesaplama kaynaklarını kötüye kullanmasına ve değer vermemesine neden oluyor.
Gelecek Yönü: Adaptif Hesaplama ve Akıl Yürütme Yeteneği
Lukasz Kaiser, önemli bir gerçeği ortaya koydu: “İlk hedefimizde başarılı olamadık, Transformer'ı başlatma amacımız Token'ın evrim sürecini simüle etmekti. Bu sadece lineer bir üretim süreci değil, yazı veya kodun aşamalı evrimi.” Bu itiraf, Transformer'ın başarılı olduğunu ancak yaratıcılarının vizyonunu tam olarak gerçekleştiremediğini gösteriyor.
Jakob Uszkoreit, bir sonraki adımı belirtti: “Bir sonraki adım akıl yürütme. Akıl yürütmenin önemini hepimiz biliyoruz, ancak birçok iş şu anda mühendisler tarafından manuel olarak yapılıyor. Modellerin, ister video, ister metin ya da 3D mesaj olsun, istediğimiz içeriği üretebilmesini umuyoruz; bunların bir araya getirilmesi gerekiyor.” Bu, gelecekteki AI mimarisinin daha güçlü bir akıl yürütme yeteneğine ve çok modlu entegrasyona ihtiyaç duyacağını ima ediyor.
Aidan Gomez ekledi: “Çoklu görevler ve çoklu hatlar arasında paralellik sağlama imkanımız var mı? Eğer gerçekten böyle bir model oluşturmak istiyorsanız, bize böyle bir model tasarlamamızda yardımcı olmanın çok iyi bir yoludur.” Lukasz Kaiser ise şöyle düşünüyor: “Akıl yürütme aslında verilerden gelir, verileri daha dolu hale getirmemiz gerekiyor.” Bu tartışmalar, Transformer sonrası AI mimarisinin birkaç anahtar yönüne işaret ediyor: uyarlanabilir hesaplama, artırılmış akıl yürütme, çok modlu entegrasyon ve daha verimli veri kullanımı.