Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu
Video oyunları günümüzün gerçek dünyasının bir simülasyonu haline geldi ve olasılıklar sonsuz. Örneğin Grand Theft Auto (GTA) oyununda oyuncular Los Santos'ta (oyunun sanal şehri) birinci şahıs bakış açısıyla renkli bir hayat yaşayabilirler. Bununla birlikte, bir insan oyuncu Los Santos'ta dolaşabiliyor ve bir dizi görevi tamamlayabiliyorsa, bir GTA karakterini kontrol eden ve görevlerde "oyuncu" haline gelen bir AI vizyon modeline de sahip olabilir miyiz?
Mevcut görsel-dilbilimsel modeller (VLM'ler) çok modlu algı ve akıl yürütmede önemli ilerleme kaydetmiştir, ancak bunlar genellikle daha basit görsel soru cevaplama (VQA) veya görsel açıklama (Altyazı) görevlerine dayanmaktadır. Açıkçası, bu görevler VLM'nin gerçek dünyadaki görevleri yerine getirmesine izin vermiyor. Çünkü asıl görev sadece görsel bilgilerin anlaşılmasını değil, aynı zamanda modelin gerçek zamanlı güncellenen çevresel bilgilere dayalı planlama akıl yürütme ve geri bildirime sahip olma yeteneğini de gerektirir. Aynı zamanda, ortaya çıkan planın, görevi gerçekçi bir şekilde yerine getirmek için ortamdaki varlıkları manipüle edebilmesi gerekir.
Mevcut dil modelleri (LLM'ler) sağlanan bilgilere dayalı olarak görevleri planlayabilse de, görsel girdiyi anlayamazlar, bu da gerçek dünyada belirli görevleri gerçekleştirirken dil modellerinin uygulama kapsamını büyük ölçüde sınırlar, özellikle bazı somutlaştırılmış zeka görevleri için, metin tabanlı girdinin ayrıntılı veya çok karmaşık olması genellikle zordur, bu nedenle dil modelleri görevi tamamlamak için onlardan verimli bir şekilde bilgi çıkaramaz. Mevcut dil modelleri, program oluşturma için bazı keşifler yapmıştır, ancak görsel girdiye dayalı olarak yapılandırılmış, yürütülebilir ve sağlam kod oluşturma keşfi henüz araştırılmamıştır.
Büyük modellerin somutlaşmış ve akıllı hale getirilmesi sorununu çözmek ve planları doğru bir şekilde formüle edebilen ve komutları yerine getirebilen özerk ve durumsal farkındalık sistemleri oluşturmak için, Singapur'daki Nanyang Teknoloji Üniversitesi, Tsinghua Üniversitesi, vb. Octopus, amacı görsel girdi yoluyla öğrenmek, gerçek dünyayı anlamak ve yürütülebilir kod oluşturacak şekilde çeşitli gerçek dünya görevlerini yerine getirmek olan vizyon tabanlı programlanabilir bir ajandır. Çok sayıda görsel girdi ve yürütülebilir kod çifti konusunda eğitim alan Octopus, oyun içi görevleri tamamlamak veya karmaşık ev işlerini tamamlamak için video oyunu karakterlerini nasıl manipüle edeceğini öğrendi.
*Adres:
Proje Web Sayfası:
Açık kaynak kodu:
Veri Toplama ve Eğitim
Araştırmacılar, somutlaştırılmış zeka görevlerini yerine getirebilen bir vizyon-dil modelini eğitmek için, eğitim verileri sağlayan iki simülasyon sisteminden ve Octopus'un eğitimi için bir test ortamından oluşan OctoVerse'i de geliştirdiler. Bu iki simülasyon ortamı, VLM'nin somutlaşmış zekası için kullanılabilir eğitim ve test senaryoları sağlar ve modelin çıkarım ve görev planlama yetenekleri için daha yüksek gereksinimler ortaya koyar. Detaylar aşağıdaki gibidir:
OctoGibson: Stanford Üniversitesi tarafından geliştirilen OmniGibson'a dayanarak, toplam 476 gerçek hayattaki ev aktivitesini içerir. Tüm simülasyon ortamı, 155 gerçek dünya ev ortamı örneğini kapsayan 16 farklı ev senaryosu kategorisi içerir. Model, nihai görevi gerçekleştirmek için içinde bulunan çok sayıda etkileşimli nesneyi manipüle edebilir.
OctoGTA: Grand Theft Auto (GTA) oyununa dayanarak, toplam 20 görev inşa edildi ve beş farklı senaryoya genelleştirildi. Oyuncuyu önceden ayarlanmış bir program aracılığıyla sabit bir konuma getirin ve görevin sorunsuz bir şekilde yerine getirilebilmesini sağlamak için görevi tamamlamak için gerekli öğeleri ve NPC'leri sağlayın.
Aşağıdaki diyagramda OctoGibson'ın görev sınıflandırması ve OctoGibson ve OctoGTA için bazı istatistikler gösterilmektedir.
İki simülasyon ortamında eğitim verilerini verimli bir şekilde toplamak için araştırmacılar eksiksiz bir veri toplama sistemi kurdular. Araştırmacılar, GPT-4'ü görevin yürütücüsü olarak tanıtarak, simülasyon ortamında toplanan görsel girdiyi metin bilgisine dönüştürmek ve GPT-4'e sağlamak için önceden uygulanmış işlevleri kullanır ve ardından GPT-4, mevcut adımın görev planlama ve yürütülebilir kodunu döndürdükten sonra kodu simülasyon ortamında yürütür ve mevcut adımın görevinin tamamlanıp tamamlanmadığına karar verir. Başarılı olursa, bir sonraki görsel girdiyi toplamaya devam edin; Başarısız olursa, önceki adımın başlangıç konumuna geri dönün ve verileri yeniden toplayın.
Yukarıdaki diyagram, örnek olarak bir OctoGibson ortamında Cook a Bacon görevini kullanarak veri toplama işleminin tamamını göstermektedir. Veri toplama sürecinde, araştırmacıların yalnızca görevin yürütülmesi sırasındaki görsel bilgileri, GPT-4 tarafından döndürülen yürütülebilir kodu vb. kaydetmekle kalmayıp, aynı zamanda daha verimli bir VLM oluşturmak için pekiştirmeli öğrenmenin daha sonraki tanıtımının temeli olarak kullanılacak olan her bir alt görevin başarısını da kaydettikleri belirtilmelidir. GPT-4, güçlü olsa da yenilmez değildir. Hatalar, sözdizimi hataları ve simülatördeki fiziksel zorluklar dahil olmak üzere çeşitli şekillerde kendini gösterebilir. Örneğin, Şekil 3'te gösterildiği gibi, #5 ve #6 durumları arasında, "Pastırmayı Tavaya Koy" eylemi, Ajan pastırmayı tavadan çok uzakta tuttuğu için başarısız olur. Bu tür aksilikler görevi önceki durumuna sıfırlar. Bir görev 10 adımdan sonra tamamlanmazsa başarısız olarak kabul edilir, bütçe nedenleriyle görevi sonlandırırız ve görevin alt görevlerinin tüm veri çiftleri başarısız olarak kabul edilir.
Araştırmacılar, belirli bir eğitim verisi ölçeği topladıktan sonra, bu verileri somutlaştırılmış ve akıllı bir görme dili modeli olan Octopus'u eğitmek için kullandılar. Yukarıdaki şema, tüm veri toplama ve eğitim sürecini göstermektedir. İlk aşamada, denetimli ince ayar için toplanan verileri kullanarak, araştırmacılar görsel bilgileri girdi olarak kullanabilen ve çıktı için sabit bir formatı takip edebilen bir VLM modeli oluşturabildiler. Bu aşamada model, görsel girdi bilgilerinin görev planına ve yürütülebilir koda eşlenmesini tamamlayabilir. İkinci aşamada, araştırmacılar RLEF'i tanıttı
(Çevresel Geri Bildirimle Pekiştirmeli Öğrenme), daha önce toplanan alt görevlerin başarısını bir ödül sinyali olarak kullanır ve pekiştirmeli öğrenme algoritması, VLM'nin görev planlama yeteneğini daha da geliştirmek için kullanılır, böylece görevin genel başarı oranını artırır.
Deneysel Sonuçlar
Araştırmacılar, OctoGibson ortamında mevcut ana akım VLM'leri ve LLM'leri test ettiler ve aşağıdaki tablo ana deneysel sonuçları gösteriyor. Farklı test modelleri için Vizyon Modeli, farklı modeller tarafından kullanılan görsel modelleri numaralandırır ve LLM'ler için araştırmacı, görsel bilgileri LLM'ye girdi olarak metin olarak işler. O, sahnedeki etkileşimli nesneler hakkında bilgi sağlamak anlamına gelir, R, sahnedeki nesnelerin göreceli ilişkileri hakkında bilgi sağlamak anlamına gelir ve GT, algılama için ek görsel modeller sunmadan gerçek ve doğru bilgileri kullanmak anlamına gelir.
Tüm test görevleri için, araştırmacılar tam test entegrasyon gücünü bildirdiler ve ayrıca eğitim setinde var olan senaryolarda yeni görevleri tamamlama yeteneğini, eğitim setinde bulunmayan senaryolarda yeni görevleri tamamlama genelleme yeteneğini ve basit takip görevlerini ve karmaşık akıl yürütme görevlerini tamamlamak için genelleme yeteneğini kaydeden dört kategoriye ayırdılar. Her istatistik kategorisi için, araştırmacılar iki değerlendirme göstergesi bildirdiler, bunlardan ilki, modelin somutlaştırılmış zeka görevini tamamlamadaki başarı oranını ölçen görevin tamamlanma oranıydı; İkincisi, modelin görevleri planlama yeteneğini yansıtmak için kullanılan görev planlama doğruluğudur.
Ek olarak, araştırmacılar farklı modellerin OctoGibson simülasyon ortamında elde edilen görsel verilere nasıl tepki verdiğine dair örnekler gösteriyor. Aşağıdaki resim, TAPA+CodeLLaMA, Octopus ve GPT-4V'nin OctoGibson'da oluşturulan görsel girdiye verdiği yanıtları göstermektedir. TAPA+CodeLLaMA ve yalnızca denetimli ince ayarlı Ahtapot modeli ile karşılaştırıldığında, RLEF ile eğitilmiş Ahtapot modelinin daha makul bir görev planlamasına sahip olduğu ve daha belirsiz görev talimatları için bile daha eksiksiz bir plan sağlayabileceği görülebilir (damacana bul). Bu performanslar, modelin görev planlama yeteneğini ve çıkarım yeteneğini geliştirmede RLEF eğitim stratejisinin etkinliğini daha da göstermektedir.
Genel olarak, simülasyon ortamındaki mevcut modellerin gerçek görev tamamlama ve görev planlama yeteneklerinde iyileştirme için hala çok yer var. Araştırmacılar bazı önemli bulguları özetledi:
**1.CodeLLaMA, modelin kod oluşturma yeteneğini geliştirebilir, ancak görev planlama yeteneğini geliştiremez. **
Araştırmacılar, deneysel sonuçların CodeLLaMA'nın modelin kod üretme yeteneğini önemli ölçüde geliştirebileceğini gösterdiğine dikkat çekti. Geleneksel LLM'lerle karşılaştırıldığında CodeLLaMA, daha yüksek yürütülebilir hızlarla daha iyi kod sağlar. Bununla birlikte, bazı modeller kod üretimi için CodeLLaMA kullansa da, görevin genel başarı oranı hala görev planlama yeteneği ile sınırlıdır. Öte yandan Octopus, CodeLLaMA'nın olmaması nedeniyle kodun çalıştırılabilir hızı düşmüş olsa da, güçlü görev planlama yeteneği nedeniyle genel görev başarı oranı hala diğer modellerden daha iyidir.
**2.LLM'lerin büyük miktarda metin girişi karşısında işlenmesi zordur. **
Gerçek test sürecinde, araştırmacılar TAPA ve CodeLLaMA'nın deneysel sonuçlarını karşılaştırdılar ve dil modellerinin uzun metin girişini iyi idare etmesinin zor olduğu sonucuna vardılar. Araştırmacılar TAPA'nın yaklaşımını takip ettiler ve görev planlaması için gerçek nesne bilgilerini kullanırken, CodeLLaMA daha eksiksiz bilgi sağlamak için nesneler arasındaki göreceli konum ilişkilerini kullandı. Bununla birlikte, deney sırasında araştırmacılar, ortamdaki büyük miktarda gereksiz bilgi nedeniyle, ortam daha karmaşık olduğunda, metin girişinin önemli ölçüde arttığını ve LLM'lerin büyük miktarda gereksiz bilgiden değerli ipuçları çıkarmasının zor olduğunu ve böylece görevin başarı oranını azalttığını buldular. Bu aynı zamanda, karmaşık senaryoları temsil etmek için metinsel bilgilerin kullanılmasının büyük miktarda gereksiz ve değersiz girdiye neden olabileceği LLM'lerin sınırlamalarını da yansıtır.
Ahtapot iyi bir görev genelleme yeteneği göstermiştir. **
Deneysel sonuçlarla, Ahtapot'un görevleri genelleştirme konusunda güçlü bir yeteneğe sahip olduğu sonucuna varılabilir. Eğitim setinde görünmeyen yeni senaryolarda görev tamamlama ve görev planlama başarı oranı mevcut modellere göre daha iyidir. Bu aynı zamanda, aynı görev sınıfı için geleneksel LLM'lerden daha genelleştirilebilir olan görsel dil modellerinin doğal avantajlarından bazılarını da gösterir.
RLEF, modelin görev planlama yeteneklerini geliştirir. **
Deneysel sonuçlarda, araştırmacılar, denetimli ince ayarın yalnızca ilk aşamasından geçen modelin performansının ve RLEF tarafından eğitilen modelin performansının bir karşılaştırmasını sağladılar. RLEF eğitimi sonrasında, güçlü muhakeme yeteneği ve görev planlama yeteneği gerektiren görevlerde modelin genel başarı oranının ve planlama yeteneğinin önemli ölçüde geliştiği görülmektedir. RLEF ayrıca mevcut VLM eğitim stratejilerinden çok daha verimlidir. Yukarıdaki şekilde gösterilen örnek, RLEF eğitiminden sonra modelin görev planlama yeteneğinin gelişimini de gösterebilir. RLEF tarafından eğitilen modeller, daha karmaşık görevlerle karşı karşıya kaldıklarında ortamda nasıl gezinileceğini anlayabilir ve model, görev planlaması açısından simülasyon ortamının gerçek gereksinimleriyle daha uyumludur (örneğin, modelin etkileşime başlamadan önce etkileşim kurmak için nesneye hareket etmesi gerekir), böylece görev planlamasının başarısızlık oranını azaltır.
Tartışma
Ablasyon Deneyi
Modelin gerçek yeteneklerini değerlendirdikten sonra, araştırmacılar modelin performansını etkileyebilecek bazı olası faktörlere daha yakından baktılar. Aşağıdaki şekilde gösterildiği gibi, araştırmacılar üç açıdan deneyler yaptılar.
Eğitim parametrelerinin ağırlığı
Araştırmacılar, yalnızca bir dil modeli, eğitilmiş bir bağlantı katmanı ve bir dil modeli ve tam olarak eğitilmiş bir model ile eğitilmiş bir bağlı katmanın performansını karşılaştırdı. Eğitim parametrelerinin artmasıyla modelin performansının kademeli olarak iyileştirildiği görülebilir. Bu, modelin bazı sabit senaryolarda görevi tamamlayıp tamamlayamayacağı için eğitim parametrelerinin sayısının çok önemli olduğunu gösterir.
Modelin boyutu
Araştırmacılar, iki eğitim aşamasında daha küçük 3B parametreli modelin performansını temel 7B modeliyle karşılaştırdılar. Karşılaştırma yoluyla, modelin genel parametreleri büyük olduğunda, modelin performansının da önemli ölçüde iyileştirileceği görülebilir. Modelin ilgili görevleri tamamlama yeteneğine sahip olabilmesi ve aynı zamanda modelin hafif ve hızlı çıkarım hızını sağlayabilmesi için uygun model eğitim parametrelerinin nasıl seçileceği, VLM alanındaki gelecekteki araştırmalarda kilit bir nokta olacaktır.
Görsel girdinin sürekliliği
Farklı görsel girdilerin gerçek VLM'lerin performansı üzerindeki etkisini araştırmak için, araştırmacılar görsel bilginin girdi sırasını denediler. Test sırasında model, birinci şahıs görüntüleri ve iki kuş bakışı görünümü yakalamak için simülasyon ortamında sırayla döner ve bunlar daha sonra sırayla VLM'ye beslenir. Deneyde, araştırmacı görsel görüntülerin sırasını rastgele karıştırdığında ve daha sonra bunları VLM'ye beslediğinde, VLM büyük bir performans kaybı üretti. Bu, bir yandan VLM için eksiksiz ve yapılandırılmış görsel bilginin önemini gösterirken, diğer yandan VLM'nin görsel girdiye yanıt olarak görsel görüntülerin dahili bağlantısına dayandığını bir dereceye kadar yansıtır ve bu görsel bağlantı koptuğunda, VLM'nin performansını büyük ölçüde etkileyecektir.
GPT-4
Ayrıca araştırmacılar, GPT-4 ve GPT-4V'nin performansını simüle edilmiş bir ortamda test etti ve hesapladı.
GPT-4
GPT-4 söz konusu olduğunda, araştırmacı, eğitim verilerini toplamak için kullanırken olduğu gibi, test sırasında girdi olarak tam olarak aynı metinsel bilgileri sağlar. GPT-4, test görevlerinin yarısını tamamlayabilir, bu da mevcut VLM'nin GPT-4 gibi dil modellerine kıyasla performansta iyileştirme için hala çok fazla alana sahip olduğunu gösterir ve diğer yandan, GPT-4 gibi güçlü performansa sahip dil modellerinin bile somutlaşmış zeka görevleri karşısında görev planlama ve görev yürütme yeteneklerini daha da geliştirmeleri gerektiğini gösterir.
GPT-4V
GPT-4V, doğrudan çağrılabilen bir API yayınladığından, araştırmacıların henüz denemek için zamanları olmadı, ancak araştırmacılar GPT-4V'nin performansını göstermek için bazı örnekleri manuel olarak da test ettiler. Araştırmacılar, bazı örnekler aracılığıyla, GPT-4V'nin simülasyon ortamındaki görevler için güçlü bir sıfır atış genelleme yeteneğine sahip olduğuna ve ayrıca görsel girdilere dayalı olarak karşılık gelen yürütülebilir kodu üretebileceğine inanıyor, ancak bazı görev planlamalarında simülasyon ortamında toplanan veriler üzerinde ince ayarlı modelden biraz daha düşük.
Özet
Araştırmacılar mevcut çalışmanın bazı sınırlamalarına işaret ediyor:
Mevcut Ahtapot modeli daha karmaşık görevler için tatmin edici değil. Karmaşık görevlerle karşı karşıya kaldığında, Ahtapot genellikle yanlış planlar yapar ve büyük ölçüde çevreden gelen geri bildirimlere güvenir ve genellikle genel görevi tamamlamak için mücadele eder.
Ahtapot modelleri yalnızca bir simülasyon ortamında eğitilir ve bunların gerçek dünyaya nasıl taşınacağı bir dizi sorunla karşı karşıya kalacaktır. Örneğin, gerçek ortamda, modelin nesnelerin göreceli konumu hakkında daha doğru bilgi edinmesi zorlaşacak ve nesnelerin anlaşılmasının sahneye nasıl inşa edileceği daha zor hale gelecektir.
Ahtapot şu anda ayrık durağan görüntülerin görsel bir girdisidir ve sürekli videoyu nasıl işleyebileceği gelecekte zor olacaktır. Sürekli video, görevi tamamlamak için modelin performansını daha da artırabilir, ancak sürekli görsel girdinin verimli bir şekilde nasıl işleneceği ve anlaşılacağı, VLM'nin performansını daha da iyileştirmenin anahtarı olacaktır.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
AI modelini beş yıldızlı bir GTA oyuncusu yapmak için vizyon tabanlı programlanabilir ajan Octopus burada
Orijinal kaynak: Makinenin Kalbi
Video oyunları günümüzün gerçek dünyasının bir simülasyonu haline geldi ve olasılıklar sonsuz. Örneğin Grand Theft Auto (GTA) oyununda oyuncular Los Santos'ta (oyunun sanal şehri) birinci şahıs bakış açısıyla renkli bir hayat yaşayabilirler. Bununla birlikte, bir insan oyuncu Los Santos'ta dolaşabiliyor ve bir dizi görevi tamamlayabiliyorsa, bir GTA karakterini kontrol eden ve görevlerde "oyuncu" haline gelen bir AI vizyon modeline de sahip olabilir miyiz?
Mevcut görsel-dilbilimsel modeller (VLM'ler) çok modlu algı ve akıl yürütmede önemli ilerleme kaydetmiştir, ancak bunlar genellikle daha basit görsel soru cevaplama (VQA) veya görsel açıklama (Altyazı) görevlerine dayanmaktadır. Açıkçası, bu görevler VLM'nin gerçek dünyadaki görevleri yerine getirmesine izin vermiyor. Çünkü asıl görev sadece görsel bilgilerin anlaşılmasını değil, aynı zamanda modelin gerçek zamanlı güncellenen çevresel bilgilere dayalı planlama akıl yürütme ve geri bildirime sahip olma yeteneğini de gerektirir. Aynı zamanda, ortaya çıkan planın, görevi gerçekçi bir şekilde yerine getirmek için ortamdaki varlıkları manipüle edebilmesi gerekir.
Mevcut dil modelleri (LLM'ler) sağlanan bilgilere dayalı olarak görevleri planlayabilse de, görsel girdiyi anlayamazlar, bu da gerçek dünyada belirli görevleri gerçekleştirirken dil modellerinin uygulama kapsamını büyük ölçüde sınırlar, özellikle bazı somutlaştırılmış zeka görevleri için, metin tabanlı girdinin ayrıntılı veya çok karmaşık olması genellikle zordur, bu nedenle dil modelleri görevi tamamlamak için onlardan verimli bir şekilde bilgi çıkaramaz. Mevcut dil modelleri, program oluşturma için bazı keşifler yapmıştır, ancak görsel girdiye dayalı olarak yapılandırılmış, yürütülebilir ve sağlam kod oluşturma keşfi henüz araştırılmamıştır.
Büyük modellerin somutlaşmış ve akıllı hale getirilmesi sorununu çözmek ve planları doğru bir şekilde formüle edebilen ve komutları yerine getirebilen özerk ve durumsal farkındalık sistemleri oluşturmak için, Singapur'daki Nanyang Teknoloji Üniversitesi, Tsinghua Üniversitesi, vb. Octopus, amacı görsel girdi yoluyla öğrenmek, gerçek dünyayı anlamak ve yürütülebilir kod oluşturacak şekilde çeşitli gerçek dünya görevlerini yerine getirmek olan vizyon tabanlı programlanabilir bir ajandır. Çok sayıda görsel girdi ve yürütülebilir kod çifti konusunda eğitim alan Octopus, oyun içi görevleri tamamlamak veya karmaşık ev işlerini tamamlamak için video oyunu karakterlerini nasıl manipüle edeceğini öğrendi.
Veri Toplama ve Eğitim
Araştırmacılar, somutlaştırılmış zeka görevlerini yerine getirebilen bir vizyon-dil modelini eğitmek için, eğitim verileri sağlayan iki simülasyon sisteminden ve Octopus'un eğitimi için bir test ortamından oluşan OctoVerse'i de geliştirdiler. Bu iki simülasyon ortamı, VLM'nin somutlaşmış zekası için kullanılabilir eğitim ve test senaryoları sağlar ve modelin çıkarım ve görev planlama yetenekleri için daha yüksek gereksinimler ortaya koyar. Detaylar aşağıdaki gibidir:
OctoGibson: Stanford Üniversitesi tarafından geliştirilen OmniGibson'a dayanarak, toplam 476 gerçek hayattaki ev aktivitesini içerir. Tüm simülasyon ortamı, 155 gerçek dünya ev ortamı örneğini kapsayan 16 farklı ev senaryosu kategorisi içerir. Model, nihai görevi gerçekleştirmek için içinde bulunan çok sayıda etkileşimli nesneyi manipüle edebilir.
OctoGTA: Grand Theft Auto (GTA) oyununa dayanarak, toplam 20 görev inşa edildi ve beş farklı senaryoya genelleştirildi. Oyuncuyu önceden ayarlanmış bir program aracılığıyla sabit bir konuma getirin ve görevin sorunsuz bir şekilde yerine getirilebilmesini sağlamak için görevi tamamlamak için gerekli öğeleri ve NPC'leri sağlayın.
Aşağıdaki diyagramda OctoGibson'ın görev sınıflandırması ve OctoGibson ve OctoGTA için bazı istatistikler gösterilmektedir.
(Çevresel Geri Bildirimle Pekiştirmeli Öğrenme), daha önce toplanan alt görevlerin başarısını bir ödül sinyali olarak kullanır ve pekiştirmeli öğrenme algoritması, VLM'nin görev planlama yeteneğini daha da geliştirmek için kullanılır, böylece görevin genel başarı oranını artırır.
Deneysel Sonuçlar
Araştırmacılar, OctoGibson ortamında mevcut ana akım VLM'leri ve LLM'leri test ettiler ve aşağıdaki tablo ana deneysel sonuçları gösteriyor. Farklı test modelleri için Vizyon Modeli, farklı modeller tarafından kullanılan görsel modelleri numaralandırır ve LLM'ler için araştırmacı, görsel bilgileri LLM'ye girdi olarak metin olarak işler. O, sahnedeki etkileşimli nesneler hakkında bilgi sağlamak anlamına gelir, R, sahnedeki nesnelerin göreceli ilişkileri hakkında bilgi sağlamak anlamına gelir ve GT, algılama için ek görsel modeller sunmadan gerçek ve doğru bilgileri kullanmak anlamına gelir.
Tüm test görevleri için, araştırmacılar tam test entegrasyon gücünü bildirdiler ve ayrıca eğitim setinde var olan senaryolarda yeni görevleri tamamlama yeteneğini, eğitim setinde bulunmayan senaryolarda yeni görevleri tamamlama genelleme yeteneğini ve basit takip görevlerini ve karmaşık akıl yürütme görevlerini tamamlamak için genelleme yeteneğini kaydeden dört kategoriye ayırdılar. Her istatistik kategorisi için, araştırmacılar iki değerlendirme göstergesi bildirdiler, bunlardan ilki, modelin somutlaştırılmış zeka görevini tamamlamadaki başarı oranını ölçen görevin tamamlanma oranıydı; İkincisi, modelin görevleri planlama yeteneğini yansıtmak için kullanılan görev planlama doğruluğudur.
**1.CodeLLaMA, modelin kod oluşturma yeteneğini geliştirebilir, ancak görev planlama yeteneğini geliştiremez. **
Araştırmacılar, deneysel sonuçların CodeLLaMA'nın modelin kod üretme yeteneğini önemli ölçüde geliştirebileceğini gösterdiğine dikkat çekti. Geleneksel LLM'lerle karşılaştırıldığında CodeLLaMA, daha yüksek yürütülebilir hızlarla daha iyi kod sağlar. Bununla birlikte, bazı modeller kod üretimi için CodeLLaMA kullansa da, görevin genel başarı oranı hala görev planlama yeteneği ile sınırlıdır. Öte yandan Octopus, CodeLLaMA'nın olmaması nedeniyle kodun çalıştırılabilir hızı düşmüş olsa da, güçlü görev planlama yeteneği nedeniyle genel görev başarı oranı hala diğer modellerden daha iyidir.
**2.LLM'lerin büyük miktarda metin girişi karşısında işlenmesi zordur. **
Gerçek test sürecinde, araştırmacılar TAPA ve CodeLLaMA'nın deneysel sonuçlarını karşılaştırdılar ve dil modellerinin uzun metin girişini iyi idare etmesinin zor olduğu sonucuna vardılar. Araştırmacılar TAPA'nın yaklaşımını takip ettiler ve görev planlaması için gerçek nesne bilgilerini kullanırken, CodeLLaMA daha eksiksiz bilgi sağlamak için nesneler arasındaki göreceli konum ilişkilerini kullandı. Bununla birlikte, deney sırasında araştırmacılar, ortamdaki büyük miktarda gereksiz bilgi nedeniyle, ortam daha karmaşık olduğunda, metin girişinin önemli ölçüde arttığını ve LLM'lerin büyük miktarda gereksiz bilgiden değerli ipuçları çıkarmasının zor olduğunu ve böylece görevin başarı oranını azalttığını buldular. Bu aynı zamanda, karmaşık senaryoları temsil etmek için metinsel bilgilerin kullanılmasının büyük miktarda gereksiz ve değersiz girdiye neden olabileceği LLM'lerin sınırlamalarını da yansıtır.
Deneysel sonuçlarla, Ahtapot'un görevleri genelleştirme konusunda güçlü bir yeteneğe sahip olduğu sonucuna varılabilir. Eğitim setinde görünmeyen yeni senaryolarda görev tamamlama ve görev planlama başarı oranı mevcut modellere göre daha iyidir. Bu aynı zamanda, aynı görev sınıfı için geleneksel LLM'lerden daha genelleştirilebilir olan görsel dil modellerinin doğal avantajlarından bazılarını da gösterir.
Deneysel sonuçlarda, araştırmacılar, denetimli ince ayarın yalnızca ilk aşamasından geçen modelin performansının ve RLEF tarafından eğitilen modelin performansının bir karşılaştırmasını sağladılar. RLEF eğitimi sonrasında, güçlü muhakeme yeteneği ve görev planlama yeteneği gerektiren görevlerde modelin genel başarı oranının ve planlama yeteneğinin önemli ölçüde geliştiği görülmektedir. RLEF ayrıca mevcut VLM eğitim stratejilerinden çok daha verimlidir. Yukarıdaki şekilde gösterilen örnek, RLEF eğitiminden sonra modelin görev planlama yeteneğinin gelişimini de gösterebilir. RLEF tarafından eğitilen modeller, daha karmaşık görevlerle karşı karşıya kaldıklarında ortamda nasıl gezinileceğini anlayabilir ve model, görev planlaması açısından simülasyon ortamının gerçek gereksinimleriyle daha uyumludur (örneğin, modelin etkileşime başlamadan önce etkileşim kurmak için nesneye hareket etmesi gerekir), böylece görev planlamasının başarısızlık oranını azaltır.
Tartışma
Ablasyon Deneyi
Modelin gerçek yeteneklerini değerlendirdikten sonra, araştırmacılar modelin performansını etkileyebilecek bazı olası faktörlere daha yakından baktılar. Aşağıdaki şekilde gösterildiği gibi, araştırmacılar üç açıdan deneyler yaptılar.
Araştırmacılar, yalnızca bir dil modeli, eğitilmiş bir bağlantı katmanı ve bir dil modeli ve tam olarak eğitilmiş bir model ile eğitilmiş bir bağlı katmanın performansını karşılaştırdı. Eğitim parametrelerinin artmasıyla modelin performansının kademeli olarak iyileştirildiği görülebilir. Bu, modelin bazı sabit senaryolarda görevi tamamlayıp tamamlayamayacağı için eğitim parametrelerinin sayısının çok önemli olduğunu gösterir.
Araştırmacılar, iki eğitim aşamasında daha küçük 3B parametreli modelin performansını temel 7B modeliyle karşılaştırdılar. Karşılaştırma yoluyla, modelin genel parametreleri büyük olduğunda, modelin performansının da önemli ölçüde iyileştirileceği görülebilir. Modelin ilgili görevleri tamamlama yeteneğine sahip olabilmesi ve aynı zamanda modelin hafif ve hızlı çıkarım hızını sağlayabilmesi için uygun model eğitim parametrelerinin nasıl seçileceği, VLM alanındaki gelecekteki araştırmalarda kilit bir nokta olacaktır.
Farklı görsel girdilerin gerçek VLM'lerin performansı üzerindeki etkisini araştırmak için, araştırmacılar görsel bilginin girdi sırasını denediler. Test sırasında model, birinci şahıs görüntüleri ve iki kuş bakışı görünümü yakalamak için simülasyon ortamında sırayla döner ve bunlar daha sonra sırayla VLM'ye beslenir. Deneyde, araştırmacı görsel görüntülerin sırasını rastgele karıştırdığında ve daha sonra bunları VLM'ye beslediğinde, VLM büyük bir performans kaybı üretti. Bu, bir yandan VLM için eksiksiz ve yapılandırılmış görsel bilginin önemini gösterirken, diğer yandan VLM'nin görsel girdiye yanıt olarak görsel görüntülerin dahili bağlantısına dayandığını bir dereceye kadar yansıtır ve bu görsel bağlantı koptuğunda, VLM'nin performansını büyük ölçüde etkileyecektir.
Ayrıca araştırmacılar, GPT-4 ve GPT-4V'nin performansını simüle edilmiş bir ortamda test etti ve hesapladı.
GPT-4 söz konusu olduğunda, araştırmacı, eğitim verilerini toplamak için kullanırken olduğu gibi, test sırasında girdi olarak tam olarak aynı metinsel bilgileri sağlar. GPT-4, test görevlerinin yarısını tamamlayabilir, bu da mevcut VLM'nin GPT-4 gibi dil modellerine kıyasla performansta iyileştirme için hala çok fazla alana sahip olduğunu gösterir ve diğer yandan, GPT-4 gibi güçlü performansa sahip dil modellerinin bile somutlaşmış zeka görevleri karşısında görev planlama ve görev yürütme yeteneklerini daha da geliştirmeleri gerektiğini gösterir.
GPT-4V, doğrudan çağrılabilen bir API yayınladığından, araştırmacıların henüz denemek için zamanları olmadı, ancak araştırmacılar GPT-4V'nin performansını göstermek için bazı örnekleri manuel olarak da test ettiler. Araştırmacılar, bazı örnekler aracılığıyla, GPT-4V'nin simülasyon ortamındaki görevler için güçlü bir sıfır atış genelleme yeteneğine sahip olduğuna ve ayrıca görsel girdilere dayalı olarak karşılık gelen yürütülebilir kodu üretebileceğine inanıyor, ancak bazı görev planlamalarında simülasyon ortamında toplanan veriler üzerinde ince ayarlı modelden biraz daha düşük.
Özet
Araştırmacılar mevcut çalışmanın bazı sınırlamalarına işaret ediyor:
Mevcut Ahtapot modeli daha karmaşık görevler için tatmin edici değil. Karmaşık görevlerle karşı karşıya kaldığında, Ahtapot genellikle yanlış planlar yapar ve büyük ölçüde çevreden gelen geri bildirimlere güvenir ve genellikle genel görevi tamamlamak için mücadele eder.
Ahtapot modelleri yalnızca bir simülasyon ortamında eğitilir ve bunların gerçek dünyaya nasıl taşınacağı bir dizi sorunla karşı karşıya kalacaktır. Örneğin, gerçek ortamda, modelin nesnelerin göreceli konumu hakkında daha doğru bilgi edinmesi zorlaşacak ve nesnelerin anlaşılmasının sahneye nasıl inşa edileceği daha zor hale gelecektir.
Ahtapot şu anda ayrık durağan görüntülerin görsel bir girdisidir ve sürekli videoyu nasıl işleyebileceği gelecekte zor olacaktır. Sürekli video, görevi tamamlamak için modelin performansını daha da artırabilir, ancak sürekli görsel girdinin verimli bir şekilde nasıl işleneceği ve anlaşılacağı, VLM'nin performansını daha da iyileştirmenin anahtarı olacaktır.