Untuk menjadikan model AI sebagai pemain bintang lima GTA, agen Octopus yang dapat diprogram berbasis visi ada di sini

Sumber asli: Heart of the Machine

Sumber gambar: Dihasilkan oleh Unbounded AI

Video game telah menjadi simulasi dunia nyata saat ini, dan kemungkinannya tidak terbatas. Dalam game Grand Theft Auto (GTA), misalnya, pemain dapat merasakan kehidupan penuh warna di Los Santos (kota virtual game) dari sudut pandang orang pertama. Namun, jika seorang pemain manusia bisa berkeliaran di Los Santos dan menyelesaikan sejumlah misi, apakah kita juga bisa memiliki model visi AI yang mengontrol karakter GTA dan menjadi "pemain" dalam misi?

Model visual-linguistik (VLM) saat ini telah membuat kemajuan substansial dalam persepsi dan penalaran multimodal, tetapi mereka sering didasarkan pada tugas jawaban pertanyaan visual (VQA) atau anotasi visual (Caption) yang lebih sederhana. Jelas, tugas-tugas ini tidak memungkinkan VLM untuk benar-benar menyelesaikan tugas-tugas dunia nyata. Karena tugas yang sebenarnya tidak hanya membutuhkan pemahaman informasi visual, tetapi juga kemampuan model untuk memiliki penalaran perencanaan dan umpan balik berdasarkan informasi lingkungan yang diperbarui secara real-time. Pada saat yang sama, rencana yang dihasilkan juga harus dapat memanipulasi entitas di lingkungan untuk menyelesaikan tugas secara realistis.

Meskipun model bahasa yang ada (LLM) dapat merencanakan tugas berdasarkan informasi yang diberikan, mereka tidak dapat memahami input visual, yang sangat membatasi ruang lingkup aplikasi model bahasa ketika melakukan tugas-tugas tertentu di dunia nyata, terutama untuk beberapa tugas intelijen yang diwujudkan, input berbasis teks seringkali sulit untuk dirinci atau terlalu rumit, sehingga model bahasa tidak dapat secara efisien mengekstrak informasi dari mereka untuk menyelesaikan tugas. Model bahasa saat ini telah membuat beberapa eksplorasi untuk pembuatan program, tetapi eksplorasi menghasilkan kode terstruktur, dapat dieksekusi, dan kuat berdasarkan input visual belum dieksplorasi.

Untuk memecahkan masalah bagaimana membuat model besar terwujud dan cerdas, dan menciptakan sistem kesadaran otonom dan situasional yang dapat secara akurat merumuskan rencana dan melaksanakan perintah, para sarjana dari Universitas Teknologi Nanyang di Singapura, Universitas Tsinghua, dll., mengusulkan Octopus. Octopus adalah agen yang dapat diprogram berbasis visi yang tujuannya adalah untuk belajar melalui input visual, memahami dunia nyata, dan menyelesaikan berbagai tugas dunia nyata dengan cara yang menghasilkan kode yang dapat dieksekusi. Terlatih dalam sejumlah besar input visual dan pasangan kode yang dapat dieksekusi, Octopus belajar bagaimana memanipulasi karakter video game untuk menyelesaikan tugas dalam game atau menyelesaikan pekerjaan rumah tangga yang kompleks.

*Alamat:

  • Halaman Web Proyek:
  • Kode sumber terbuka:

Pengumpulan & Pelatihan Data

Untuk melatih model visi-bahasa yang mampu melakukan tugas-tugas intelijen yang diwujudkan, para peneliti juga mengembangkan OctoVerse, yang terdiri dari dua sistem simulasi yang menyediakan data pelatihan dan lingkungan pengujian untuk pelatihan Octopus. Kedua lingkungan simulasi ini memberikan skenario pelatihan dan pengujian yang dapat digunakan untuk kecerdasan VLM yang diwujudkan, dan mengajukan persyaratan yang lebih tinggi untuk inferensi model dan kemampuan perencanaan tugas. Rinciannya adalah sebagai berikut:

  1. OctoGibson: Berdasarkan OmniGibson yang dikembangkan oleh Stanford University, ini mencakup total 476 kegiatan rumah tangga kehidupan nyata. Seluruh lingkungan simulasi mencakup 16 kategori skenario rumah yang berbeda, yang mencakup 155 contoh lingkungan rumah dunia nyata. Model ini dapat memanipulasi sejumlah besar objek berinteraksi yang ada di dalamnya untuk menyelesaikan tugas akhir.

  2. OctoGTA: Berdasarkan game Grand Theft Auto (GTA), total 20 misi dibangun dan digeneralisasi menjadi lima skenario berbeda. Atur pemain dalam posisi tetap melalui program yang telah ditentukan sebelumnya, dan berikan item dan NPC yang diperlukan untuk menyelesaikan misi untuk memastikan bahwa misi dapat dilakukan dengan lancar.

Diagram berikut menunjukkan klasifikasi tugas OctoGibson dan beberapa statistik untuk OctoGibson dan OctoGTA.

Untuk mengumpulkan data pelatihan secara efisien di dua lingkungan simulasi, para peneliti membangun sistem pengumpulan data yang lengkap. Dengan memperkenalkan GPT-4 sebagai pelaksana tugas, para peneliti menggunakan fungsi pra-implementasi untuk memproses input visual yang dikumpulkan di lingkungan simulasi menjadi informasi teks dan memberikannya kepada GPT-4, dan kemudian mengeksekusi kode di lingkungan simulasi setelah GPT-4 mengembalikan perencanaan tugas dan kode yang dapat dieksekusi dari langkah saat ini, dan menilai apakah tugas langkah saat ini selesai. Jika berhasil, lanjutkan untuk mengumpulkan input visual berikutnya; Jika gagal, kembali ke posisi awal langkah sebelumnya dan kumpulkan kembali data.

Diagram di atas menggambarkan proses lengkap pengumpulan data menggunakan tugas Cook a Bacon di lingkungan OctoGibson sebagai contoh. Harus ditunjukkan bahwa dalam proses pengumpulan data, para peneliti tidak hanya mencatat informasi visual selama pelaksanaan tugas, kode yang dapat dieksekusi yang dikembalikan oleh GPT-4, dll., Tetapi juga mencatat keberhasilan setiap subtugas, yang akan digunakan sebagai dasar untuk pengenalan pembelajaran penguatan selanjutnya untuk membangun VLM yang lebih efisien. GPT-4, meski kuat, tidak kebal. Kesalahan dapat memanifestasikan dirinya dalam berbagai cara, termasuk kesalahan sintaks dan tantangan fisik dalam simulator. Misalnya, seperti yang ditunjukkan pada Gambar 3, antara negara bagian #5 dan #6, tindakan "Put Bacon in the Pan" gagal karena Agen memegang bacon terlalu jauh dari panci. Kemunduran seperti itu mengatur ulang tugas ke keadaan sebelumnya. Jika tugas tidak selesai setelah 10 langkah, tugas dianggap tidak berhasil, kami menghentikan tugas karena alasan anggaran, dan semua pasangan data dari subtugas tugas dianggap tidak berhasil.

Setelah mengumpulkan skala data pelatihan tertentu, para peneliti menggunakan data ini untuk melatih model bahasa visi yang diwujudkan dan cerdas, Octopus. Diagram di atas menunjukkan proses akuisisi dan pelatihan data yang lengkap. Pada tahap pertama, dengan menggunakan data yang dikumpulkan untuk fine-tuning yang diawasi, para peneliti dapat membangun model VLM yang dapat menggunakan informasi visual sebagai input dan mengikuti format tetap untuk output. Pada tahap ini, model mampu menyelesaikan pemetaan informasi input visual ke rencana tugas dan kode yang dapat dieksekusi. Pada tahap kedua, para peneliti memperkenalkan RLEF

(Pembelajaran Penguatan dengan Umpan Balik Lingkungan) menggunakan keberhasilan subtugas yang dikumpulkan sebelumnya sebagai sinyal hadiah, dan algoritma pembelajaran penguatan digunakan untuk lebih meningkatkan kemampuan perencanaan tugas VLM, sehingga meningkatkan tingkat keberhasilan tugas secara keseluruhan.

Hasil Eksperimental

Para peneliti menguji VLM dan LLM arus utama saat ini di lingkungan OctoGibson, dan tabel berikut menunjukkan hasil eksperimen utama. Untuk model uji yang berbeda, Model Visi menyebutkan model visual yang digunakan oleh model yang berbeda, dan untuk LLM, peneliti memproses informasi visual sebagai teks sebagai input ke LLM. di mana O adalah singkatan dari memberikan informasi tentang objek yang dapat berinteraksi di tempat kejadian, R adalah singkatan dari memberikan informasi tentang hubungan relatif objek dalam adegan, dan GT adalah singkatan dari menggunakan informasi nyata dan akurat tanpa memperkenalkan model visual tambahan untuk deteksi.

Untuk semua tugas tes, para peneliti melaporkan kekuatan integrasi tes lengkap, dan selanjutnya membaginya menjadi empat kategori, yang mencatat kemampuan untuk menyelesaikan tugas-tugas baru dalam skenario yang ada dalam set pelatihan, kemampuan generalisasi untuk menyelesaikan tugas-tugas baru dalam skenario yang tidak ada dalam set pelatihan, dan kemampuan generalisasi untuk menyelesaikan tugas-tugas sederhana dan tugas penalaran yang kompleks. Untuk setiap kategori statistik, para peneliti melaporkan dua indikator evaluasi, yang pertama adalah tingkat penyelesaian tugas, yang mengukur tingkat keberhasilan model dalam menyelesaikan tugas intelijen yang diwujudkan; Yang kedua adalah akurasi perencanaan tugas, yang digunakan untuk mencerminkan kemampuan model untuk merencanakan tugas.

Selain itu, para peneliti menunjukkan contoh bagaimana model yang berbeda menanggapi data visual yang diperoleh di lingkungan simulasi OctoGibson. Gambar di bawah ini menunjukkan respons TAPA + CodeLLaMA, Octopus, dan GPT-4V terhadap input visual yang dihasilkan di OctoGibson. Dapat dilihat bahwa dibandingkan dengan TAPA + CodeLLaMA dan model Octopus dengan hanya fine-tuning yang diawasi, model Octopus yang dilatih dengan RLEF memiliki perencanaan tugas yang lebih masuk akal, dan dapat memberikan rencana yang lebih lengkap bahkan untuk instruksi tugas yang lebih ambigu (temukan carboy). Pertunjukan ini lebih lanjut menggambarkan efektivitas strategi pelatihan RLEF dalam meningkatkan kemampuan perencanaan tugas model dan kemampuan inferensi.

Secara umum, masih ada banyak ruang untuk perbaikan dalam penyelesaian tugas aktual dan kemampuan perencanaan tugas dari model yang ada di lingkungan simulasi. Para peneliti merangkum beberapa temuan kunci:

** 1.CodeLLaMA dapat meningkatkan kemampuan pembuatan kode model, tetapi bukan kemampuan perencanaan tugas. **

Para peneliti menunjukkan bahwa hasil eksperimen menunjukkan bahwa CodeLLaMA dapat secara signifikan meningkatkan kemampuan pembuatan kode model. Dibandingkan dengan LLM tradisional, CodeLLaMA memungkinkan kode yang lebih baik dengan tingkat eksekusi yang lebih tinggi. Namun, meskipun beberapa model menggunakan CodeLLaMA untuk pembuatan kode, tingkat keberhasilan keseluruhan tugas masih dibatasi oleh kemampuan perencanaan tugas. Di sisi lain, Octopus, meskipun tingkat kode yang dapat dieksekusi telah menurun karena kurangnya CodeLLaMA, tingkat keberhasilan tugas secara keseluruhan masih lebih baik daripada model lain karena kemampuan perencanaan tugasnya yang kuat.

**2.LLM sulit ditangani dalam menghadapi input teks dalam jumlah besar. **

Dalam proses pengujian yang sebenarnya, para peneliti membandingkan hasil eksperimen TAPA dan CodeLLaMA dan sampai pada kesimpulan bahwa sulit bagi model bahasa untuk menangani input teks panjang dengan baik. Para peneliti mengikuti pendekatan TAPA dan menggunakan informasi objek nyata untuk perencanaan misi, sementara CodeLLaMA menggunakan hubungan posisi relatif antara objek untuk memberikan informasi yang lebih lengkap. Namun, dalam perjalanan percobaan, para peneliti menemukan bahwa karena sejumlah besar informasi yang berlebihan di lingkungan, ketika lingkungan lebih kompleks, input teks meningkat secara signifikan, dan sulit bagi LLM untuk mengekstrak petunjuk berharga dari sejumlah besar informasi yang berlebihan, sehingga mengurangi tingkat keberhasilan tugas. Ini juga mencerminkan keterbatasan LLM, yaitu bahwa penggunaan informasi tekstual untuk mewakili skenario yang kompleks dapat menghasilkan sejumlah besar input yang berlebihan dan tidak berharga.

  1. Gurita telah menunjukkan kemampuan generalisasi tugas yang baik. **

Melalui hasil eksperimen, dapat disimpulkan bahwa Gurita memiliki kemampuan yang kuat untuk menggeneralisasi tugas. Tingkat keberhasilan penyelesaian tugas dan perencanaan tugas dalam skenario baru yang tidak muncul dalam set pelatihan lebih baik daripada model yang ada. Ini juga menunjukkan beberapa keuntungan yang melekat pada model bahasa visual, yang lebih dapat digeneralisasikan daripada LLM tradisional untuk kelas tugas yang sama.

  1. RLEF meningkatkan kemampuan perencanaan tugas model. **

Dalam hasil eksperimen, para peneliti memberikan perbandingan kinerja model yang hanya mengalami tahap pertama fine-tuning yang diawasi dan model yang telah dilatih oleh RLEF. Dapat dilihat bahwa setelah pelatihan RLEF, tingkat keberhasilan keseluruhan dan kemampuan perencanaan model telah meningkat secara signifikan pada tugas-tugas yang membutuhkan kemampuan penalaran yang kuat dan kemampuan perencanaan tugas. RLEF juga jauh lebih efisien daripada strategi pelatihan VLM yang ada. Contoh yang ditunjukkan pada gambar di atas juga dapat menggambarkan peningkatan kemampuan perencanaan tugas model setelah pelatihan RLEF. Model yang dilatih RLEF dapat memahami bagaimana menavigasi lingkungan ketika dihadapkan dengan tugas yang lebih kompleks, dan model ini lebih sesuai dengan persyaratan aktual dari lingkungan simulasi dalam hal perencanaan tugas (misalnya, model perlu pindah ke objek untuk berinteraksi sebelum dapat mulai berinteraksi), sehingga mengurangi tingkat kegagalan perencanaan tugas.

Pembahasan

Percobaan Ablasi

Setelah mengevaluasi kemampuan aktual model, para peneliti melihat lebih dekat beberapa faktor yang mungkin dapat mempengaruhi kinerja model. Seperti yang ditunjukkan pada gambar di bawah ini, para peneliti melakukan eksperimen dari tiga aspek.

  1. Berat parameter pelatihan

Para peneliti membandingkan kinerja lapisan terhubung yang dilatih hanya dengan model bahasa, lapisan koneksi terlatih dan model bahasa, dan model yang sepenuhnya terlatih. Dapat dilihat bahwa dengan peningkatan parameter pelatihan, kinerja model ditingkatkan secara bertahap. Ini menunjukkan bahwa jumlah parameter pelatihan sangat penting untuk menentukan apakah model dapat menyelesaikan tugas dalam beberapa skenario tetap.

  1. Ukuran model

Para peneliti membandingkan kinerja model parameter 3B yang lebih kecil dengan model 7B dasar dalam dua fase pelatihan. Melalui perbandingan, dapat dilihat bahwa ketika parameter keseluruhan model besar, kinerja model juga akan meningkat secara signifikan. Bagaimana memilih parameter pelatihan model yang sesuai, sehingga model dapat memiliki kemampuan untuk menyelesaikan tugas yang sesuai, dan pada saat yang sama memastikan kecepatan inferensi model yang ringan dan cepat, akan menjadi titik kunci dalam penelitian masa depan di bidang VLM.

  1. Kontinuitas input visual

Untuk mengeksplorasi dampak input visual yang berbeda pada kinerja VLM aktual, para peneliti bereksperimen dengan urutan input informasi visual. Selama pengujian, model berputar secara berurutan di lingkungan simulasi untuk menangkap gambar orang pertama dan dua pandangan mata burung, yang kemudian secara berurutan dimasukkan ke dalam VLM. Dalam percobaan, ketika peneliti secara acak mengocok urutan gambar visual dan kemudian memasukkannya ke VLM, VLM menghasilkan kerugian kinerja yang besar. Di satu sisi, ini menggambarkan pentingnya informasi visual yang lengkap dan terstruktur untuk VLM, dan di sisi lain, ini juga mencerminkan sampai batas tertentu bahwa VLM bergantung pada koneksi internal gambar visual sebagai respons terhadap input visual, dan begitu koneksi visual ini terputus, itu akan sangat mempengaruhi kinerja VLM.

GPT-4

Selain itu, para peneliti juga menguji dan menghitung kinerja GPT-4 dan GPT-4V dalam lingkungan simulasi.

1.GPT-4

Dalam kasus GPT-4, peneliti memberikan informasi tekstual yang sama persis dengan input selama tes seperti ketika menggunakannya untuk mengumpulkan data pelatihan. GPT-4 dapat menyelesaikan setengah dari tugas pengujian, yang menunjukkan bahwa VLM yang ada masih memiliki banyak ruang untuk peningkatan kinerja dibandingkan dengan model bahasa seperti GPT-4, dan di sisi lain, ini juga menunjukkan bahwa bahkan model bahasa dengan kinerja yang kuat seperti GPT-4 masih perlu lebih meningkatkan perencanaan tugas dan kemampuan pelaksanaan tugas mereka dalam menghadapi tugas intelijen yang diwujudkan.

2.GPT-4V

Karena GPT-4V baru saja merilis API yang dapat dipanggil secara langsung, para peneliti belum sempat mencobanya, tetapi para peneliti juga telah menguji secara manual beberapa contoh untuk menunjukkan kinerja GPT-4V. Melalui beberapa contoh, para peneliti percaya bahwa GPT-4V memiliki kemampuan generalisasi zero-shot yang kuat untuk tugas-tugas di lingkungan simulasi, dan juga dapat menghasilkan kode eksekusi yang sesuai berdasarkan input visual, tetapi sedikit lebih rendah daripada model yang disetel dengan baik pada data yang dikumpulkan di lingkungan simulasi dalam beberapa perencanaan tugas.

Ringkasan

Para peneliti menunjukkan beberapa keterbatasan pekerjaan saat ini:

  1. Model Octopus saat ini tidak memuaskan untuk tugas yang lebih kompleks. Ketika dihadapkan dengan tugas-tugas kompleks, Octopus sering membuat rencana yang salah dan sangat bergantung pada umpan balik dari lingkungan, sering berakhir berjuang untuk menyelesaikan keseluruhan tugas.

  2. Model gurita hanya dilatih dalam lingkungan simulasi, dan cara memigrasikannya ke dunia nyata akan menghadapi serangkaian masalah. Misalnya, di lingkungan nyata, akan sulit bagi model untuk mendapatkan informasi yang lebih akurat tentang posisi relatif objek, dan bagaimana membangun pemahaman objek ke dalam adegan akan menjadi lebih sulit.

  3. Octopus saat ini merupakan input visual dari gambar diam diskrit, dan bagaimana membuatnya mampu menangani video berkelanjutan akan menjadi tantangan di masa depan. Video berkelanjutan dapat lebih meningkatkan kinerja model untuk menyelesaikan tugas, tetapi bagaimana memproses dan memahami input visual berkelanjutan secara efisien akan menjadi kunci untuk lebih meningkatkan kinerja VLM.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)