لجعل نموذج الذكاء الاصطناعي لاعبا من فئة الخمس نجوم في GTA ، فإن العامل الأخطبوط القابل للبرمجة القائم على الرؤية موجود هنا

المصدر الأصلي: قلب الآلة

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

أصبحت ألعاب الفيديو محاكاة لعالم اليوم الحقيقي ، والاحتمالات لا حصر لها. في لعبة Grand Theft Auto (GTA) ، على سبيل المثال ، يمكن للاعبين تجربة حياة ملونة في Los Santos (المدينة الافتراضية للعبة) من منظور الشخص الأول. ومع ذلك ، إذا كان بإمكان لاعب بشري التجول في لوس سانتوس وإكمال عدد من المهام ، فهل يمكننا أيضا الحصول على نموذج رؤية الذكاء الاصطناعي يتحكم في شخصية GTA ويصبح "لاعبا" في المهام؟

حققت النماذج اللغوية البصرية الحالية (VLMs) تقدما كبيرا في الإدراك والتفكير متعدد الوسائط ، ولكنها غالبا ما تستند إلى مهام أبسط للإجابة على الأسئلة المرئية (VQA) أو التعليقات التوضيحية المرئية (Caption). من الواضح أن هذه المهام لا تسمح ل VLM بإنجاز مهام العالم الحقيقي بالفعل. لأن المهمة الفعلية لا تتطلب فقط فهم المعلومات المرئية ، ولكن أيضا قدرة النموذج على الحصول على منطق التخطيط والتغذية الراجعة بناء على المعلومات البيئية المحدثة في الوقت الفعلي. في الوقت نفسه ، تحتاج الخطة الناتجة أيضا إلى أن تكون قادرة على التلاعب بالكيانات في البيئة لإنجاز المهمة بشكل واقعي.

على الرغم من أن نماذج اللغة الحالية (LLMs) يمكنها تخطيط المهام بناء على المعلومات المقدمة ، إلا أنها لا تستطيع فهم المدخلات المرئية ، مما يحد بشكل كبير من نطاق تطبيق نماذج اللغة عند أداء مهام محددة في العالم الحقيقي ، خاصة بالنسبة لبعض مهام الذكاء المجسدة ، غالبا ما يكون من الصعب أن تكون المدخلات المستندة إلى النص مفصلة أو معقدة للغاية ، بحيث لا تستطيع نماذج اللغة استخراج المعلومات منها بكفاءة لإكمال المهمة. قامت نماذج اللغة الحالية ببعض الاستكشافات لتوليد البرنامج ، ولكن لم يتم استكشاف استكشاف إنشاء كود منظم وقابل للتنفيذ وقوي يعتمد على المدخلات المرئية.

من أجل حل مشكلة كيفية جعل النماذج الكبيرة مجسدة وذكية ، وإنشاء أنظمة وعي مستقلة وظرفية يمكنها صياغة الخطط وتنفيذ الأوامر بدقة ، اقترح علماء من جامعة نانيانغ التكنولوجية في سنغافورة ، وجامعة تسينغهوا ، وما إلى ذلك ، الأخطبوط. Octopus هو وكيل قابل للبرمجة قائم على الرؤية يهدف إلى التعلم من خلال المدخلات المرئية وفهم العالم الحقيقي وإنجاز مجموعة متنوعة من مهام العالم الحقيقي بطريقة تولد رمزا قابلا للتنفيذ. تدرب Octopus على أعداد كبيرة من المدخلات المرئية وأزواج التعليمات البرمجية القابلة للتنفيذ ، وتعلم كيفية التعامل مع شخصيات ألعاب الفيديو لإكمال المهام داخل اللعبة أو إكمال الأعمال المنزلية المعقدة.

*عنوان:

  • صفحة ويب المشروع:
  • كود مفتوح المصدر:

جمع البيانات والتدريب

لتدريب نموذج لغة الرؤية القادر على أداء مهام الذكاء المجسدة ، طور الباحثون أيضا OctoVerse ، والذي يتكون من نظامي محاكاة يوفران بيانات التدريب وبيئة اختبار لتدريب الأخطبوط. توفر هاتان البيئتان للمحاكاة سيناريوهات تدريب واختبار قابلة للاستخدام للذكاء المتجسد في VLM ، وتطرح متطلبات أعلى لقدرات الاستدلال وتخطيط المهام الخاصة بالنموذج. وفيما يلي التفاصيل:

  1. OctoGibson: استنادا إلى OmniGibson الذي طورته جامعة ستانفورد ، فإنه يتضمن ما مجموعه 476 نشاطا منزليا حقيقيا. تتضمن بيئة المحاكاة بأكملها 16 فئة مختلفة من سيناريوهات المنزل ، تغطي 155 مثالا على بيئة المنزل في العالم الحقيقي. يمكن للنموذج التعامل مع العدد الكبير من الكائنات القابلة للتفاعل الموجودة فيه لإنجاز المهمة النهائية.

  2. OctoGTA: استنادا إلى لعبة Grand Theft Auto (GTA) ، تم بناء ما مجموعه 20 مهمة وتعميمها في خمسة سيناريوهات مختلفة. ضع اللاعب في وضع ثابت من خلال برنامج محدد مسبقا ، ووفر العناصر والشخصيات غير القابلة للعب اللازمة لإكمال المهمة لضمان إمكانية تنفيذ المهمة بسلاسة.

يوضح الرسم البياني التالي تصنيف مهام OctoGibson وبعض الإحصائيات الخاصة ب OctoGibson و OctoGTA.

من أجل جمع بيانات التدريب بكفاءة في بيئتي المحاكاة ، قام الباحثون ببناء نظام كامل لجمع البيانات. من خلال تقديم GPT-4 كمنفذ للمهمة ، يستخدم الباحثون الوظائف المنفذة مسبقا لمعالجة المدخلات المرئية التي تم جمعها في بيئة المحاكاة إلى معلومات نصية وتقديمها إلى GPT-4 ، ثم تنفيذ الكود في بيئة المحاكاة بعد أن يقوم GPT-4 بإرجاع تخطيط المهمة والتعليمات البرمجية القابلة للتنفيذ للخطوة الحالية ، والحكم على ما إذا كانت مهمة الخطوة الحالية قد اكتملت. إذا نجحت ، فتابع جمع الإدخال المرئي التالي ؛ إذا فشلت ، فارجع إلى موضع البداية للخطوة السابقة وأعد جمع البيانات.

يوضح الرسم البياني أعلاه العملية الكاملة لجمع البيانات باستخدام مهمة Cook a Bacon في بيئة OctoGibson كمثال. تجدر الإشارة إلى أنه في عملية جمع البيانات ، لم يسجل الباحثون المعلومات المرئية أثناء تنفيذ المهمة فحسب ، والرمز القابل للتنفيذ الذي تم إرجاعه بواسطة GPT-4 ، وما إلى ذلك ، ولكنهم سجلوا أيضا نجاح كل مهمة فرعية ، والتي سيتم استخدامها كأساس للإدخال اللاحق للتعلم المعزز لبناء VLM أكثر كفاءة. GPT-4 ، رغم قوته ، ليس معرضا للخطر. يمكن أن تظهر الأخطاء بعدة طرق ، بما في ذلك أخطاء بناء الجملة والتحديات المادية في جهاز المحاكاة. على سبيل المثال ، كما هو موضح في الشكل 3 ، بين الحالتين # 5 و # 6 ، فشل إجراء "ضع لحم الخنزير المقدد في المقلاة" لأن العامل يحمل لحم الخنزير المقدد بعيدا جدا عن المقلاة. مثل هذه النكسات تعيد المهمة إلى حالتها السابقة. إذا لم تكتمل المهمة بعد 10 خطوات، اعتبارها غير ناجحة، ونقوم بإنهاء المهمة لأسباب تتعلق بالميزانية، وتعتبر جميع أزواج البيانات للمهام الفرعية للمهمة غير ناجحة.

بعد جمع مقياس معين من بيانات التدريب ، استخدم الباحثون هذه البيانات لتدريب نموذج لغة رؤية مجسد وذكي ، الأخطبوط. يوضح الرسم البياني أعلاه عملية الحصول على البيانات والتدريب الكاملة. في المرحلة الأولى ، باستخدام البيانات التي تم جمعها للضبط الدقيق الخاضع للإشراف ، تمكن الباحثون من بناء نموذج VLM يمكنه استخدام المعلومات المرئية كمدخلات واتباع تنسيق ثابت للإخراج. في هذه المرحلة ، يكون النموذج قادرا على إكمال تعيين معلومات الإدخال المرئي لخطة المهمة والتعليمات البرمجية القابلة للتنفيذ. في المرحلة الثانية ، قدم المحققون RLEF

يستخدم (التعلم المعزز مع التغذية الراجعة البيئية) نجاح المهام الفرعية التي تم جمعها مسبقا كإشارة مكافأة ، ويتم استخدام خوارزمية التعلم المعزز لزيادة تحسين قدرة تخطيط المهام في VLM ، وبالتالي تحسين معدل النجاح الإجمالي للمهمة.

النتائج التجريبية

اختبر الباحثون VLMs و LLMs السائدة الحالية في بيئة OctoGibson ، ويوضح الجدول التالي النتائج التجريبية الرئيسية. بالنسبة لنماذج الاختبار المختلفة ، يعدد نموذج الرؤية النماذج المرئية المستخدمة من قبل النماذج المختلفة ، وبالنسبة ل LLMs ، يقوم الباحث بمعالجة المعلومات المرئية كنص كمدخل إلى LLM. حيث يرمز O إلى توفير معلومات حول الكائنات القابلة للتفاعل في المشهد ، و R تعني توفير معلومات حول العلاقات النسبية للكائنات في المشهد ، و GT تعني استخدام معلومات حقيقية ودقيقة دون تقديم نماذج مرئية إضافية للكشف.

بالنسبة لجميع مهام الاختبار ، أبلغ الباحثون عن قوة تكامل الاختبار الكاملة ، وقسموها إلى أربع فئات ، والتي سجلت القدرة على إكمال مهام جديدة في السيناريوهات التي كانت موجودة في مجموعة التدريب ، وقدرة التعميم على إكمال المهام الجديدة في سيناريوهات لم تكن موجودة في مجموعة التدريب ، وقدرة التعميم على إكمال مهام المتابعة البسيطة ومهام التفكير المعقدة. بالنسبة لكل فئة من فئات الإحصاءات، أبلغ الباحثون عن مؤشرين للتقييم، أولهما معدل إنجاز المهمة، والذي يقيس معدل نجاح النموذج في إنجاز المهمة الاستخباراتية المجسدة. والثاني هو دقة تخطيط المهام ، والتي تستخدم لتعكس قدرة النموذج على تخطيط المهام.

بالإضافة إلى ذلك ، يعرض الباحثون أمثلة على كيفية استجابة النماذج المختلفة للبيانات المرئية التي تم الحصول عليها في بيئة محاكاة OctoGibson. توضح الصورة أدناه استجابات TAPA + CodeLLaMA و Octopus و GPT-4V للمدخلات المرئية التي تم إنشاؤها في OctoGibson. يمكن ملاحظة أنه بالمقارنة مع TAPA + CodeLLaMA ونموذج الأخطبوط مع الضبط الدقيق الخاضع للإشراف فقط ، فإن نموذج الأخطبوط المدرب باستخدام RLEF لديه تخطيط مهام أكثر منطقية ، ويمكن أن يوفر خطة أكثر اكتمالا حتى بالنسبة لتعليمات المهام الأكثر غموضا (ابحث عن carboy). وتوضح هذه العروض كذلك فعالية استراتيجية التدريب التي يتبعها المنتدى في تحسين قدرة النموذج على تخطيط المهام والقدرة على الاستدلال.

بشكل عام ، لا يزال هناك مجال كبير للتحسين في قدرات إكمال المهام الفعلية وتخطيط المهام للنماذج الحالية في بيئة المحاكاة. لخص الباحثون بعض النتائج الرئيسية:

**1.يمكن ل CodeLLaMA تحسين قدرة إنشاء التعليمات البرمجية للنموذج ، ولكن ليس القدرة على تخطيط المهام. **

وأشار الباحثون إلى أن النتائج التجريبية تظهر أن CodeLLaMA يمكن أن يحسن بشكل كبير من قدرة توليد الكود للنموذج. بالمقارنة مع LLMs التقليدية ، يتيح CodeLLaMA رمزا أفضل بمعدلات أعلى قابلة للتنفيذ. ومع ذلك ، على الرغم من أن بعض الطرز تستخدم CodeLLaMA لإنشاء التعليمات البرمجية ، إلا أن معدل النجاح الإجمالي للمهمة لا يزال محدودا بقدرة تخطيط المهمة. من ناحية أخرى ، الأخطبوط ، على الرغم من انخفاض معدل التعليمات البرمجية القابلة للتنفيذ بسبب نقص CodeLLaMA ، إلا أن معدل نجاح المهمة الإجمالي لا يزال أفضل من معدل النماذج الأخرى نظرا لقدرته القوية على تخطيط المهام.

** 2.LLMs يصعب التعامل معها في مواجهة كمية كبيرة من إدخال النص. **

في عملية الاختبار الفعلية ، قارن الباحثون النتائج التجريبية ل TAPA و CodeLLaMA وتوصلوا إلى استنتاج مفاده أنه من الصعب على نماذج اللغة التعامل مع إدخال النص الطويل بشكل جيد. اتبع الباحثون نهج TAPA واستخدموا معلومات الكائن الحقيقي لتخطيط المهمة ، بينما استخدم CodeLLaMA علاقات الموقع النسبية بين الكائنات لتوفير معلومات أكثر اكتمالا. ومع ذلك ، في سياق التجربة ، وجد الباحثون أنه نظرا للكمية الكبيرة من المعلومات الزائدة عن الحاجة في البيئة ، عندما تكون البيئة أكثر تعقيدا ، يزداد إدخال النص بشكل كبير ، ويصعب على LLMs استخراج أدلة قيمة من كمية كبيرة من المعلومات الزائدة عن الحاجة ، وبالتالي تقليل معدل نجاح المهمة. وهذا يعكس أيضا القيود المفروضة على LLMs ، والتي تتمثل في أن استخدام المعلومات النصية لتمثيل السيناريوهات المعقدة يمكن أن يؤدي إلى كمية كبيرة من المدخلات الزائدة عن الحاجة والتي لا قيمة لها.

  1. أظهر الأخطبوط قدرة جيدة على تعميم المهام. **

من خلال النتائج التجريبية ، يمكن الاستنتاج أن الأخطبوط لديه قدرة قوية على تعميم المهام. معدل نجاح إكمال المهمة وتخطيط المهام في السيناريوهات الجديدة التي لا تظهر في مجموعة التدريب أفضل من تلك الموجودة في النماذج الحالية. يوضح هذا أيضا بعض المزايا الكامنة في نماذج اللغة المرئية ، والتي هي أكثر قابلية للتعميم من LLMs التقليدية لنفس الفئة من المهام.

  1. يعزز RLEF قدرات تخطيط المهام للنموذج. **

في النتائج التجريبية ، قدم الباحثون مقارنة لأداء النموذج الذي خضع فقط للمرحلة الأولى من الضبط الدقيق الخاضع للإشراف والنموذج الذي تم تدريبه بواسطة RLEF. يمكن ملاحظة أنه بعد تدريب RLEF ، تم تحسين معدل النجاح العام والقدرة على التخطيط للنموذج بشكل كبير في المهام التي تتطلب قدرة قوية على التفكير والقدرة على تخطيط المهام. RLEF هو أيضا أكثر كفاءة بكثير من استراتيجيات التدريب VLM الحالية. يمكن أن يوضح المثال الموضح في الشكل أعلاه أيضا تحسين قدرة تخطيط مهام النموذج بعد تدريب RLEF. النماذج المدربة على RLEF قادرة على فهم كيفية التنقل في البيئة عند مواجهة مهام أكثر تعقيدا ، والنموذج أكثر توافقا مع المتطلبات الفعلية لبيئة المحاكاة من حيث تخطيط المهام (على سبيل المثال ، يحتاج النموذج إلى الانتقال إلى الكائن للتفاعل قبل أن يتمكن من بدء التفاعل) ، وبالتالي تقليل معدل فشل تخطيط المهام.

مناقشة

تجربة الاجتثاث

بعد تقييم القدرات الفعلية للنموذج ، ألقى الباحثون نظرة فاحصة على بعض العوامل المحتملة التي يمكن أن تؤثر على أداء النموذج. كما هو موضح في الشكل أدناه ، أجرى الباحثون تجارب من ثلاثة جوانب.

  1. وزن معلمات التدريب

قارن الباحثون أداء طبقة متصلة مدربة فقط مع نموذج اللغة ، وطبقة الاتصال المدربة ونموذج اللغة ، ونموذج التدريب الكامل. يمكن ملاحظة أنه مع زيادة معلمات التدريب ، يتم تحسين أداء النموذج تدريجيا. يوضح هذا أن عدد معلمات التدريب أمر بالغ الأهمية لما إذا كان النموذج يمكنه إكمال المهمة في بعض السيناريوهات الثابتة.

  1. حجم النموذج

قارن الباحثون أداء نموذج معلمة 3B الأصغر مع نموذج خط الأساس 7B في مرحلتي التدريب. من خلال المقارنة ، يمكن ملاحظة أنه عندما تكون المعلمات العامة للنموذج كبيرة ، سيتم أيضا تحسين أداء النموذج بشكل كبير. كيفية اختيار معلمات تدريب النموذج المناسبة ، بحيث يمكن أن يكون للنموذج القدرة على إكمال المهام المقابلة ، وفي الوقت نفسه ضمان سرعة الاستدلال خفيفة الوزن والسريعة للنموذج ، ستكون نقطة رئيسية في البحث المستقبلي في مجال VLM.

  1. استمرارية المدخلات المرئية

من أجل استكشاف تأثير المدخلات المرئية المختلفة على أداء VLMs الفعلية ، جرب الباحثون ترتيب إدخال المعلومات المرئية. أثناء الاختبار ، يدور النموذج بالتتابع في بيئة المحاكاة لالتقاط صور من منظور الشخص الأول وعرضين من منظور عين الطائر ، والتي يتم إدخالها بعد ذلك بالتتابع في VLM. في التجربة ، عندما قام الباحث بخلط ترتيب الصور المرئية بشكل عشوائي ثم إدخالها في VLM ، أنتج VLM خسارة كبيرة في الأداء. من ناحية ، يوضح هذا أهمية المعلومات المرئية الكاملة والمنظمة ل VLM ، ومن ناحية أخرى ، فإنه يعكس أيضا إلى حد ما أن VLM يعتمد على الاتصال الداخلي للصور المرئية استجابة للمدخلات المرئية ، وبمجرد كسر هذا الاتصال البصري ، سيؤثر بشكل كبير على أداء VLM.

جي بي تي-4

بالإضافة إلى ذلك ، قام الباحثون أيضا باختبار وحساب أداء GPT-4 و GPT-4V في بيئة محاكاة.

1.GPT-4

في حالة GPT-4 ، يقدم الباحث نفس المعلومات النصية بالضبط مثل المدخلات أثناء الاختبار كما هو الحال عند استخدامه لجمع بيانات التدريب. يمكن ل GPT-4 إكمال نصف مهام الاختبار ، مما يدل على أن VLM الحالي لا يزال لديه مجال كبير لتحسين الأداء مقارنة بنماذج اللغة مثل GPT-4 ، ومن ناحية أخرى ، فإنه يظهر أيضا أنه حتى نماذج اللغة ذات الأداء القوي مثل GPT-4 لا تزال بحاجة إلى زيادة تحسين تخطيط المهام وقدرات تنفيذ المهام في مواجهة المهام الاستخباراتية المجسدة.

2.GPT-4V

نظرا لأن GPT-4V قد أصدرت للتو واجهة برمجة تطبيقات يمكن استدعاؤها مباشرة ، لم يتح للباحثين الوقت الكافي لتجربتها ، لكن الباحثين اختبروا أيضا بعض الأمثلة يدويا لإثبات أداء GPT-4V. من خلال بعض الأمثلة ، يعتقد الباحثون أن GPT-4V لديه قدرة تعميم قوية على الإطلاق للمهام في بيئة المحاكاة ، ويمكنه أيضا إنشاء رمز قابل للتنفيذ مقابل بناء على المدخلات المرئية ، ولكنه أدنى قليلا من النموذج الدقيق على البيانات التي تم جمعها في بيئة المحاكاة في بعض تخطيط المهام.

ملخص

يشير الباحثون إلى بعض القيود على العمل الحالي:

  1. نموذج الأخطبوط الحالي غير مرض للمهام الأكثر تعقيدا. عند مواجهة المهام المعقدة ، غالبا ما يضع Octopus خططا غير صحيحة ويعتمد بشكل كبير على التعليقات من البيئة ، وغالبا ما ينتهي به الأمر إلى النضال لإكمال المهمة الإجمالية.

  2. يتم تدريب نماذج الأخطبوط فقط في بيئة محاكاة ، وستواجه كيفية ترحيلها إلى العالم الحقيقي سلسلة من المشاكل. على سبيل المثال ، في البيئة الحقيقية ، سيكون من الصعب على النموذج الحصول على معلومات أكثر دقة حول الموضع النسبي للكائنات ، وستصبح كيفية بناء فهم الكائنات في المشهد أكثر صعوبة.

  3. الأخطبوط هو حاليا مدخل مرئي للصور الثابتة المنفصلة ، وكيفية جعله قادرا على التعامل مع الفيديو المستمر سيكون تحديا في المستقبل. يمكن للفيديو المستمر تحسين أداء النموذج لإكمال المهمة ، ولكن كيفية معالجة وفهم الإدخال المرئي المستمر بكفاءة سيكون المفتاح لزيادة تحسين أداء VLM.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت