تقترح جامعة ستانفورد التعلم بالتفضيل التقابلي: التعلم من ردود الفعل البشرية دون تعزيز التعلم

مصدر المقال: قلب الآلة

نحن نعلم أن نجاح ChatGPT لا ينفصل عن "السلاح السري" ل RLHF. ومع ذلك ، فإن RLHF ليس خاليا من العيوب ، وهناك تحديات تحسين صعبة للتعامل معها. في هذه الورقة ، يستكشف فريق من جامعة ستانفورد ومؤسسات بحثية أخرى استبدال "التعلم المعزز" ب "التعلم المفضل للتباين" ، والذي يتمتع بأداء جيد من حيث السرعة والأداء.

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

أصبح التعلم المعزز القائم على التغذية الراجعة البشرية (RLHF) نموذجا شائعا من حيث مواءمة النماذج مع النوايا البشرية. عادة ، تعمل خوارزميات RLHF على مرحلتين: أولا ، تعلم وظيفة المكافأة باستخدام التفضيلات البشرية ، وثانيا ، مواءمة النموذج عن طريق تحسين المكافأة المكتسبة باستخدام التعلم المعزز.

يفترض نموذج RLHF أن توزيع التفضيلات البشرية يتبع المكافأة ، لكن الدراسات الحديثة تشير إلى أن هذا ليس هو الحال ، وأن التفضيلات البشرية تتبع في الواقع قيمة الندم للاستراتيجية المثلى للمستخدم. وبالتالي ، فإن وظائف مكافأة التعلم القائمة على التغذية الراجعة لا تستند فقط إلى افتراض خاطئ حول التفضيلات البشرية ، ولكنها تؤدي أيضا إلى ألغاز تحسين مستعصية تأتي من تدرجات السياسة أو التمهيد في التعلم المعزز.

بسبب تحديات التحسين هذه ، تقتصر أساليب RLHF اليوم على إعدادات قطاع الطرق القائمة على السياق (على سبيل المثال ، في نماذج اللغة الكبيرة) أو بأبعادها الخاصة للمراقبة (على سبيل المثال ، الروبوتات القائمة على الدولة).

للتغلب على هذه التحديات ، اقترح فريق من الباحثين في جامعة ستانفورد وجامعات أخرى سلسلة من الخوارزميات الجديدة التي يمكنها استخدام نموذج تفضيل بشري يعتمد على الندم لتحسين السلوك عند استخدام التعليقات البشرية ، بدلا من نموذج مجزي جزئيا مقبول على نطاق واسع من قبل المجتمع ويأخذ في الاعتبار فقط مجموع المكافآت. على عكس نماذج العائد الجزئي ، توفر النماذج القائمة على الندم معلومات مباشرة حول الإستراتيجية المثلى.

وقد أدت هذه الآلية إلى نتيجة محظوظة: التعلم المعزز لم يعد ضروريا!

بهذه الطريقة ، يمكن حل مشاكل RLHF في إطار MDP للأغراض العامة مع حالات عالية الأبعاد ومساحات عمل.

اقترح الباحثون أن البصيرة الأساسية لنتائج أبحاثهم هي أن الجمع بين إطار التفضيل القائم على الندم ومبدأ الانتروبيا القصوى (MaxEnt) يمكن أن يحصل على ثنائية بين الوظيفة المهيمنة والاستراتيجية. من خلال استبدال تحسين الميزة بتحسين الإستراتيجية ، يمكن اشتقاق هدف التعلم الخالص تحت الإشراف ، وقيمته المثلى هي الاستراتيجية المثلى تحت مكافأة الخبراء. أطلق الفريق على النهج اسم التعلم التفضيلي التقابلي (CPL) لأنه يشبه الهدف المقبول على نطاق واسع للتعلم التقابلي.

*عنوان:

  • عنوان الرمز:

CPL لديها ثلاث مزايا رئيسية على النهج السابقة.

أولا ، تتدرج CPL مثل التعلم الخاضع للإشراف لأنه يستخدم فقط الأهداف الخاضعة للإشراف لمطابقة نقاط القوة المثلى دون استخدام أي تدرجات استراتيجية أو برمجة ديناميكية.

ثانيا ، CPL هو نهج خارج السياسة تماما ، لذلك يمكنه استخدام أي مصدر بيانات دون المستوى الأمثل دون الاتصال بالإنترنت بشكل فعال.

ثالثا ، يمكن تطبيق CPL على أي عملية قرار ماركوف (MDP) بحيث يمكنها التعلم من استعلامات التفضيل على بيانات التسلسل.

وفقا للفريق ، لم تستوف أي من طرق RLHF السابقة جميع هذه المعايير الثلاثة. من أجل إظهار أن طريقة CPL تتوافق مع الأوصاف الثلاثة المذكورة أعلاه ، أجرى الباحثون تجارب ، وأظهرت النتائج أن الطريقة يمكن أن تتعامل بفعالية مع مشكلة اتخاذ القرار المتسلسل مع بيانات استراتيجية التفكك دون المستوى الأمثل وعالية الأبعاد.

والجدير بالذكر أنهم وجدوا أن CPL كانت قادرة على تعلم الاستراتيجيات التشغيلية بشكل فعال والتي تتوسع بمرور الوقت باستخدام نفس عملية الضبط الدقيق RLHF مثل نموذج المحادثة على معيار MetaWorld.

على وجه التحديد ، يستخدمون نهج التعلم الخاضع للإشراف لاستراتيجيات التدريب المسبق على مراقبة الصور عالية الأبعاد ثم ضبطها باستخدام التفضيلات. بدون الحاجة إلى البرمجة الديناميكية أو تدرجات السياسة ، يمكن ل CPL تحقيق نفس الأداء مثل النهج القائم على التعلم المعزز مسبقا. في الوقت نفسه ، تكون طريقة CPL أسرع 1.6 مرة وكفاءة المعلمة أسرع بأربع مرات. عند استخدام بيانات تفضيلات أكثر كثافة ، تفوق أداء CPL على التعلم المعزز في 5 من 6 مهام.

التعلم التفضيلي التقابلي

الفكرة الأساسية لهذا النهج بسيطة: وجد الباحثون أنه عند استخدام إطار تعلم تعزيز الإنتروبيا القصوى ، يمكن استبدال وظيفة الهيمنة المستخدمة في نموذج تفضيل الندم بسهولة بالاحتمال اللوغاريتمي للاستراتيجية. ومع ذلك ، فإن هذا الاستبدال البسيط يمكن أن يحقق فوائد ضخمة. إذا كنت تستخدم الاحتمال اللوغاريتمي للاستراتيجية ، فلن تحتاج إلى تعلم وظيفة الميزة أو التعامل مع مشاكل التحسين المرتبطة بخوارزميات التعلم الشبيهة بالتعزيز.

يقول الباحثون إن هذا لا يخلق فقط نموذجا أكثر توافقا لتفضيل الندم ، ولكن يمكنه أيضا الاعتماد كليا على التعلم الخاضع للإشراف للتعلم من التعليقات البشرية.

يتم اشتقاق هدف CPL أولا ، ويظهر أنه بالنسبة لوظيفة مكافأة المستخدم الخبير r \ _E مع البيانات غير المحدودة ، تتقارب الطريقة مع الإستراتيجية المثلى. سيتم بعد ذلك شرح العلاقة بين CPL وطرق التعلم الأخرى الخاضعة للإشراف. أخيرا ، سيشرح المحقق كيف يمكن استخدام CPL في الممارسة العملية. يقولون أن هذه الخوارزميات تنتمي إلى فئة جديدة من الأساليب لحل مشاكل صنع القرار المتسلسل ، والتي تتميز بكفاءة عالية لأنها يمكن أن تتعلم الاستراتيجيات مباشرة من التفضيلات القائمة على الندم دون الحاجة إلى التعلم المعزز.

** من الميزة المثلى إلى الاستراتيجية المثلى **

عند استخدام نموذج تفضيل الأسف ، تحتوي مجموعة بيانات التفضيل D \ _pref على معلومات حول دالة الهيمنة المثلى A ^ ∗ (s ، a). يمكننا أن نعتقد بشكل حدسي أن هذه الوظيفة تقيس مدى سوء إجراء معين من الإجراء الناتج عن الاستراتيجية المثلى في الحالة.

لذلك ، بحكم التعريف ، فإن الإجراء الذي يزيد من الميزة المثلى هو الإجراء الأمثل ، وتعلم وظيفة الميزة المثلى من التفضيل يجب أن يسمح للمرء باستخراج الإستراتيجية المثلى بشكل حدسي.

على وجه التحديد ، أثبت الفريق النظرية التالية:

فوائد استراتيجيات التعلم المباشر: هناك العديد من الفوائد العملية والنظرية لتعلم π مباشرة بهذه الطريقة. قد يكون أكثرها وضوحا هو أنه إذا تعلمت الإستراتيجية مباشرة ، فلن تحتاج إلى تعلم أي وظائف أخرى ، مثل وظيفة المكافأة أو وظيفة القيمة. هذا يجعل CPL أبسط بكثير من الطريقة السابقة.

اتصالات بالتعلم التقابلي. يستخدم نهج CPL مباشرة هدف مقارنة للتعلم الاستراتيجي. يقول الباحثون إنهم يتوقعون أن يتوسع CPL بشكل أفضل من طرق التعلم المعزز باستخدام خوارزميات التعلم المعزز التقليدية ، نظرا للنجاح المثبت لأهداف التعلم التقابلي مع مجموعات البيانات الكبيرة والشبكات العصبية.

اعتبارات عملية

يوفر إطار تعلم التفضيل التقابلي دالة خسارة عامة يمكن استخدامها لتعلم الاستراتيجيات من التفضيلات القائمة على القوة ، والتي يمكن اشتقاق العديد من الخوارزميات منها. فيما يلي مثال عملي لإطار عمل CPL محدد يعمل بشكل جيد.

CPL مع بيانات محدودة في وضع عدم الاتصال. على الرغم من أن CPL يمكن أن تتقارب مع استراتيجية مثالية مع بيانات تفضيل غير محدودة ، إلا أننا في الممارسة العملية مهتمون عموما بالتعلم من مجموعة بيانات محدودة غير متصلة بالإنترنت. في هذا الإعداد، يكون أداء السياسات التي تستنبط ما هو أبعد من دعم مجموعة البيانات ضعيفا لأن الإجراءات التي تتخذها تؤدي إلى حالة خارج التوزيع.

تنظيم. في بيئة محدودة ، نريد اختيار استراتيجية تقلل من وظيفة خسارة CPL مع إعطاء احتمال أكبر للإجراءات في مجموعة البيانات هذه. للقيام بذلك ، يستخدم الباحث منظما متحفظا للحصول على وظيفة الخسارة التالية: عندما يكون للاستراتيجية احتمال أكبر لعمل ما في D \ _pref ، يتم تخصيص خسارة أقل ، وبالتالي ضمان وجودها ضمن التوزيع.

ما قبل التدريب. وجد الفريق أن السياسة π_θ تم تدريبها مسبقا باستخدام نهج الاستنساخ السلوكي (BC) للحصول على نتائج أفضل. لذلك ، قبل الضبط الدقيق مع تفضيلات استخدام خسارة CPL ، استخدم الفريق هدف الاستنساخ القياسي الأقصى لاحتمال استنساخ الإستراتيجية ، وهي:

التجارب والنتائج

سيجيب هذا القسم على الأسئلة التالية حول CPL: 1. هل يمكن ل CPL ضبط السياسات بشكل فعال بناء على التفضيلات القائمة على الندم؟2. هل يمكن توسيع نطاق CPL لمشاكل التحكم عالية الأبعاد والشبكات الأكبر؟3. ما هي مكونات CPL المهمة لتحقيق الأداء العالي؟

بيانات التفضيل. باستخدام بيانات وتفضيلات الطرح الانفصامي دون المستوى الأمثل ، قام الباحثون بتقييم قدرة CPL على تعلم استراتيجيات MDP العام.

منهجية القياس. تم النظر في ثلاث طرق مرجعية في التجربة: الضبط الدقيق الخاضع للإشراف (SFT) ، والتعلم الضمني للتفضيل (P-QL) ، و٪ BC (تدريب سياسة عن طريق الاستنساخ السلوكي لأعلى X٪ من الطرح).

كيف يتم أداء CPL؟**

كيف يعمل CPL عند استخدام الملاحظات المستندة إلى الحالة؟ بالنسبة للنتائج التجريبية المستندة إلى الحالة ، يكون الصفان 1 و 3 من الجدول 1 مرئيين بشكل أساسي.

عند استخدام بيانات مقارنة أكثر تناثرا (الصف 3) ، تفوق CPL على النهج السابق في 5 من 6 بيئات ، وكانت المزايا على P-IQL واضحة في الغالب ، خاصة في الضغط على الزر ، واختيار الحاوية ، والاجتياح في البيئات. عند تطبيقه على مجموعات البيانات ذات المقارنات الأكثر كثافة ، يكون CPL أكثر فائدة من P-IQL (الصف 1) وهو مهم في جميع السياقات.

لاختبار ما إذا كان يمكن توسيع الهدف الإشرافي ل CPL ليشمل مشاكل التحكم المستمر عالية الأبعاد ، قام الفريق بتحويل مجموعة بيانات MetaWorld إلى 64 × 64 صورة.

يعطي الصفان 2 و 4 من الجدول 1 نتائج التجربة المستندة إلى الصور. لقد حصلوا على نتيجة مثيرة للاهتمام: بالنسبة ل SFT ، كانت هناك زيادة طفيفة في الأداء ، لكن التحسن في P-IQL كان ملحوظا. عند تعلم بيانات تفضيلات أكثر كثافة (الصف 2) ، لا يزال CPL يتفوق على P-IQL في 4 من 6 بيئات ويمكن مقارنته بكليهما في Sweep In. عند تعلم المزيد من البيانات المقارنة المتفرقة (الصف 4) ، كان أداء CPL و P-IQL متساويا في معظم المهام.

هذا هو أكثر لفتا للنظر بالنظر إلى أن CPL لديه تعقيد أقل بكثير! يجب أن تتعلم P-IQL دالة المكافأة ودالة Q ودالة القيمة والاستراتيجية. لا يتطلب CPL أيا منها ، بل يحتاج فقط إلى تعلم استراتيجية واحدة ، مما يقلل بشكل كبير من وقت التدريب وعدد المعلمات.

كما هو موضح في الجدول 2 أدناه ، يعمل CPL أسرع 1.62 مرة من P-IQL في مهام الصورة ولديه أقل من ربع عدد المعلمات. مع نمو الشبكة ، ستزداد مكاسب الأداء من استخدام CPL فقط.

ما هي المكونات التي تساهم في أداء CPL؟

كما يتضح من النتائج التجريبية ، فإن الفجوة بين CPL وطريقة القياس تكون أكبر عند استخدام مجموعات البيانات مع مقارنات أكثر كثافة. هذا يتوافق مع نتائج البحوث السابقة في التعلم التقابلي.

للتحقيق في هذا التأثير ، تم تقييم أداء CPL من خلال زيادة عدد المقارنات التي تم أخذ عينات منها لكل جزء بناء على مجموعة بيانات ثابتة الحجم من 5000 جزء. يوضح الشكل 2 أدناه النتائج المتعلقة بمهمة فتح الدرج للملاحظات المستندة إلى الحالة.

بشكل عام ، يستفيد CPL عندما يزداد عدد المقارنات التي تم أخذ عينات منها لكل مقطع ، باستثناء مهمة Plate Slide .

أخيرا ، أجرى الفريق أيضا دراسة استئصال للمعلمات الفائقة ل CPL (α قيمة درجة الحرارة ومنظم التحيز λ) ، والتي استندت أيضا إلى مهمة الدرج المفتوح ، والتي تظهر نتائجها على الجانب الأيمن من الشكل 2. بينما يعمل CPL بشكل جيد مع هذه القيم ، فقد وجدت التجارب أنه يمكن أن يؤدي بشكل أفضل مع الضبط المناسب للمعلمات الفائقة ، خاصة λ.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت