Стенфорд пропонує навчання з контрастними уподобаннями: навчання на основі людського зворотного зв'язку без навчання з підкріпленням

Джерело статті: Серце машини

Ми знаємо, що успіх ChatGPT невіддільний від «секретної зброї» RLHF. Однак RLHF не є бездоганним, і є складні проблеми оптимізації, з якими потрібно впоратися. У цій статті команда зі Стенфордського університету та інших дослідницьких установ досліджує заміну «навчання з підкріпленням» на «навчання з перевагою контрасту», яке має хороші показники з точки зору швидкості та продуктивності.

Джерело зображення: Створено Unbounded AI

Навчання з підкріпленням, засноване на людському зворотному зв'язку (RLHF), стало популярною парадигмою з точки зору узгодження моделей з людськими намірами. Як правило, алгоритми RLHF працюють у два етапи: по-перше, вивчення функції винагороди з використанням людських уподобань, а по-друге, вирівнювання моделі шляхом оптимізації вивченої винагороди за допомогою навчання з підкріпленням.

Парадигма RLHF припускає, що розподіл людських уподобань слідує за винагородою, але недавні дослідження показують, що це не так, і що людські переваги насправді слідують за значенням жалю оптимальної стратегії користувача. Таким чином, функції винагороди за навчання, засновані на зворотному зв'язку, не тільки засновані на помилковому припущенні про людські переваги, але також призводять до нерозв'язних оптимізаційних головоломок, які походять від градієнтів політики або початкового етапу навчання з підкріпленням.

Через ці проблеми оптимізації, сучасні методи RLHF обмежуються контекстними бандитськими налаштуваннями (наприклад, у великих мовних моделях) або власними вимірами спостереження (наприклад, робототехніка на основі станів).

Щоб подолати ці проблеми, група дослідників зі Стенфорда та інших університетів запропонувала серію нових алгоритмів, які можуть використовувати модель людських переваг, засновану на жалю, для оптимізації поведінки при використанні людського зворотного зв'язку, а не модель часткової винагороди, яка широко прийнята спільнотою і враховує лише суму винагород. На відміну від моделей часткової віддачі, моделі, засновані на жалю, надають пряму інформацію про оптимальну стратегію.

Такий механізм призвів до щасливого результату: навчання з підкріпленням більше не потрібне!

Таким чином, задачі RLHF можуть бути розв'язані в структурі MDP загального призначення з високорозмірними станами та просторами дій.

Дослідники припустили, що основний висновок результатів їхніх досліджень полягає в тому, що поєднання системи переваг, заснованої на жалю, з принципом максимальної ентропії (MaxEnt) може отримати бієкцію між домінуючою функцією та стратегією. Замінивши оптимізацію переваги оптимізацією стратегії, можна вивести мету чистого контрольованого навчання, а її оптимальне значення є оптимальною стратегією при винагороді експерта. Команда назвала цей підхід Contrastive Preference Learning (CPL), оскільки він нагадує загальноприйняту мету контрастивного навчання.

*Адреса:

  • Адреса коду:

CPL має три ключові переваги перед попередніми підходами.

По-перше, шкали CPL схожі на контрольоване навчання, оскільки вони використовують лише контрольовані цілі для відповідності оптимальним сильним сторонам без використання будь-яких стратегічних градієнтів або динамічного програмування.

По-друге, CPL є абсолютно неполітичним підходом, тому він може ефективно використовувати будь-яке неоптимальне джерело даних в автономному режимі.

По-третє, CPL може бути застосований до будь-якого марковського процесу прийняття рішень (MDP), щоб він міг навчатися на запитах переваг щодо даних послідовностей.

За словами команди, жоден із попередніх методів RLHF не відповідав усім цим трьом критеріям. Для того, щоб показати, що метод CPL відповідає трьом вищезазначеним описам, дослідники провели експерименти, результати яких показали, що метод може ефективно справлятися з проблемою послідовного прийняття рішень за допомогою субоптимальних і високорозмірних даних стратегії дисоціації.

Зокрема, вони виявили, що CPL змогла ефективно вивчати операційні стратегії, які масштабуються з часом, використовуючи той самий процес тонкого налаштування RLHF, що й розмовна модель у бенчмарку MetaWorld.

Зокрема, вони використовують підхід контрольованого навчання, щоб попередньо навчити стратегії спостереження за високовимірними зображеннями, а потім точно налаштувати їх за допомогою уподобань. Без необхідності динамічного програмування або градієнтів політики, CPL може досягти такої ж продуктивності, як і підхід, заснований на апріорному навчанні з підкріпленням. При цьому метод CPL в 1,6 рази швидше, а ефективність параметра в чотири рази швидше. При використанні більш інтенсивних даних про переваги, продуктивність CPL перевершила навчання з підкріпленням у 5 з 6 завдань.

Навчання контрастних уподобань

Основна ідея цього підходу проста: дослідники виявили, що при використанні системи навчання з максимальним ентропійним підкріпленням, функція домінування, яка використовується в моделі переваги жалю, може бути легко замінена логарифмічною ймовірністю стратегії. Однак ця проста заміна може принести величезну користь. Якщо ви використовуєте логарифмічну ймовірність стратегії, вам не потрібно вивчати функцію переваги або мати справу з оптимізаційними задачами, пов'язаними з алгоритмами навчання, подібними до підкріплення.

За словами дослідників, це не тільки створює більш тісно пов'язану модель жалю, але й може повністю покладатися на навчання під наглядом, щоб вчитися на людських відгуках.

Вперше виведено ціль CPL, і показано, що для експертної функції винагороди користувача r_E з необмеженими даними метод сходиться до оптимальної стратегії. Потім буде пояснено зв'язок між CPL та іншими методами контрольованого навчання. Наостанок слідчий пояснить, як КПЛ можна використовувати на практиці. Вони кажуть, що ці алгоритми належать до нової категорії методів вирішення задач послідовного прийняття рішень, які є високоефективними, оскільки можуть навчатися стратегіям безпосередньо з переваг, заснованих на жалю, без необхідності навчання з підкріпленням.

Від оптимальної переваги до оптимальної стратегії

При використанні моделі переваги набір даних переваги D_pref містить інформацію про оптимальну функцію домінування A^∗ (s, a). Ми можемо інтуїтивно думати, що ця функція вимірює, наскільки погана a для даної дії, ніж дія, породжена оптимальною стратегією в стані s.

Таким чином, за визначенням, дія, яка максимізує оптимальну перевагу, є оптимальною дією, і вивчення функції оптимальної переваги з переваги повинно дозволити інтуїтивно витягти оптимальну стратегію.

Зокрема, команда довела наступну теорему:

Переваги стратегій прямого навчання: Є багато практичних і теоретичних переваг у навчанні π безпосередньо таким чином. Найбільш очевидним з них може бути те, що якщо ви вивчаєте стратегію безпосередньо, вам не потрібно вивчати будь-які інші функції, такі як функція винагороди або функція цінності. Це робить CPL набагато простішим, ніж попередній метод.

Зв'язок з контрастним навчанням. Підхід CPL безпосередньо використовує порівняльну мету для стратегічного навчання. Дослідники кажуть, що вони очікують, що CPL масштабуватиметься краще, ніж методи навчання з підкріпленням, що використовують традиційні алгоритми навчання з підкріпленням, враховуючи доведений успіх цілей контрастивного навчання з великими наборами даних і нейронними мережами.

Практичні міркування

Структура навчання з контрастними перевагами забезпечує загальну функцію втрат, яку можна використовувати для навчання стратегіям на основі сильних сторін, з якої можна вивести багато алгоритмів. Нижче наведено практичний приклад конкретного фреймворку CPL, який добре працює.

CPL з обмеженими офлайн-даними. Хоча CPL може зблизитися до оптимальної стратегії з необмеженими даними про переваги, на практиці ми, як правило, стурбовані навчанням на обмеженому наборі даних офлайн. У цій конфігурації політики, які екстраполюють занадто далеко за межі підтримки набору даних, працюють погано, оскільки дії, які вони виконують, призводять до стану нерозповсюдження.

Регуляризація. У скінченних умовах ми хочемо вибрати стратегію, яка мінімізує функцію втрат CPL, надаючи при цьому вищу ймовірність діям у цьому наборі даних. Для цього дослідник використовує консервативний регуляризатор для отримання наступної функції втрат: коли стратегія має вищу ймовірність дії в D_pref, виділяється менший збиток, забезпечуючи таким чином його знаходження в межах розподілу.

Попередня підготовка. Команда виявила, що політика π_θ була попередньо навчена з використанням підходу поведінкового клонування (BC) для отримання кращих результатів. Отже, перед тонким налаштуванням з уподобаннями використання втрат CPL команда використовувала стандартну ціль клонування максимальної правдоподібності для навчання стратегії, а саме:

Експерименти та результати

У цьому розділі ми відповімо на наступні питання про CPL: 1. Чи може CPL ефективно налаштовувати політику на основі уподобань, заснованих на жалю?2. Чи можна масштабувати CPL для задач керування великими розмірами та більших мереж?3. Які компоненти CPL важливі для досягнення високої продуктивності?

Дані про переваги. Використовуючи дані субоптимального дисоціативного розгортання та переваги, дослідники оцінили здатність CPL вивчати стратегії для загального MDP.

Методологія бенчмарку. В експерименті розглядалися три еталонні методи: контрольоване тонке налаштування (SFT), переважне неявне навчання Q (P-IQL), % BC (навчання політики шляхом поведінкового клонування верхніх X% розгортання).

Як працює CPL?**

Як працює CPL при використанні спостережень на основі станів? Для результатів експериментів на основі станів в основному видно рядки 1 і 3 таблиці 1.

При використанні більш скупих порівняльних даних (рядок 3), CPL перевершив попередній підхід у 5 з 6 середовищ, і переваги перед P-IQL були в основному очевидними, особливо в середовищах Button Press, Bin Picking і Sweep In. При застосуванні до наборів даних з більш інтенсивними порівняннями, CPL є навіть більш вигідним, ніж P-IQL (рядок 1), і є значущим у всіх контекстах.

Щоб перевірити, чи можна поширити наглядову мету CPL на високовимірні проблеми безперервного контролю, команда відтворила набір даних MetaWorld у 64 × 64 зображення.

У рядках 2 і 4 таблиці 1 наведено результати експерименту на основі зображень. Вони отримали цікаву знахідку: для SFT спостерігалося невелике збільшення продуктивності, але поліпшення P-IQL було помітно. При вивченні більш інтенсивних даних про переваги (рядок 2) CPL все одно перевершив P-IQL в 4 з 6 середовищ і був порівнянний з обома в Sweep In. При вивченні більш скупих порівняльних даних (рядок 4) CPL і P-IQL показали однакові результати в більшості завдань.

Це тим більше вражає, враховуючи, що CPL має значно нижчу складність! P-IQL повинен вивчити функцію винагороди, функцію Q, функцію цінності та стратегію. CPL не вимагає жодного з них, потрібно лише вивчити єдину стратегію, що значно скорочує час навчання та кількість параметрів.

Як показано в таблиці 2 нижче, CPL працює в 1,62 рази швидше, ніж P-IQL у завданнях із зображеннями, і має менше чверті кількості параметрів. У міру зростання мережі приріст продуктивності від використання CPL буде тільки збільшуватися.

Які компоненти впливають на ефективність CPL?

Як видно з результатів експерименту, розрив між CPL і еталонним методом більший при використанні наборів даних з більш інтенсивними порівняннями. Це узгоджується з попередніми результатами досліджень контрастного навчання.

Щоб дослідити цей ефект, ефективність CPL була оцінена шляхом збільшення кількості порівнянь, відібраних на фрагмент на основі набору даних фіксованого розміру з 5 000 фрагментів. На рисунку 2 нижче показані результати за завданням Drawer Open для спостережень на основі стану.

Загалом CPL виграє, коли збільшується кількість порівнянь, відібраних для кожного кліпу, за винятком завдання Plate Slide.

Нарешті, команда також провела абляційне дослідження гіперпараметрів CPL (значення температури α та регуляризатора зміщення λ), яке також було засноване на завданні з відкритою шухлядою, результати якого показані в правій частині рисунку 2. Хоча CPL добре працює з цими значеннями, експерименти показали, що він може працювати ще краще при відповідному налаштуванні гіперпараметрів, особливо λ.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити