Стэнфорд предлагает обучение с использованием контрастных предпочтений: обучение на основе обратной связи от человека без обучения с подкреплением

Источник статьи: Сердце машины

Мы знаем, что успех ChatGPT неотделим от «секретного оружия» RLHF. Тем не менее, RLHF не безупречен, и существуют сложные задачи оптимизации, с которыми приходится иметь дело. В этой статье команда из Стэнфордского университета и других исследовательских институтов изучает замену «обучения с подкреплением» на «обучение с контрастным предпочтением», которое имеет хорошие показатели с точки зрения скорости и производительности.

Источник изображения: Generated by Unbounded AI

Обучение с подкреплением, основанное на обратной связи с человеком (RLHF), стало популярной парадигмой с точки зрения согласования моделей с намерениями человека. Как правило, алгоритмы RLHF работают в два этапа: во-первых, обучение функции вознаграждения с использованием человеческих предпочтений, а во-вторых, выравнивание модели путем оптимизации усвоенного вознаграждения с помощью обучения с подкреплением.

Парадигма RLHF предполагает, что распределение человеческих предпочтений следует за вознаграждением, но недавние исследования показывают, что это не так, и что человеческие предпочтения на самом деле следуют за ценностью сожаления оптимальной стратегии пользователя. Таким образом, обучение функциям вознаграждения на основе обратной связи не только основано на ошибочном предположении о человеческих предпочтениях, но и приводит к неразрешимым головоломкам оптимизации, которые возникают из-за градиентов политики или бутстреппинга в обучении с подкреплением.

Из-за этих проблем оптимизации современные методы RLHF ограничиваются контекстно-ориентированными бандитскими настройками (например, в больших языковых моделях) или собственными измерениями наблюдения (например, робототехника на основе состояний).

Чтобы преодолеть эти проблемы, команда исследователей из Стэнфорда и других университетов предложила ряд новых алгоритмов, которые могут использовать модель человеческих предпочтений, основанную на сожалении, для оптимизации поведения при использовании обратной связи от человека, а не модель частичного вознаграждения, которая широко принята сообществом и учитывает только сумму вознаграждений. В отличие от моделей частичной доходности, модели, основанные на сожалениях, предоставляют прямую информацию об оптимальной стратегии.

Такой механизм привел к удачному результату: обучение с подкреплением больше не нужно!

Таким образом, задачи RLHF могут быть решены в инфраструктуре MDP общего назначения с многомерными состояниями и пространствами действий.

Исследователи предположили, что основная идея результатов их исследования заключается в том, что сочетание структуры предпочтений, основанной на сожалении, с принципом максимальной энтропии (MaxEnt) может привести к биекции между доминирующей функцией и стратегией. Заменив оптимизацию преимущества оптимизацией стратегии, можно вывести цель чистого контролируемого обучения, а ее оптимальное значение является оптимальной стратегией при экспертном вознаграждении. Команда назвала этот подход Contrastive Preference Learning (CPL), потому что он напоминает широко принятую цель контрастного обучения.

*Адрес:

  • Код адреса:

CPL имеет три ключевых преимущества по сравнению с предыдущими подходами.

Во-первых, CPL масштабируется как контролируемое обучение, потому что он использует только контролируемые цели для соответствия оптимальным сильным сторонам без использования каких-либо стратегических градиентов или динамического программирования.

Во-вторых, CPL — это подход, полностью не связанный с политикой, поэтому он может эффективно использовать любой автономный источник данных, не соответствующий оптимальным значениям.

В-третьих, CPL может быть применен к любому марковскому процессу принятия решений (MDP), чтобы он мог обучаться на основе запросов предпочтений к данным последовательностей.

По словам команды, ни один из предыдущих методов RLHF не соответствовал всем трем этим критериям. Для того, чтобы показать, что метод CPL соответствует трем приведенным выше описаниям, исследователи провели эксперименты, и результаты показали, что метод может эффективно справляться с проблемой последовательного принятия решений с неоптимальными и многомерными данными стратегии диссоциации.

Примечательно, что они обнаружили, что CPL может эффективно изучать операционные стратегии, которые масштабируются с течением времени, используя тот же процесс тонкой настройки RLHF, что и разговорная модель в бенчмарке MetaWorld.

В частности, они используют подход к обучению с учителем для предварительного обучения стратегий наблюдения за многомерными изображениями, а затем тонкой настройки их с помощью предпочтений. Без необходимости динамического программирования или градиентов политик CPL может достичь той же производительности, что и подход, основанный на априорном обучении с подкреплением. При этом метод CPL в 1,6 раза быстрее, а эффективность параметра в четыре раза выше. При использовании более интенсивных данных о предпочтениях производительность CPL превзошла обучение с подкреплением в 5 из 6 задач.

Обучение по контрастным предпочтениям

Основная идея этого подхода проста: исследователи обнаружили, что при использовании фреймворка с максимальным энтропийным подкреплением функция доминирования, используемая в модели предпочтения сожаления, может быть легко заменена логарифмической вероятностью стратегии. Однако эта простая замена может принести огромную пользу. Если вы используете логарифмическую вероятность стратегии, вам не нужно изучать функцию преимущества или иметь дело с проблемами оптимизации, связанными с алгоритмами обучения, подобными подкреплению.

По словам исследователей, это не только создает более тесно связанную модель предпочтения сожалений, но и может полностью полагаться на контролируемое обучение, чтобы учиться на обратной связи с человеком.

Сначала выводится цель CPL и показано, что для экспертной функции вознаграждения пользователя r_E с неограниченными данными метод сходится к оптимальной стратегии. Затем будет объяснена связь между CPL и другими методами контролируемого обучения. Наконец, следователь объяснит, как можно использовать CPL на практике. Они говорят, что эти алгоритмы относятся к новой категории методов решения задач последовательного принятия решений, которые отличаются высокой эффективностью, поскольку могут обучаться стратегиям непосредственно на основе предпочтений, основанных на сожалениях, без необходимости обучения с подкреплением.

От оптимального преимущества к оптимальной стратегии

При использовании модели предпочтения сожаления набор данных предпочтений D_pref содержит информацию об оптимальной функции доминирования A^∗ (s, a). Мы можем интуитивно думать, что эта функция измеряет, насколько плохо a для данного действия, чем действие, порожденное оптимальной стратегией в состоянии s.

Таким образом, по определению, действие, которое максимизирует оптимальное преимущество, является оптимальным действием, и изучение функции оптимального преимущества из предпочтения должно позволить интуитивно извлечь оптимальную стратегию.

В частности, команда доказала следующую теорему:

Преимущества стратегий прямого обучения: Есть много практических и теоретических преимуществ в обучении π непосредственно таким образом. Наиболее очевидным из них может быть то, что если вы изучаете стратегию напрямую, вам не нужно изучать какие-либо другие функции, такие как функция вознаграждения или функция ценности. Это делает CPL намного проще, чем предыдущий метод.

Связь с контрастивным обучением. Подход CPL напрямую использует цель сравнения для изучения стратегии. Исследователи говорят, что они ожидают, что CPL будет масштабироваться лучше, чем методы обучения с подкреплением, использующие традиционные алгоритмы обучения с подкреплением, учитывая доказанный успех целей контрастного обучения с большими наборами данных и нейронными сетями.

Практические соображения

Фреймворк обучения на основе контрастных предпочтений предоставляет общую функцию потерь, которая может быть использована для изучения стратегий на основе предпочтений, основанных на сильных сторонах, из которых можно вывести множество алгоритмов. Ниже приведен практический пример конкретного фреймворка CPL, который хорошо работает.

CPL с ограниченным объемом автономных данных. Несмотря на то, что CPL может привести к оптимальной стратегии с неограниченными данными о предпочтениях, на практике мы, как правило, имеем дело с обучением на ограниченном автономном наборе данных. В этой конфигурации политики, которые экстраполируют слишком далеко за пределы поддержки набора данных, работают плохо, так как действия, которые они выполняют, приводят к состоянию вне распределения.

Регуляризации. В конечных условиях мы хотим выбрать стратегию, которая минимизирует функцию потерь CPL, обеспечивая при этом более высокую вероятность действий в этом наборе данных. Для этого исследователь использует консервативный регуляризатор для получения следующей функции потерь: когда стратегия имеет более высокую вероятность действия в D_pref, выделяется меньший убыток, тем самым гарантируя, что он находится в пределах распределения.

Предварительная подготовка. Команда обнаружила, что политика π_θ была предварительно обучена с использованием подхода поведенческого клонирования (BC) для получения лучших результатов. Таким образом, перед тонкой настройкой предпочтений использования потерь CPL команда использовала стандартную цель клонирования с максимальным правдоподобием для обучения стратегии, а именно:

Эксперименты и результаты

В этом разделе мы ответим на следующие вопросы о CPL: 1. Может ли CPL эффективно настраивать политику на основе предпочтений, основанных на сожалениях?2. Можно ли масштабировать CPL для задач управления большими размерами и более крупных сетей?3. Какие компоненты CPL важны для достижения высокой производительности?

Данные о предпочтениях. Используя субоптимальные диссоциативные данные и предпочтения, исследователи оценили способность CPL обучаться стратегиям для дженериков MDP.

Методология бенчмаркинга. В эксперименте рассматривались три метода бенчмаркинга: контролируемая тонкая настройка (SFT), предпочтительное имплицитное Q-обучение (P-IQL), % BC (обучение политики путем поведенческого клонирования топ-X% развертывания).

Как работает CPL?**

Как работает CPL при использовании наблюдений на основе состояний? Для экспериментальных результатов на основе состояний в основном видны строки 1 и 3 таблицы 1.

При использовании более разреженных сравнительных данных (строка 3) CPL превзошел предыдущий подход в 5 из 6 сред, и преимущества перед P-IQL были в основном очевидны, особенно в средах Button Press, Bin Picking и Sweep Into. При применении к наборам данных с более интенсивными сравнениями CPL даже более выгоден, чем P-IQL (строка 1), и важен во всех контекстах.

Чтобы проверить, можно ли распространить контрольную цель CPL на многомерные задачи непрерывного управления, команда отобразила набор данных MetaWorld в 64 × 64 изображения.

В строках 2 и 4 таблицы 1 приведены результаты эксперимента на основе изображений. Они получили интересное открытие: для SFT наблюдался небольшой рост производительности, но улучшение P-IQL было заметным. При изучении более интенсивных данных о предпочтениях (строка 2) CPL по-прежнему превосходил P-IQL в 4 из 6 сред и был сопоставим с обеими средами на Sweep In. При изучении более разреженных сравнительных данных (строка 4) CPL и P-IQL одинаково справлялись с большинством задач.

Это тем более поразительно, что CPL имеет значительно меньшую сложность! P-IQL должен выучить функцию вознаграждения, функцию Q, функцию ценности и стратегию. CPL не требует ни одного из них, ему нужно только изучить одну стратегию, что значительно сокращает время обучения и количество параметров.

Как показано в таблице 2 ниже, CPL работает в 1,62 раза быстрее, чем P-IQL в задачах обработки изображений, и имеет менее четверти числа параметров. По мере роста сети прирост производительности от использования CPL будет только увеличиваться.

Какие компоненты влияют на производительность CPL?

Как видно из результатов эксперимента, разрыв между CPL и бенчмарк-методом больше при использовании наборов данных с более интенсивными сравнениями. Это согласуется с результатами предыдущих исследований в области контрастивного обучения.

Чтобы исследовать этот эффект, производительность CPL была оценена путем увеличения количества сравнений, отобранных для каждого фрагмента, на основе набора данных фиксированного размера из 5 000 фрагментов. На рисунке 2 ниже показаны результаты задачи Drawer Open для наблюдений на основе состояний.

В целом, CPL выигрывает, когда количество сравнений, сэмплируемых для каждого клипа, увеличивается, за исключением задачи «Слайд пластины».

Наконец, команда также провела абляционное исследование гиперпараметров CPL (α значения температуры и регуляризатор смещения λ), которое также было основано на задаче открытого ящика, результаты которой показаны в правой части рисунка 2. Хотя CPL хорошо работает с этими значениями, эксперименты показали, что он может работать еще лучше при соответствующей настройке гиперпараметров, особенно λ.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить