Stanford propõe a aprendizagem por preferência contrastiva: aprender com o feedback humano sem aprendizagem por reforço

Fonte do artigo: Heart of the Machine

Sabemos que o sucesso do ChatGPT é inseparável da "arma secreta" da RLHF. No entanto, o RLHF não é impecável e há desafios de otimização difíceis de lidar. Neste artigo, uma equipa da Universidade de Stanford e de outras instituições de investigação explora a substituição da "aprendizagem por reforço" pela "aprendizagem preferida pelo contraste", que tem um bom desempenho em termos de velocidade e desempenho.

Fonte da imagem: Gerado por Unbounded AI

A aprendizagem por reforço baseada no feedback humano (RLHF) tornou-se um paradigma popular em termos de alinhamento de modelos com as intenções humanas. Normalmente, os algoritmos RLHF funcionam em duas fases: primeiro, aprendendo uma função de recompensa usando preferências humanas e, segundo, alinhando o modelo otimizando a recompensa aprendida usando aprendizagem por reforço.

O paradigma RLHF assume que a distribuição das preferências humanas segue a recompensa, mas estudos recentes sugerem que este não é o caso, e que as preferências humanas realmente seguem o valor de arrependimento da estratégia ideal do usuário. Assim, as funções de recompensa de aprendizagem baseadas em feedback não se baseiam apenas em uma suposição falha sobre as preferências humanas, mas também levam a quebra-cabeças de otimização intratáveis que vêm de gradientes de políticas ou bootstrapping na aprendizagem por reforço.

Devido a esses desafios de otimização, os métodos RLHF atuais limitam-se a configurações de bandidos baseadas no contexto (por exemplo, em grandes modelos de linguagem) ou às suas próprias dimensões de observação (por exemplo, robótica baseada em estado).

Para superar esses desafios, uma equipe de pesquisadores de Stanford e outras universidades propôs uma série de novos algoritmos que podem usar um modelo de preferência humana baseado no arrependimento para otimizar o comportamento ao usar o feedback humano, em vez de um modelo parcialmente gratificante que é amplamente aceito pela comunidade e considera apenas a soma das recompensas. Ao contrário dos modelos de retorno parcial, os modelos baseados em arrependimento fornecem informações diretas sobre a estratégia ideal.

Tal mecanismo levou a um resultado feliz: a aprendizagem por reforço não é mais necessária!

Desta forma, os problemas RLHF podem ser resolvidos em uma estrutura MDP de uso geral com estados de alta dimensão e espaços de ação.

Os pesquisadores propuseram que a visão central de seus resultados de pesquisa é que a combinação da estrutura de preferência baseada no arrependimento com o princípio da entropia máxima (MaxEnt) pode obter uma bijeção entre a função dominante e a estratégia. Ao substituir a otimização da vantagem pela otimização da estratégia, um objetivo de aprendizagem supervisionada pura pode ser derivado, e seu valor ótimo é a estratégia ideal sob a recompensa do especialista. A equipe nomeou a abordagem de Aprendizagem de Preferência Contrastiva (CPL) porque se assemelha ao objetivo amplamente aceito da aprendizagem contrastiva.

* Endereço:

  • Endereço do código:

A CPL tem três vantagens principais em relação às abordagens anteriores.

Primeiro, a CPL escala como aprendizagem supervisionada porque usa apenas metas supervisionadas para corresponder aos pontos fortes ideais, sem usar gradientes estratégicos ou programação dinâmica.

Em segundo lugar, a CPL é uma abordagem completamente fora da política, para que possa usar efetivamente qualquer fonte de dados offline abaixo do ideal.

Em terceiro lugar, a CPL pode ser aplicada a qualquer processo de decisão de Markov (MDP) para que possa aprender com consultas de preferência em dados de sequência.

De acordo com a equipe, nenhum dos métodos RLHF anteriores atendeu a todos esses três critérios. A fim de mostrar que o método CPL está de acordo com as três descrições acima, os pesquisadores conduziram experimentos, e os resultados mostram que o método pode efetivamente lidar com o problema de tomada de decisão sequencial com dados de estratégia de dissociação subótima e de alta dimensão.

Notavelmente, eles descobriram que a CPL foi capaz de aprender efetivamente estratégias operacionais que escalam ao longo do tempo usando o mesmo processo de ajuste fino RLHF que o modelo conversacional no benchmark MetaWorld.

Especificamente, eles usam uma abordagem de aprendizagem supervisionada para pré-treinar estratégias na observação de imagens de alta dimensão e, em seguida, ajustá-las usando preferências. Sem a necessidade de programação dinâmica ou gradientes de políticas, a CPL pode alcançar o mesmo desempenho que a abordagem baseada na aprendizagem por reforço a priori. Ao mesmo tempo, o método CPL é 1,6 vezes mais rápido e a eficiência do parâmetro é quatro vezes mais rápida. Ao usar dados de preferência mais intensivos, o desempenho da CPL superou a aprendizagem por reforço em 5 de 6 tarefas.

Aprendizagem de Preferências Contrastivas

A ideia central desta abordagem é simples: os pesquisadores descobriram que, ao usar uma estrutura de aprendizagem de reforço máximo de entropia, a função de dominância usada no modelo de preferência de arrependimento pode ser facilmente substituída pela probabilidade logarítmica da estratégia. No entanto, esta simples substituição pode trazer enormes benefícios. Se você usar a probabilidade logarítmica da estratégia, não precisará aprender a função de vantagem ou lidar com os problemas de otimização associados a algoritmos de aprendizagem semelhantes a reforços.

Isso não apenas cria um modelo de preferência de arrependimento mais alinhado, dizem os pesquisadores, mas também pode confiar inteiramente na aprendizagem supervisionada para aprender com o feedback humano.

O alvo CPL é primeiramente derivado, e é mostrado que, para a função de recompensa do usuário especialista r_E com dados ilimitados, o método converge para a estratégia ideal. A ligação entre a LCP e outros métodos de aprendizagem supervisionada será então explicada. Finalmente, o investigador explicará como a LCP pode ser usada na prática. Eles dizem que esses algoritmos pertencem a uma nova categoria de métodos para resolver problemas de tomada de decisão sequencial, que são altamente eficientes porque podem aprender estratégias diretamente a partir de preferências baseadas no arrependimento, sem a necessidade de aprendizagem por reforço.

Da Vantagem Ótima à Estratégia Ótima

Ao usar o modelo de preferência de arrependimento, o conjunto de dados de preferência D_pref contém informações sobre a função de dominância ideal A^∗ (s, a). Podemos intuitivamente pensar que esta função mede o quão ruim a é para uma determinada ação do que a ação gerada pela estratégia ótima no estado s.

Portanto, por definição, a ação que maximiza a vantagem ótima é a ação ótima, e aprender a função de vantagem ótima a partir da preferência deve permitir extrair intuitivamente a estratégia ótima.

Especificamente, a equipe provou o seguinte teorema:

Benefícios das Estratégias de Aprendizagem Direta: Há muitos benefícios práticos e teóricos em aprender π diretamente desta forma. A mais óbvia delas pode ser que, se você aprender a estratégia diretamente, não precisará aprender nenhuma outra função, como a função de recompensa ou a função de valor. Isso torna a CPL muito mais simples do que o método anterior.

Conexões com a aprendizagem contrastiva. A abordagem CPL usa diretamente um objetivo de comparação para a aprendizagem da estratégia. Os pesquisadores dizem esperar que a CPL escale melhor do que os métodos de aprendizagem por reforço usando algoritmos tradicionais de aprendizagem por reforço, dado o sucesso comprovado de objetivos de aprendizagem contrastivos com grandes conjuntos de dados e redes neurais.

Considerações práticas

A estrutura de aprendizagem de preferência contrastiva fornece uma função de perda genérica que pode ser usada para aprender estratégias de preferências baseadas em força, a partir das quais muitos algoritmos podem ser derivados. Segue-se um exemplo prático de uma estrutura CPL específica que funciona bem.

CPL com dados offline limitados. Embora a CPL possa convergir para uma estratégia ideal com dados de preferência ilimitados, na prática geralmente estamos preocupados em aprender com um conjunto de dados offline limitado. Nessa configuração, as políticas que extrapolam muito além do suporte do conjunto de dados têm um desempenho ruim porque as ações que executam resultam em um estado fora da distribuição.

Regularização. Em uma configuração finita, queremos escolher uma estratégia que minimize a função de perda de CPL enquanto dá uma maior probabilidade às ações nesse conjunto de dados. Para fazer isso, o pesquisador usa um regularizador conservador para obter a seguinte função de perda: quando a estratégia tem uma maior probabilidade de uma ação em D_pref, uma perda menor é alocada, garantindo assim que ela esteja dentro da distribuição.

Pré-formação. A equipe descobriu que a política π_θ foi pré-treinada usando a abordagem de Clonagem Comportamental (BC) para obter melhores resultados. Assim, antes de ajustar as preferências de uso de perda de CPL, a equipe usou o alvo padrão de clonagem de máxima probabilidade para treinar a estratégia, a saber:

Experiências e Resultados

Esta seção responderá às seguintes perguntas sobre a CPL: 1. A CPL pode efetivamente ajustar as políticas com base em preferências baseadas no arrependimento?2. A CPL pode ser dimensionada para problemas de controle de alta dimensão e redes maiores?3. Quais componentes da CPL são importantes para alcançar o alto desempenho?

Dados de preferência. Usando dados e preferências de implantação dissociativa subótima, os investigadores avaliaram a capacidade da LCP de aprender estratégias para MDP genérico.

Metodologia de benchmark. Três métodos de referência foram considerados no experimento: ajuste fino supervisionado (SFT), preferência implícita Q learning (P-IQL), % BC (treinamento de uma política por clonagem comportamental do topo X% do rollout).

Qual é o desempenho da CPL?**

Como funciona a CPL ao usar observações baseadas em estado? Para resultados experimentais baseados em estados, as linhas 1 e 3 da Tabela 1 são principalmente visíveis.

Ao usar dados comparativos mais esparsos (linha 3), a CPL superou a abordagem anterior em 5 dos 6 ambientes, e as vantagens sobre o P-IQL foram principalmente claras, especialmente nos ambientes Button Press, Bin Picking e Sweep Into. Quando aplicada a conjuntos de dados com comparações mais intensivas, a CPL é ainda mais vantajosa do que a P-IQL (linha 1) e é significativa em todos os contextos.

Para testar se o alvo de supervisão da CPL poderia ser estendido a problemas de controle contínuo de alta dimensão, a equipe processou o conjunto de dados MetaWorld em 64 × 64 imagens.

As linhas 2 e 4 da Tabela 1 apresentam os resultados do experimento baseado em imagens. Eles obtiveram uma descoberta interessante: para SFT, houve um ligeiro aumento no desempenho, mas a melhoria no P-IQL foi percetível. Ao aprender dados de preferência mais intensivos (linha 2), a CPL ainda superou o P-IQL em 4 dos 6 ambientes e comparável a ambos no Sweep In. Ao aprender dados comparativos mais esparsos (linha 4), CPL e P-IQL tiveram o mesmo desempenho na maioria das tarefas.

Isso é ainda mais impressionante considerando que a CPL tem uma complexidade significativamente menor! O P-IKL deve aprender uma função de recompensa, uma função Q, uma função de valor e uma estratégia. A CPL não requer nenhum deles, apenas precisa aprender uma única estratégia, o que reduz muito o tempo de treinamento e o número de parâmetros.

Como mostrado na Tabela 2 abaixo, a CPL é executada 1,62 vezes mais rápido do que o P-IQL em tarefas de imagem e tem menos de um quarto do número de parâmetros. À medida que a rede cresce, os ganhos de desempenho com o uso de CPL só aumentarão.

Que componentes contribuem para o desempenho da CPL?

Como se pode ver pelos resultados experimentais, a diferença entre o CPL e o método de referência é maior quando se utilizam conjuntos de dados com comparações mais intensivas. Isto é consistente com os resultados de pesquisas anteriores em aprendizagem contrastiva.

Para investigar esse efeito, o desempenho da LCP foi avaliado aumentando o número de comparações amostradas por fragmento com base em um conjunto de dados de tamanho fixo de 5.000 fragmentos. A Figura 2 abaixo mostra os resultados na tarefa Drawer Open para observações baseadas no estado.

No geral, a CPL se beneficia quando o número de comparações amostradas por clipe aumenta, com exceção da tarefa Slide de placa.

Finalmente, a equipe também realizou um estudo de ablação dos hiperparâmetros de CPL (valor de temperatura α e regularizador de viés λ), que também foi baseado na tarefa de gaveta aberta, cujos resultados são mostrados no lado direito da Figura 2. Embora a CPL funcione bem com esses valores, experimentos descobriram que ela pode ter um desempenho ainda melhor com o ajuste apropriado de hiperparâmetros, especialmente λ.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)