Stanford propose l’apprentissage par préférence contrastive : apprendre à partir de la rétroaction humaine sans apprentissage par renforcement

2023-11-12 07:11:45

Source de l’article : Heart of the Machine

Nous savons que le succès de ChatGPT est indissociable de « l’arme secrète » de RLHF. Cependant, RLHF n’est pas irréprochable, et il y a des défis d’optimisation difficiles à relever. Dans cet article, une équipe de l’Université de Stanford et d’autres institutions de recherche explore la possibilité de remplacer « l’apprentissage par renforcement » par « l’apprentissage par contraste », qui présente de bonnes performances en termes de vitesse et de performance.

Source de l’image : Généré par Unbounded AI

L’apprentissage par renforcement basé sur la rétroaction humaine (RLHF) est devenu un paradigme populaire en termes d’alignement des modèles avec les intentions humaines. En règle générale, les algorithmes RLHF fonctionnent en deux phases : premièrement, l’apprentissage d’une fonction de récompense à l’aide des préférences humaines, et deuxièmement, l’alignement du modèle en optimisant la récompense apprise à l’aide de l’apprentissage par renforcement.

Le paradigme RLHF suppose que la distribution des préférences humaines suit la récompense, mais des études récentes suggèrent que ce n’est pas le cas, et que les préférences humaines suivent en fait la valeur de regret de la stratégie optimale de l’utilisateur. Ainsi, l’apprentissage des fonctions de récompense basées sur la rétroaction n’est pas seulement basé sur une hypothèse erronée sur les préférences humaines, mais conduit également à des énigmes d’optimisation insolubles qui proviennent de gradients de politique ou d’amorçage dans l’apprentissage par renforcement.

En raison de ces défis d’optimisation, les méthodes RLHF d’aujourd’hui se limitent à des paramètres de bandits basés sur le contexte (par exemple, dans de grands modèles de langage) ou à leurs propres dimensions d’observation (par exemple, la robotique basée sur l’état).

Pour surmonter ces défis, une équipe de chercheurs de Stanford et d’autres universités a proposé une série de nouveaux algorithmes capables d’utiliser un modèle de préférence humaine basé sur le regret pour optimiser le comportement lors de l’utilisation de la rétroaction humaine, plutôt qu’un modèle partiellement gratifiant qui est largement accepté par la communauté et ne prend en compte que la somme des récompenses. Contrairement aux modèles de rendement partiel, les modèles basés sur les regrets fournissent des informations directes sur la stratégie optimale.

Un tel mécanisme a conduit à un résultat heureux : l’apprentissage par renforcement n’est plus nécessaire !

De cette façon, les problèmes RLHF peuvent être résolus dans un cadre MDP à usage général avec des états et des espaces d’action de grande dimension.

Les chercheurs ont proposé que l’idée principale de leurs résultats de recherche est que la combinaison du cadre de préférence basé sur le regret avec le principe de l’entropie maximale (MaxEnt) peut obtenir une bijection entre la fonction dominante et la stratégie. En remplaçant l’optimisation de l’avantage par l’optimisation de la stratégie, un objectif d’apprentissage supervisé pur peut être dérivé, et sa valeur optimale est la stratégie optimale sous la récompense de l’expert. L’équipe a nommé l’approche Apprentissage des préférences contrastives (APC) parce qu’elle ressemble à l’objectif largement accepté de l’apprentissage contrastif.

*Adresse:

Adresse du code :

La CPL présente trois avantages clés par rapport aux approches précédentes.

Tout d’abord, l’APC s’adapte comme l’apprentissage supervisé, car il n’utilise que des objectifs supervisés pour faire correspondre des forces optimales sans utiliser de gradients stratégiques ou de programmation dynamique.

Deuxièmement, CPL est une approche complètement hors politique, de sorte qu’elle peut utiliser efficacement n’importe quelle source de données sous-optimale hors ligne.

Troisièmement, CPL peut être appliqué à n’importe quel processus de décision de Markov (MDP) afin qu’il puisse apprendre à partir de requêtes de préférence sur les données de séquence.

Selon l’équipe, aucune des méthodes précédentes de RLHF ne répondait à ces trois critères. Afin de montrer que la méthode CPL est conforme aux trois descriptions ci-dessus, les chercheurs ont mené des expériences, et les résultats montrent que la méthode peut traiter efficacement le problème de la prise de décision séquentielle avec des données de stratégie de dissociation sous-optimales et de grande dimension.

Ils ont notamment constaté que CPL était capable d’apprendre efficacement des stratégies opérationnelles qui évoluent au fil du temps en utilisant le même processus d’ajustement fin du RLHF que le modèle conversationnel du benchmark MetaWorld.

Plus précisément, ils utilisent une approche d’apprentissage supervisé pour pré-entraîner des stratégies sur l’observation d’images de haute dimension, puis les affiner en fonction des préférences. Sans avoir besoin d’une programmation dynamique ou de gradients de politiques, l’APC peut atteindre les mêmes performances qu’une approche basée sur l’apprentissage par renforcement a priori. Dans le même temps, la méthode CPL est 1,6 fois plus rapide et l’efficacité des paramètres est quatre fois plus rapide. Lors de l’utilisation de données de préférences plus intensives, les performances de CPL ont surpassé l’apprentissage par renforcement sur 5 des 6 tâches.

Apprentissage des préférences contrastives

L’idée de base de cette approche est simple : les chercheurs ont constaté que lors de l’utilisation d’un cadre d’apprentissage par renforcement de l’entropie maximale, la fonction de dominance utilisée dans le modèle de préférence de regret peut être facilement remplacée par la probabilité logarithmique de la stratégie. Cependant, ce simple remplacement peut apporter d’énormes avantages. Si vous utilisez la probabilité logarithmique de la stratégie, vous n’avez pas besoin d’apprendre la fonction d’avantage ou de traiter les problèmes d’optimisation associés aux algorithmes d’apprentissage de type renforcement.

Non seulement cela crée un modèle de préférence de regret plus étroitement aligné, disent les chercheurs, mais il peut également s’appuyer entièrement sur l’apprentissage supervisé pour apprendre des commentaires humains.

La cible CPL est d’abord dérivée, et il est montré que pour la fonction de récompense de l’utilisateur expert r_E avec des données illimitées, la méthode converge vers la stratégie optimale. Le lien entre l’APC et d’autres méthodes d’apprentissage supervisé sera ensuite expliqué. Enfin, l’investigateur expliquera comment la LPC peut être utilisée dans la pratique. Ils disent que ces algorithmes appartiennent à une nouvelle catégorie de méthodes pour résoudre des problèmes de prise de décision séquentielle, qui sont très efficaces car ils peuvent apprendre des stratégies directement à partir de préférences basées sur le regret sans avoir besoin d’apprentissage par renforcement.

De l’avantage optimal à la stratégie optimale

Lors de l’utilisation du modèle de préférence de regret, le jeu de données de préférence D_pref contient des informations sur la fonction de dominance optimale A^∗ (s, a). On peut intuitivement penser que cette fonction mesure la gravité de a pour une action donnée par rapport à l’action générée par la stratégie optimale dans les états s.

Par conséquent, par définition, l’action qui maximise l’avantage optimal est l’action optimale, et l’apprentissage de la fonction d’avantage optimal à partir de la préférence devrait permettre d’extraire intuitivement la stratégie optimale.

Plus précisément, l’équipe a démontré le théorème suivant :

Avantages des stratégies d’apprentissage direct : Il y a de nombreux avantages pratiques et théoriques à apprendre π directement de cette manière. La plus évidente d’entre elles est peut-être que si vous apprenez directement la stratégie, vous n’avez pas besoin d’apprendre d’autres fonctions, telles que la fonction de récompense ou la fonction de valeur. Cela rend le CPL beaucoup plus simple que la méthode précédente.

Liens avec l’apprentissage contrastif. L’approche CPL utilise directement un objectif de comparaison pour l’apprentissage de la stratégie. Les chercheurs disent qu’ils s’attendent à ce que le CPL évolue mieux que les méthodes d’apprentissage par renforcement utilisant des algorithmes d’apprentissage par renforcement traditionnels, étant donné le succès prouvé des objectifs d’apprentissage contrastifs avec de grands ensembles de données et des réseaux neuronaux.

Considérations pratiques

Le cadre d’apprentissage des préférences contrastives fournit une fonction de perte générique qui peut être utilisée pour apprendre des stratégies à partir de préférences basées sur la force, à partir desquelles de nombreux algorithmes peuvent être dérivés. Ce qui suit est un exemple pratique d’un cadre CPL spécifique qui fonctionne bien.

CPL avec des données hors ligne limitées. Bien que CPL puisse converger vers une stratégie optimale avec des données de préférence illimitées, dans la pratique, nous sommes généralement préoccupés par l’apprentissage à partir d’un ensemble de données hors ligne limité. Dans cette configuration, les stratégies qui extrapolent trop loin au-delà de la prise en charge du jeu de données sont peu performantes, car les actions qu’elles effectuent entraînent un état hors distribution.

Régularisation. Dans un environnement fini, nous voulons choisir une stratégie qui minimise la fonction de perte CPL tout en donnant une probabilité plus élevée aux actions de cet ensemble de données. Pour ce faire, le chercheur utilise un régulariseur conservateur pour obtenir la fonction de perte suivante : lorsque la stratégie a une probabilité plus élevée d’une action en D_pref, une perte plus faible est allouée, garantissant ainsi qu’elle est dans la distribution.

Pré-formation. L’équipe a constaté que la stratégie π_θ était pré-entraînée à l’aide de l’approche de clonage comportemental (BC) pour obtenir de meilleurs résultats. Ainsi, avant d’affiner les préférences d’utilisation de la perte de CPL, l’équipe a utilisé la cible standard de clonage du maximum de vraisemblance pour entraîner la stratégie, à savoir :

Expériences et résultats

Cette section répond aux questions suivantes sur le CPL : 1. Le CPL peut-il affiner efficacement les politiques en fonction des préférences basées sur les regrets ?2. Le CPL peut-il être mis à l’échelle pour des problèmes de contrôle de grande dimension et des réseaux plus importants ?3. Quels composants du CPL sont importants pour atteindre des performances élevées ?

Données de préférence. À l’aide de données et de préférences de déploiement dissociatif sous-optimales, les chercheurs ont évalué la capacité de CPL à apprendre des stratégies pour la MDP générique.

Méthodologie de référence. Trois méthodes de référence ont été prises en compte dans l’expérience : le réglage fin supervisé (SFT), l’apprentissage Q implicite de préférence (P-IQL), % BC (entraînement d’une politique par clonage comportemental des X % supérieurs du déploiement).

Quelles sont les performances de CPL ?**

Quelles sont les performances de CPL lors de l’utilisation d’observations basées sur l’état ? Pour les résultats expérimentaux basés sur l’état, les lignes 1 et 3 du tableau 1 sont principalement visibles.

Lors de l’utilisation de données comparatives plus éparses (ligne 3), CPL a surpassé l’approche précédente sur 5 des 6 environnements, et les avantages par rapport à P-IQL étaient pour la plupart clairs, en particulier dans les environnements Button Press, Bin Picking et Sweep Into. Lorsqu’il est appliqué à des ensembles de données avec des comparaisons plus intensives, le CPL est encore plus avantageux que le P-IQL (ligne 1) et est significatif dans tous les contextes.

Pour tester si l’objectif de supervision de la CPL pouvait être étendu à des problèmes de contrôle continu de grande dimension, l’équipe a rendu l’ensemble de données MetaWorld en 64 × 64 images.

Les lignes 2 et 4 du tableau 1 donnent les résultats de l’expérience basée sur l’image. Ils ont obtenu une conclusion intéressante : pour SFT, il y a eu une légère augmentation des performances, mais l’amélioration de P-IQL était perceptible. Lors de l’apprentissage de données de préférences plus intensives (ligne 2), CPL a tout de même surpassé P-IQL sur 4 des 6 environnements et comparable aux deux sur Sweep In. Lors de l’apprentissage de données comparatives plus éparses (ligne 4), CPL et P-IQL ont obtenu des résultats égaux dans la plupart des tâches.

C’est d’autant plus frappant que le CPL a une complexité nettement inférieure ! P-IQL doit apprendre une fonction de récompense, une fonction Q, une fonction de valeur et une stratégie. CPL n’en a besoin, il n’a besoin que d’apprendre une seule stratégie, ce qui réduit considérablement le temps d’entraînement et le nombre de paramètres.

Comme le montre le tableau 2 ci-dessous, CPL s’exécute 1,62 fois plus vite que P-IQL sur les tâches d’image et comporte moins d’un quart du nombre de paramètres. Au fur et à mesure que le réseau se développe, les gains de performances liés à l’utilisation de CPL ne feront qu’augmenter.

Quels sont les éléments qui contribuent à la performance de CPL ?

Comme on peut le voir dans les résultats expérimentaux, l’écart entre la CPL et la méthode de référence est plus important lorsque l’on utilise des ensembles de données avec des comparaisons plus intensives. Ceci est cohérent avec les résultats de recherches antérieures sur l’apprentissage contrastif.

Pour étudier cet effet, la performance de la LPC a été évaluée en augmentant le nombre de comparaisons échantillonnées par fragment sur la base d’un ensemble de données de taille fixe de 5 000 fragments. La figure 2 ci-dessous montre les résultats de la tâche Tiroir ouvert pour les observations basées sur l’état.

Dans l’ensemble, CPL bénéficie de l’augmentation du nombre de comparaisons échantillonnées par élément, à l’exception de la tâche Lame de plaque.

Enfin, l’équipe a également réalisé une étude d’ablation des hyperparamètres de CPL (valeur de température α et régularisation de biais λ), qui était également basée sur la tâche du tiroir ouvert, dont les résultats sont présentés sur le côté droit de la figure 2. Bien que CPL fonctionne bien avec ces valeurs, des expériences ont montré qu’il peut être encore plus performant avec un réglage approprié des hyperparamètres, en particulier λ.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
#Gate Lists Ondo Spot Trading Zone
22785 Popularité
#Nonfarm Payrolls Incoming
21916 Popularité
#Are You Bullish or Bearish Today?
62058 Popularité
#Bitcoin Market Update
7821 Popularité
#GUSD Now Live on Gate
45383 Popularité

Épingler