Pour permettre aux grands modèles d’explorer le monde ouvert de manière indépendante, l’Université de Pékin et KLCII ont proposé le cadre de formation LLaMA-Rider

2023-11-07 06:35:49

Source de l’article : Heart of the Machine

Source de l’image : Générée par Unbounded AI

Les grands modèles de langage ont montré le potentiel de devenir des agents polyvalents en raison de leurs capacités puissantes et universelles de génération et de compréhension du langage. Dans le même temps, l’exploration et l’apprentissage dans un environnement ouvert sont l’une des capacités importantes des agents polyvalents. Par conséquent, la façon d’adapter de grands modèles de langage au monde ouvert est une question de recherche importante.

En réponse à ce problème, une équipe de l’Université de Pékin et de l’Académie d’intelligence artificielle de Pékin a proposé LLaMA-Rider, qui donne aux grands modèles la possibilité d’explorer des tâches, de collecter des données et d’apprendre des stratégies dans le monde ouvert, aidant les agents à explorer et à acquérir des connaissances de manière indépendante et à apprendre à résoudre diverses tâches dans Minecraft, améliorant ainsi l’autonomie et la polyvalence des agents.

Explorez le monde ouvert par vous-même

* Lien vers l’article :

Liens de code :

1、Exploration et apprentissage basés sur la rétroaction environnementale

LLaMA-Rider se concentre sur l’adaptation des grands modèles de langage (LLM) à leur environnement, améliorant ainsi leur capacité à effectuer plusieurs tâches à la fois dans l’environnement. Les connaissances acquises au cours de la phase de pré-formation des LLM sont susceptibles d’être incohérentes avec l’environnement réel, ce qui conduit souvent à de mauvaises décisions. Afin de résoudre ce problème, certaines méthodes existantes utilisent l’ingénierie rapide pour obtenir des informations environnementales par le biais d’interactions fréquentes avec le LLM, mais ne mettent pas à jour le LLM ; Certains utilisent l’apprentissage par renforcement pour affiner les LLM en ligne, mais ils sont coûteux en calcul et difficiles à adapter à des tâches multitâches et complexes.

LLaMA-Rider a trouvé une nouvelle façon de penser à ce sujet. Il s’appuie d’abord sur les retours d’expérience de l’environnement et s’appuie sur la capacité du LLM à explorer l’environnement et à recueillir des expériences réussies. Par la suite, LLaMA-Rider intègre l’expérience dans un jeu de données supervisé pour apprendre et mettre à jour ses connaissances. Un tel cadre de formation en deux étapes a permis à LLaMA-Rider de surpasser le planificateur de tâches ChatGPT moyen sur 30 tâches dans l’environnement Minecraft et de démontrer sa capacité à généraliser de nouvelles tâches.

Pendant la phase d’exploration, LLaMA-Rider utilise le mécanisme de rétroaction-modification pour explorer activement. À chaque pas de temps, LLaMA-Rider reçoit des informations textuelles sur l’environnement et des informations sur les tâches, et prend une décision sur l’étape suivante. En raison d’un manque de connaissances avec l’environnement, la décision peut ne pas être exécutée dans l’environnement et déclencher un retour d’information de l’environnement, qui est réalimenté à LLaMA-Rider pour le guider dans la modification de la décision. Grâce à la compréhension contextuelle et au retour d’information environnemental de LLM, LLaMA-Rider peut explorer efficacement le monde ouvert.

Afin de faire correspondre la sortie de texte du LLM à l’espace d’action de l’environnement, LLaMA-Rider utilise un ensemble de compétences pré-entraînées en tant que bibliothèque de compétences, et utilise le module de récupération de compétences pour faire correspondre le texte de sortie du LLM avec la description de la compétence dans la bibliothèque de compétences afin de récupérer la compétence la plus proche. Étant donné que les descriptions de compétences ont plus de sémantique que d’actions dans l’environnement, cette approche utilise davantage les capacités des LLM.

De plus, LLaMA-Rider utilise la méthode de réétiquetage des sous-tâches, qui remplace les informations de tâche d’origine dans l’entrée par les informations de sous-tâche qui sont actuellement en cours d’achèvement pendant le processus d’exploration, afin que le LLM puisse prêter attention au sous-objectif actuel pendant le processus d’exploration et améliorer le taux de réussite des tâches.

Au cours de la phase d’apprentissage, les leçons apprises au cours de l’exploration sont intégrées dans un ensemble de données supervisées qui peut être utilisé pour effectuer un réglage fin supervisé (SFT) du LLM. La méthode de réétiquetage des sous-tâches est également utilisée dans le jeu de données pour permettre à LLaMA-Rider d’apprendre la combinaison de sous-tâches entre les tâches et d’améliorer la capacité de généralisation de la stratégie.

2, Effet expérimental

Le grand modèle de langage utilisé par LLaMA-Rider est le chat LLaMA-2-70B récemment lancé. Parmi les 30 tâches des trois catégories de Minecraft, LLaMA-Rider a surpassé les planificateurs de tâches basés sur ChatGPT, et le nombre de tâches que LLaMA-Rider pouvait accomplir après l’apprentissage dépassait également le nombre de tâches qu’il pouvait réussir dans la phase d’exploration, démontrant la capacité de LLaMA-Rider à apprendre en permanence et à résoudre plusieurs tâches dans le monde ouvert.

Par rapport aux méthodes d’apprentissage par renforcement (RL), LLaMA-Rider présente les avantages d’une efficacité d’échantillonnage élevée et d’un faible coût d’entraînement. Même sur des tâches liées au bois avec une difficulté simple et un nombre d’étapes court, la méthode RL est difficile à obtenir des résultats d’entraînement, ce qui indique que la méthode d’apprentissage par renforcement est difficile à étendre à de grands espaces moteurs et à des scènes complexes. LLaMA-Rider, quant à lui, n’a utilisé que 5 à 10 explorations de tâches pour terminer la collecte de données dans la phase d’exploration, et n’a entraîné que sur un ensemble de données d’une taille d’échantillon de 1,3k dans la phase d’apprentissage pour obtenir de meilleurs résultats.

Les auteurs ont également constaté qu’après avoir exploré les 30 tâches ci-dessus, LLaMA-Rider a pu améliorer l’efficacité des tâches plus difficiles liées au minerai de fer qui n’ont pas été explorées au cours du processus d’apprentissage. Cela démontre une fois de plus la généralisation de la capacité de prise de décision que LLaMA-Rider a apprise.

Dans l’expérience d’ablation, les auteurs ont utilisé des tâches liées à la pierre avec plus de sous-tâches pour vérifier le rôle clé de la méthode de réétiquetage des sous-tâches sur le taux de réussite des tâches et la capacité de généralisation des tâches.

De plus, bien que LLaMA-Rider n’apprenne que les données liées à la prise de décision de la tâche, lorsque l’auteur pose des questions liées à la tâche, LLaMA-Rider donne également une réponse plus précise, indiquant qu’il apprend également des connaissances environnementales au cours du processus de formation, ce qui prouve que LLaMA-Rider joue un rôle dans l’alignement avec les connaissances environnementales.

3, Résumé

Les auteurs proposent le cadre d’entraînement du grand modèle de langage de LLaMA-Rider, qui permet au grand modèle de langage d’explorer le monde ouvert de manière indépendante en fonction de la rétroaction environnementale combinée à ses propres capacités, et d’effectuer un apprentissage efficace basé sur l’expérience collectée, et d’obtenir de meilleures capacités de résolution multitâche dans l’environnement Minecraft que d’autres méthodes, y compris le planificateur de tâches ChatGPT, de sorte que le grand modèle de langage puisse gagner en adaptabilité au monde ouvert. De plus, la capacité de généralisation de LLaMA-Rider à résoudre de nouvelles tâches en utilisant l’expérience des tâches passées indique la perspective d’appliquer cette méthode à l’apprentissage de l’exploration tout au long de la vie de grands modèles.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
#Gate Lists Ondo Spot Trading Zone
12k Popularité
#Nonfarm Payrolls Incoming
8k Popularité
#Are You Bullish or Bearish Today?
46k Popularité
#Bitcoin Market Update
5k Popularité
#Gate Alpha PTB Points Airdrop
6k Popularité

Épingler