Les jeux vidéo sont devenus une simulation du monde réel d’aujourd’hui, et les possibilités sont infinies. Dans le jeu Grand Theft Auto (GTA), par exemple, les joueurs peuvent faire l’expérience d’une vie colorée à Los Santos (la ville virtuelle du jeu) d’un point de vue à la première personne. Cependant, si un joueur humain peut errer dans Los Santos et accomplir un certain nombre de missions, pouvons-nous également avoir un modèle de vision IA qui contrôle un personnage de GTA et devient un « joueur » en mission ?
Les modèles linguistiques visuels (VLM) actuels ont fait des progrès substantiels dans la perception et le raisonnement multimodaux, mais ils sont souvent basés sur des tâches plus simples de réponse visuelle aux questions (VQA) ou d’annotation visuelle (Caption). De toute évidence, ces tâches ne permettent pas à VLM d’accomplir des tâches réelles. Parce que la tâche réelle nécessite non seulement la compréhension de l’information visuelle, mais aussi la capacité du modèle à avoir un raisonnement de planification et un retour d’information basés sur des informations environnementales mises à jour en temps réel. Dans le même temps, le plan résultant doit également être capable de manipuler les entités de l’environnement pour accomplir la tâche de manière réaliste.
Bien que les modèles de langage existants (LLM) puissent planifier des tâches en fonction des informations fournies, ils ne peuvent pas comprendre l’entrée visuelle, ce qui limite considérablement la portée d’application des modèles de langage lors de l’exécution de tâches spécifiques dans le monde réel, en particulier pour certaines tâches d’intelligence incarnée, l’entrée textuelle est souvent difficile à détailler ou trop complexe, de sorte que les modèles de langage ne peuvent pas en extraire efficacement des informations pour accomplir la tâche. Les modèles de langage actuels ont fait quelques explorations pour la génération de programmes, mais l’exploration de la génération de code structuré, exécutable et robuste basé sur une entrée visuelle n’a pas encore été explorée.
Afin de résoudre le problème de la façon de rendre les grands modèles incarnés et intelligents, et de créer des systèmes autonomes et de conscience de la situation capables de formuler avec précision des plans et d’exécuter des commandes, des chercheurs de l’Université technologique de Nanyang à Singapour, de l’Université Tsinghua, etc., ont proposé Octopus. Octopus est un agent programmable basé sur la vision dont le but est d’apprendre par des entrées visuelles, de comprendre le monde réel et d’accomplir une variété de tâches du monde réel d’une manière qui génère du code exécutable. Formé à un grand nombre d’entrées visuelles et de paires de codes exécutables, Octopus a appris à manipuler des personnages de jeux vidéo pour accomplir des tâches dans le jeu ou accomplir des tâches ménagères complexes.
*Adresse:
Page Web du projet :
Code open source :
Collecte de données et formation
Pour former un modèle de langage visuel capable d’effectuer des tâches d’intelligence incarnée, les chercheurs ont également développé OctoVerse, qui se compose de deux systèmes de simulation qui fournissent des données d’entraînement et un environnement de test pour l’entraînement d’Octopus. Ces deux environnements de simulation fournissent des scénarios d’entraînement et de test utilisables pour l’intelligence incarnée de VLM, et proposent des exigences plus élevées pour les capacités d’inférence et de planification des tâches du modèle. Les détails sont les suivants :
OctoGibson : Basé sur OmniGibson développé par l’Université de Stanford, il comprend un total de 476 activités domestiques réelles. L’ensemble de l’environnement de simulation comprend 16 catégories différentes de scénarios domestiques, couvrant 155 exemples d’environnements domestiques réels. Le modèle peut manipuler le grand nombre d’objets interactifs qui y sont présents pour accomplir la tâche finale.
OctoGTA : Basé sur le jeu Grand Theft Auto (GTA), un total de 20 missions sont construites et généralisées en cinq scénarios différents. Placez le joueur dans une position fixe grâce à un programme prédéfini et fournissez les objets et les PNJ nécessaires pour terminer la mission afin de vous assurer que la mission peut être menée à bien sans problème.
Le diagramme suivant montre la classification des tâches d’OctoGibson et certaines des statistiques pour OctoGibson et OctoGTA.
Afin de collecter efficacement les données d’entraînement dans les deux environnements de simulation, les chercheurs ont construit un système complet de collecte de données. En introduisant GPT-4 en tant qu’exécuteur de la tâche, les chercheurs utilisent les fonctions pré-implémentées pour traiter l’entrée visuelle collectée dans l’environnement de simulation en informations textuelles et les fournir à GPT-4, puis exécuter le code dans l’environnement de simulation après que GPT-4 ait renvoyé la planification de la tâche et le code exécutable de l’étape en cours, et juger si la tâche de l’étape en cours est terminée. En cas de succès, procédez à la collecte de l’entrée visuelle suivante ; En cas d’échec, revenez à la position de départ de l’étape précédente et collectez à nouveau les données.
Le diagramme ci-dessus illustre le processus complet de collecte de données à l’aide de la tâche Cuire un bacon dans un environnement OctoGibson à titre d’exemple. Il convient de souligner que dans le processus de collecte des données, les chercheurs ont non seulement enregistré les informations visuelles pendant l’exécution de la tâche, le code exécutable renvoyé par GPT-4, etc., mais ont également enregistré le succès de chaque sous-tâche, qui servira de base à l’introduction ultérieure de l’apprentissage par renforcement pour construire un VLM plus efficace. GPT-4, bien que puissant, n’est pas invulnérable. Les erreurs peuvent se manifester de différentes manières, y compris des erreurs de syntaxe et des défis physiques dans le simulateur. Par exemple, comme le montre la figure 3, entre les états #5 et #6, l’action « Mettre le bacon dans la casserole » échoue parce que l’agent tient le bacon trop loin de la casserole. De tels revers réinitialisent la tâche à son état précédent. Si une tâche n’est pas terminée après 10 étapes, elle est considérée comme infructueuse, nous mettons fin à la tâche pour des raisons budgétaires et toutes les paires de données des sous-tâches de la tâche sont considérées comme infructueuses.
Après avoir collecté une certaine échelle de données d’entraînement, les chercheurs ont utilisé ces données pour former un modèle de vision-langage incarné et intelligent, Octopus. Le diagramme ci-dessus montre le processus complet d’acquisition et d’entraînement des données. Dans un premier temps, en utilisant les données collectées pour un réglage fin supervisé, les chercheurs ont pu construire un modèle VLM capable d’utiliser des informations visuelles en entrée et de suivre un format fixe pour la sortie. À ce stade, le modèle est en mesure d’effectuer le mappage des informations d’entrée visuelles au plan de tâches et au code exécutable. Au cours de la deuxième phase, les chercheurs ont introduit le RLEF
(Reinforcement Learning with Environmental Feedback) utilise le succès des sous-tâches précédemment collectées comme signal de récompense, et l’algorithme d’apprentissage par renforcement est utilisé pour améliorer encore la capacité de planification des tâches de VLM, améliorant ainsi le taux de réussite global de la tâche.
Résultats expérimentaux
Les chercheurs ont testé les VLM et LLM courants actuels dans l’environnement OctoGibson, et le tableau suivant présente les principaux résultats expérimentaux. Pour différents modèles de test, le modèle de vision énumère les modèles visuels utilisés par les différents modèles, et pour les LLM, le chercheur traite les informations visuelles sous forme de texte en entrée du LLM. où O signifie fournir des informations sur les objets interactifs dans la scène, R signifie fournir des informations sur les relations relatives des objets dans la scène et GT signifie utiliser des informations réelles et précises sans introduire de modèles visuels supplémentaires pour la détection.
Pour toutes les tâches de test, les chercheurs ont rapporté la puissance d’intégration complète du test et l’ont divisée en quatre catégories, qui ont enregistré la capacité d’effectuer de nouvelles tâches dans des scénarios qui existaient dans l’ensemble d’apprentissage, la capacité de généralisation d’effectuer de nouvelles tâches dans des scénarios qui n’existaient pas dans l’ensemble d’apprentissage, et la capacité de généralisation d’effectuer des tâches de suivi simples et des tâches de raisonnement complexes. Pour chaque catégorie de statistiques, les chercheurs ont rapporté deux indicateurs d’évaluation, dont le premier était le taux d’achèvement de la tâche, qui mesurait le taux de réussite du modèle dans l’accomplissement de la tâche d’intelligence incarnée ; La seconde est la précision de la planification des tâches, qui est utilisée pour refléter la capacité du modèle à planifier les tâches.
En outre, les chercheurs montrent des exemples de la façon dont différents modèles réagissent aux données visuelles acquises dans l’environnement de simulation OctoGibson. L’image ci-dessous montre les réponses de TAPA+CodeLLaMA, Octopus et GPT-4V à l’entrée visuelle générée dans OctoGibson. On peut voir que par rapport à TAPA+CodeLLaMA et au modèle Octopus avec seulement un réglage fin supervisé, le modèle Octopus entraîné avec RLEF a une planification des tâches plus raisonnable, et peut fournir un plan plus complet même pour les instructions de tâche les plus ambiguës (trouver une tourie). Ces performances illustrent une fois de plus l’efficacité de la stratégie de formation du RLEF dans l’amélioration de la capacité de planification des tâches et de la capacité d’inférence du modèle.
En général, il y a encore beaucoup de place pour l’amélioration des capacités réelles d’exécution et de planification des tâches des modèles existants dans l’environnement de simulation. Les chercheurs ont résumé quelques-unes des principales conclusions :
**1.CodeLLaMA peut améliorer la capacité de génération de code du modèle, mais pas la capacité de planification des tâches. **
Les chercheurs ont souligné que les résultats expérimentaux montrent que CodeLLaMA peut améliorer considérablement la capacité de génération de code du modèle. Par rapport aux LLM traditionnels, CodeLLaMA permet un meilleur code avec des taux d’exécution plus élevés. Cependant, bien que certains modèles utilisent CodeLLaMA pour la génération de code, le taux de réussite global de la tâche est toujours limité par la capacité de planification des tâches. D’autre part, Octopus, bien que le taux d’exécution du code ait diminué en raison de l’absence de CodeLLaMA, le taux de réussite global des tâches est toujours meilleur que celui des autres modèles en raison de sa forte capacité de planification des tâches.
**2.Les LLM sont difficiles à gérer face à une grande quantité de saisie de texte. **
Dans le processus de test réel, les chercheurs ont comparé les résultats expérimentaux de TAPA et CodeLLaMA et sont arrivés à la conclusion qu’il est difficile pour les modèles de langage de bien gérer la saisie de texte long. Les chercheurs ont suivi l’approche de TAPA et ont utilisé des informations sur des objets réels pour la planification de la mission, tandis que CodeLLaMA a utilisé les relations de position relative entre les objets pour fournir des informations plus complètes. Cependant, au cours de l’expérience, les chercheurs ont constaté qu’en raison de la grande quantité d’informations redondantes dans l’environnement, lorsque l’environnement est plus complexe, la saisie de texte augmente considérablement et qu’il est difficile pour les LLM d’extraire des indices précieux de la grande quantité d’informations redondantes, réduisant ainsi le taux de réussite de la tâche. Cela reflète également les limites des LLM, à savoir que l’utilisation d’informations textuelles pour représenter des scénarios complexes peut entraîner une grande quantité d’entrées redondantes et sans valeur.
Octopus a démontré une bonne capacité de généralisation des tâches. **
À travers les résultats expérimentaux, on peut conclure qu’Octopus a une forte capacité à généraliser les tâches. Le taux de réussite de l’achèvement des tâches et de la planification des tâches dans les nouveaux scénarios qui n’apparaissent pas dans l’ensemble d’apprentissage est meilleur que celui des modèles existants. Cela montre également certains des avantages inhérents aux modèles de langage visuel, qui sont plus généralisables que les LLM traditionnels pour la même classe de tâches.
RLEF améliore les capacités de planification des tâches du modèle. **
Dans les résultats expérimentaux, les chercheurs ont fourni une comparaison des performances du modèle qui n’avait subi que la première étape de mise au point supervisée et du modèle qui avait été entraîné par RLEF. On peut voir qu’après l’entraînement RLEF, le taux de réussite global et la capacité de planification du modèle ont été considérablement améliorés sur les tâches qui nécessitent une forte capacité de raisonnement et de planification des tâches. RLEF est également beaucoup plus efficace que les stratégies d’entraînement VLM existantes. L’exemple illustré dans la figure ci-dessus peut également illustrer l’amélioration de la capacité de planification des tâches du modèle après l’entraînement RLEF. Les modèles entraînés par RLEF sont capables de comprendre comment naviguer dans l’environnement lorsqu’ils sont confrontés à des tâches plus complexes, et le modèle est plus conforme aux exigences réelles de l’environnement de simulation en termes de planification des tâches (par exemple, le modèle doit se déplacer vers l’objet pour interagir avant de pouvoir commencer à interagir), réduisant ainsi le taux d’échec de la planification des tâches.
Discussion
Expérience d’ablation
Après avoir évalué les capacités réelles du modèle, les chercheurs ont examiné de plus près certains facteurs possibles qui pourraient affecter les performances du modèle. Comme le montre la figure ci-dessous, les chercheurs ont mené des expériences sous trois aspects.
Le poids des paramètres d’entraînement
Les chercheurs ont comparé les performances d’une couche connectée entraînée uniquement avec un modèle de langage, une couche de connexion entraînée et un modèle de langage, ainsi qu’un modèle entièrement entraîné. On peut voir qu’avec l’augmentation des paramètres d’entraînement, les performances du modèle s’améliorent progressivement. Cela montre que le nombre de paramètres d’apprentissage est crucial pour savoir si le modèle peut effectuer la tâche dans certains scénarios fixes.
La taille du modèle
Les chercheurs ont comparé les performances du modèle à paramètres 3B plus petits avec le modèle de base 7B dans les deux phases d’entraînement. Grâce à la comparaison, on peut voir que lorsque les paramètres globaux du modèle sont importants, les performances du modèle seront également considérablement améliorées. La façon de sélectionner les paramètres d’entraînement du modèle appropriés, afin que le modèle puisse avoir la capacité d’effectuer les tâches correspondantes, tout en garantissant la vitesse d’inférence légère et rapide du modèle, sera un point clé dans la recherche future dans le domaine de la VLM.
Continuité de l’entrée visuelle
Afin d’explorer l’impact de différentes entrées visuelles sur les performances des VLM réels, les chercheurs ont expérimenté l’ordre d’entrée des informations visuelles. Pendant le test, le modèle pivote séquentiellement dans l’environnement de simulation pour capturer des images à la première personne et deux vues à vol d’oiseau, qui sont ensuite introduites séquentiellement dans le VLM. Dans l’expérience, lorsque le chercheur a mélangé au hasard l’ordre des images visuelles, puis les a introduites dans le VLM, le VLM a produit une grande perte de performance. D’une part, cela illustre l’importance d’une information visuelle complète et structurée pour la VLM, et d’autre part, cela reflète également dans une certaine mesure que la VLM repose sur la connexion interne des images visuelles en réponse à l’entrée visuelle, et une fois que cette connexion visuelle est rompue, cela affectera grandement les performances de la VLM.
GPT-4
En outre, les chercheurs ont également testé et calculé les performances de GPT-4 et GPT-4V dans un environnement simulé.
GPT-4
Dans le cas de GPT-4, le chercheur fournit exactement les mêmes informations textuelles que lorsqu’il les utilise pour collecter des données d’entraînement. GPT-4 peut effectuer la moitié des tâches de test, ce qui montre que le VLM existant a encore beaucoup de place pour l’amélioration des performances par rapport aux modèles de langage comme GPT-4, et d’autre part, cela montre également que même les modèles de langage avec de fortes performances tels que GPT-4 doivent encore améliorer leurs capacités de planification et d’exécution des tâches face aux tâches d’intelligence incarnée.
GPT-4V
Comme GPT-4V vient de publier une API qui peut être appelée directement, les chercheurs n’ont pas encore eu le temps de l’essayer, mais les chercheurs ont également testé manuellement quelques exemples pour démontrer les performances de GPT-4V. À travers quelques exemples, les chercheurs pensent que GPT-4V a une forte capacité de généralisation zéro coup pour les tâches dans l’environnement de simulation, et peut également générer du code exécutable correspondant basé sur des entrées visuelles, mais il est légèrement inférieur au modèle affiné sur les données collectées dans l’environnement de simulation dans certaines planifications de tâches.
Résumé
Les chercheurs soulignent certaines limites des travaux actuels :
Le modèle actuel d’Octopus n’est pas satisfaisant pour des tâches plus complexes. Lorsqu’il est confronté à des tâches complexes, Octopus fait souvent des plans incorrects et s’appuie fortement sur les commentaires de l’environnement, finissant souvent par avoir du mal à terminer la tâche globale.
Les modèles Octopus ne sont entraînés que dans un environnement de simulation, et la façon de les migrer vers le monde réel sera confrontée à une série de problèmes. Par exemple, dans l’environnement réel, il sera difficile pour le modèle d’obtenir des informations plus précises sur la position relative des objets, et la façon de construire la compréhension des objets dans la scène deviendra plus difficile.
Octopus est actuellement une entrée visuelle d’images fixes discrètes, et comment le rendre capable de gérer la vidéo en continu sera un défi à l’avenir. La vidéo continue peut encore améliorer les performances du modèle pour accomplir la tâche, mais la façon de traiter et de comprendre efficacement l’entrée visuelle continue sera la clé pour améliorer encore les performances du VLM.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Pour faire du modèle d’IA un joueur cinq étoiles de GTA, l’agent programmable basé sur la vision Octopus est là
Source originale : Heart of the Machine
Les jeux vidéo sont devenus une simulation du monde réel d’aujourd’hui, et les possibilités sont infinies. Dans le jeu Grand Theft Auto (GTA), par exemple, les joueurs peuvent faire l’expérience d’une vie colorée à Los Santos (la ville virtuelle du jeu) d’un point de vue à la première personne. Cependant, si un joueur humain peut errer dans Los Santos et accomplir un certain nombre de missions, pouvons-nous également avoir un modèle de vision IA qui contrôle un personnage de GTA et devient un « joueur » en mission ?
Les modèles linguistiques visuels (VLM) actuels ont fait des progrès substantiels dans la perception et le raisonnement multimodaux, mais ils sont souvent basés sur des tâches plus simples de réponse visuelle aux questions (VQA) ou d’annotation visuelle (Caption). De toute évidence, ces tâches ne permettent pas à VLM d’accomplir des tâches réelles. Parce que la tâche réelle nécessite non seulement la compréhension de l’information visuelle, mais aussi la capacité du modèle à avoir un raisonnement de planification et un retour d’information basés sur des informations environnementales mises à jour en temps réel. Dans le même temps, le plan résultant doit également être capable de manipuler les entités de l’environnement pour accomplir la tâche de manière réaliste.
Bien que les modèles de langage existants (LLM) puissent planifier des tâches en fonction des informations fournies, ils ne peuvent pas comprendre l’entrée visuelle, ce qui limite considérablement la portée d’application des modèles de langage lors de l’exécution de tâches spécifiques dans le monde réel, en particulier pour certaines tâches d’intelligence incarnée, l’entrée textuelle est souvent difficile à détailler ou trop complexe, de sorte que les modèles de langage ne peuvent pas en extraire efficacement des informations pour accomplir la tâche. Les modèles de langage actuels ont fait quelques explorations pour la génération de programmes, mais l’exploration de la génération de code structuré, exécutable et robuste basé sur une entrée visuelle n’a pas encore été explorée.
Afin de résoudre le problème de la façon de rendre les grands modèles incarnés et intelligents, et de créer des systèmes autonomes et de conscience de la situation capables de formuler avec précision des plans et d’exécuter des commandes, des chercheurs de l’Université technologique de Nanyang à Singapour, de l’Université Tsinghua, etc., ont proposé Octopus. Octopus est un agent programmable basé sur la vision dont le but est d’apprendre par des entrées visuelles, de comprendre le monde réel et d’accomplir une variété de tâches du monde réel d’une manière qui génère du code exécutable. Formé à un grand nombre d’entrées visuelles et de paires de codes exécutables, Octopus a appris à manipuler des personnages de jeux vidéo pour accomplir des tâches dans le jeu ou accomplir des tâches ménagères complexes.
Collecte de données et formation
Pour former un modèle de langage visuel capable d’effectuer des tâches d’intelligence incarnée, les chercheurs ont également développé OctoVerse, qui se compose de deux systèmes de simulation qui fournissent des données d’entraînement et un environnement de test pour l’entraînement d’Octopus. Ces deux environnements de simulation fournissent des scénarios d’entraînement et de test utilisables pour l’intelligence incarnée de VLM, et proposent des exigences plus élevées pour les capacités d’inférence et de planification des tâches du modèle. Les détails sont les suivants :
OctoGibson : Basé sur OmniGibson développé par l’Université de Stanford, il comprend un total de 476 activités domestiques réelles. L’ensemble de l’environnement de simulation comprend 16 catégories différentes de scénarios domestiques, couvrant 155 exemples d’environnements domestiques réels. Le modèle peut manipuler le grand nombre d’objets interactifs qui y sont présents pour accomplir la tâche finale.
OctoGTA : Basé sur le jeu Grand Theft Auto (GTA), un total de 20 missions sont construites et généralisées en cinq scénarios différents. Placez le joueur dans une position fixe grâce à un programme prédéfini et fournissez les objets et les PNJ nécessaires pour terminer la mission afin de vous assurer que la mission peut être menée à bien sans problème.
Le diagramme suivant montre la classification des tâches d’OctoGibson et certaines des statistiques pour OctoGibson et OctoGTA.
(Reinforcement Learning with Environmental Feedback) utilise le succès des sous-tâches précédemment collectées comme signal de récompense, et l’algorithme d’apprentissage par renforcement est utilisé pour améliorer encore la capacité de planification des tâches de VLM, améliorant ainsi le taux de réussite global de la tâche.
Résultats expérimentaux
Les chercheurs ont testé les VLM et LLM courants actuels dans l’environnement OctoGibson, et le tableau suivant présente les principaux résultats expérimentaux. Pour différents modèles de test, le modèle de vision énumère les modèles visuels utilisés par les différents modèles, et pour les LLM, le chercheur traite les informations visuelles sous forme de texte en entrée du LLM. où O signifie fournir des informations sur les objets interactifs dans la scène, R signifie fournir des informations sur les relations relatives des objets dans la scène et GT signifie utiliser des informations réelles et précises sans introduire de modèles visuels supplémentaires pour la détection.
Pour toutes les tâches de test, les chercheurs ont rapporté la puissance d’intégration complète du test et l’ont divisée en quatre catégories, qui ont enregistré la capacité d’effectuer de nouvelles tâches dans des scénarios qui existaient dans l’ensemble d’apprentissage, la capacité de généralisation d’effectuer de nouvelles tâches dans des scénarios qui n’existaient pas dans l’ensemble d’apprentissage, et la capacité de généralisation d’effectuer des tâches de suivi simples et des tâches de raisonnement complexes. Pour chaque catégorie de statistiques, les chercheurs ont rapporté deux indicateurs d’évaluation, dont le premier était le taux d’achèvement de la tâche, qui mesurait le taux de réussite du modèle dans l’accomplissement de la tâche d’intelligence incarnée ; La seconde est la précision de la planification des tâches, qui est utilisée pour refléter la capacité du modèle à planifier les tâches.
**1.CodeLLaMA peut améliorer la capacité de génération de code du modèle, mais pas la capacité de planification des tâches. **
Les chercheurs ont souligné que les résultats expérimentaux montrent que CodeLLaMA peut améliorer considérablement la capacité de génération de code du modèle. Par rapport aux LLM traditionnels, CodeLLaMA permet un meilleur code avec des taux d’exécution plus élevés. Cependant, bien que certains modèles utilisent CodeLLaMA pour la génération de code, le taux de réussite global de la tâche est toujours limité par la capacité de planification des tâches. D’autre part, Octopus, bien que le taux d’exécution du code ait diminué en raison de l’absence de CodeLLaMA, le taux de réussite global des tâches est toujours meilleur que celui des autres modèles en raison de sa forte capacité de planification des tâches.
**2.Les LLM sont difficiles à gérer face à une grande quantité de saisie de texte. **
Dans le processus de test réel, les chercheurs ont comparé les résultats expérimentaux de TAPA et CodeLLaMA et sont arrivés à la conclusion qu’il est difficile pour les modèles de langage de bien gérer la saisie de texte long. Les chercheurs ont suivi l’approche de TAPA et ont utilisé des informations sur des objets réels pour la planification de la mission, tandis que CodeLLaMA a utilisé les relations de position relative entre les objets pour fournir des informations plus complètes. Cependant, au cours de l’expérience, les chercheurs ont constaté qu’en raison de la grande quantité d’informations redondantes dans l’environnement, lorsque l’environnement est plus complexe, la saisie de texte augmente considérablement et qu’il est difficile pour les LLM d’extraire des indices précieux de la grande quantité d’informations redondantes, réduisant ainsi le taux de réussite de la tâche. Cela reflète également les limites des LLM, à savoir que l’utilisation d’informations textuelles pour représenter des scénarios complexes peut entraîner une grande quantité d’entrées redondantes et sans valeur.
À travers les résultats expérimentaux, on peut conclure qu’Octopus a une forte capacité à généraliser les tâches. Le taux de réussite de l’achèvement des tâches et de la planification des tâches dans les nouveaux scénarios qui n’apparaissent pas dans l’ensemble d’apprentissage est meilleur que celui des modèles existants. Cela montre également certains des avantages inhérents aux modèles de langage visuel, qui sont plus généralisables que les LLM traditionnels pour la même classe de tâches.
Dans les résultats expérimentaux, les chercheurs ont fourni une comparaison des performances du modèle qui n’avait subi que la première étape de mise au point supervisée et du modèle qui avait été entraîné par RLEF. On peut voir qu’après l’entraînement RLEF, le taux de réussite global et la capacité de planification du modèle ont été considérablement améliorés sur les tâches qui nécessitent une forte capacité de raisonnement et de planification des tâches. RLEF est également beaucoup plus efficace que les stratégies d’entraînement VLM existantes. L’exemple illustré dans la figure ci-dessus peut également illustrer l’amélioration de la capacité de planification des tâches du modèle après l’entraînement RLEF. Les modèles entraînés par RLEF sont capables de comprendre comment naviguer dans l’environnement lorsqu’ils sont confrontés à des tâches plus complexes, et le modèle est plus conforme aux exigences réelles de l’environnement de simulation en termes de planification des tâches (par exemple, le modèle doit se déplacer vers l’objet pour interagir avant de pouvoir commencer à interagir), réduisant ainsi le taux d’échec de la planification des tâches.
Discussion
Expérience d’ablation
Après avoir évalué les capacités réelles du modèle, les chercheurs ont examiné de plus près certains facteurs possibles qui pourraient affecter les performances du modèle. Comme le montre la figure ci-dessous, les chercheurs ont mené des expériences sous trois aspects.
Les chercheurs ont comparé les performances d’une couche connectée entraînée uniquement avec un modèle de langage, une couche de connexion entraînée et un modèle de langage, ainsi qu’un modèle entièrement entraîné. On peut voir qu’avec l’augmentation des paramètres d’entraînement, les performances du modèle s’améliorent progressivement. Cela montre que le nombre de paramètres d’apprentissage est crucial pour savoir si le modèle peut effectuer la tâche dans certains scénarios fixes.
Les chercheurs ont comparé les performances du modèle à paramètres 3B plus petits avec le modèle de base 7B dans les deux phases d’entraînement. Grâce à la comparaison, on peut voir que lorsque les paramètres globaux du modèle sont importants, les performances du modèle seront également considérablement améliorées. La façon de sélectionner les paramètres d’entraînement du modèle appropriés, afin que le modèle puisse avoir la capacité d’effectuer les tâches correspondantes, tout en garantissant la vitesse d’inférence légère et rapide du modèle, sera un point clé dans la recherche future dans le domaine de la VLM.
Afin d’explorer l’impact de différentes entrées visuelles sur les performances des VLM réels, les chercheurs ont expérimenté l’ordre d’entrée des informations visuelles. Pendant le test, le modèle pivote séquentiellement dans l’environnement de simulation pour capturer des images à la première personne et deux vues à vol d’oiseau, qui sont ensuite introduites séquentiellement dans le VLM. Dans l’expérience, lorsque le chercheur a mélangé au hasard l’ordre des images visuelles, puis les a introduites dans le VLM, le VLM a produit une grande perte de performance. D’une part, cela illustre l’importance d’une information visuelle complète et structurée pour la VLM, et d’autre part, cela reflète également dans une certaine mesure que la VLM repose sur la connexion interne des images visuelles en réponse à l’entrée visuelle, et une fois que cette connexion visuelle est rompue, cela affectera grandement les performances de la VLM.
En outre, les chercheurs ont également testé et calculé les performances de GPT-4 et GPT-4V dans un environnement simulé.
Dans le cas de GPT-4, le chercheur fournit exactement les mêmes informations textuelles que lorsqu’il les utilise pour collecter des données d’entraînement. GPT-4 peut effectuer la moitié des tâches de test, ce qui montre que le VLM existant a encore beaucoup de place pour l’amélioration des performances par rapport aux modèles de langage comme GPT-4, et d’autre part, cela montre également que même les modèles de langage avec de fortes performances tels que GPT-4 doivent encore améliorer leurs capacités de planification et d’exécution des tâches face aux tâches d’intelligence incarnée.
Comme GPT-4V vient de publier une API qui peut être appelée directement, les chercheurs n’ont pas encore eu le temps de l’essayer, mais les chercheurs ont également testé manuellement quelques exemples pour démontrer les performances de GPT-4V. À travers quelques exemples, les chercheurs pensent que GPT-4V a une forte capacité de généralisation zéro coup pour les tâches dans l’environnement de simulation, et peut également générer du code exécutable correspondant basé sur des entrées visuelles, mais il est légèrement inférieur au modèle affiné sur les données collectées dans l’environnement de simulation dans certaines planifications de tâches.
Résumé
Les chercheurs soulignent certaines limites des travaux actuels :
Le modèle actuel d’Octopus n’est pas satisfaisant pour des tâches plus complexes. Lorsqu’il est confronté à des tâches complexes, Octopus fait souvent des plans incorrects et s’appuie fortement sur les commentaires de l’environnement, finissant souvent par avoir du mal à terminer la tâche globale.
Les modèles Octopus ne sont entraînés que dans un environnement de simulation, et la façon de les migrer vers le monde réel sera confrontée à une série de problèmes. Par exemple, dans l’environnement réel, il sera difficile pour le modèle d’obtenir des informations plus précises sur la position relative des objets, et la façon de construire la compréhension des objets dans la scène deviendra plus difficile.
Octopus est actuellement une entrée visuelle d’images fixes discrètes, et comment le rendre capable de gérer la vidéo en continu sera un défi à l’avenir. La vidéo continue peut encore améliorer les performances du modèle pour accomplir la tâche, mais la façon de traiter et de comprendre efficacement l’entrée visuelle continue sera la clé pour améliorer encore les performances du VLM.