La version open-source de « ChatGPT Plus » est là, qui peut effectuer l’analyse de données, l’appel de plug-in, l’accès automatique à Internet et l’atterrissage d’agents du monde réel
L’abonnement OpenAI ChatGPT Plus est puissant et peut mettre en œuvre une « analyse avancée des données », des « plugins » et une « navigation avec Bing », qui peuvent être utilisés comme un outil de productivité important dans la vie quotidienne. Cependant, pour des raisons commerciales, le code source fermé est choisi, et les chercheurs et les développeurs ne peuvent l’utiliser que s’ils n’ont pas les moyens de faire de la recherche ou de l’améliorer.
Sur cette base, des chercheurs de l’Université de Hong Kong, du XLang Lab, du Sea AI Lab et de Salesforce ont créé conjointement OpenAgents, un framework d’agent open source pour les outils de productivité du monde réel, et un code full-stack open source (front-end, back-end, code de recherche complet) pour répondre aux besoins de tous, des chercheurs aux développeurs en passant par les utilisateurs.
OpenAgents tente de se rapprocher des fonctionnalités de ChatGPT Plus avec des technologies basées sur des « grands modèles de langage » (LLM) et un code d’ingénierie full-stack. L’agent peut exécuter du code Python/SQL, appeler habilement des outils et peut également trouver des cartes et des messages sur Internet, de l’implémentation du code de recherche au front-end back-end, ce qui en fait une application de niveau d’accueil que tout le monde peut utiliser. OpenAgents divulgue entièrement la technologie qu’ils utilisent et les difficultés qu’ils rencontrent, entièrement open source le code, couvrant tout, de la recherche scientifique au code logique en passant par le code front-end. Le code est parfait, facile à étendre et peut être déployé directement localement en un seul clic, et la documentation de support avec des cas d’utilisation riches est fournie pour aider les chercheurs et les développeurs à créer leurs propres agents et applications sur le modèle.
*Carte d’ensemble d’OpenAgents, interface web orientée utilisateur, déploiement local pour les développeurs, agents linguistiques pour les chercheurs. *
* Lien de code :
Lien vers le papier :
Lien de démo :
Lien vers le document :
**Identique à ChatGPT Plus et « Pas le même »
À gauche se trouve l’implémentation d’OpenAgents, et à droite se trouve ChatGPT Plus :
Jetons un coup d’œil à la fonction « Analyse des données ». Avec la même tâche d’analyse des cours boursiers, OpenAgents et ChatGPT peuvent faire un bon travail d’analyse des exigences des utilisateurs en matière de cours boursiers et de transactions. Alors qu’OpenAgents peut rechercher automatiquement l’ensemble de données Kaggle et le télécharger, ChatGPT exige que les utilisateurs le téléchargent localement.
Essayez la première fonction de « plugin » d’OpenAI. L’utilisateur voulait dessiner des octaèdres, et les deux ont appelé avec succès le plug-in Wolfram pour dessiner des images de plusieurs octaèdres.
Enfin, jetez un coup d’œil à « Navigation sur le Web ». Lorsqu’un utilisateur veut vérifier le billet d’avion de Hong Kong à New York le 20 octobre, OpenAgents reconnaît l’intention de l’utilisateur et saute directement à Skycanner, pense comme une « vraie personne » tout en remplissant les informations sur le site Web, et revient enfin à la page de chat pour résumer les informations ; ChatGPT est en sécurité pour assurer la contrôlabilité, comme pour appeler des plug-ins, naviguer sur le Web dans le cloud et renvoyer les dernières informations recherchées.
Parce qu’OpenAgents fournit du code open source, les développeurs et les chercheurs peuvent personnaliser, adapter quelques lignes de code au modèle souhaité, s’améliorer, créer les fonctionnalités qu’ils souhaitent et même créer de nouveaux agents. C’est essentiel pour la poursuite du développement et de la recherche dans cette direction.
** Cela semble simple, pourquoi les agents « utilisables en termes de productivité » marchent-ils sur autant de fosses ? **
Il existe de nombreux frameworks open source pour les agents, et les middlewares basés sur de grands modèles émergent dans un flux sans fin, pourquoi il n’est pas facile de construire un agent vraiment pratique et utilisable, OpenAgents comparé à d’autres frameworks d’agents dans leur article :
* Comparez OpenAgents avec d’autres frameworks. *
Comme vous pouvez le voir dans le tableau, « Interface » et « Environnement » sont deux des choses qui distinguent OpenAgents. Les frameworks open source existants tels que LangChain, AutoGPT et BabyAGI sont conçus pour fournir aux développeurs des implémentations de preuve de concept et des interfaces de console précoces, mais ne sont pas assez robustes dans le monde réel, ce qui limite l’accès à un public plus large, en particulier à ceux qui ne sont pas familiers avec la programmation ou les consoles. Dans une architecture à code source fermé, OpenAI déploie des produits bien conçus dans ChatGPT Plus, en particulier des fonctionnalités telles que l’analyse avancée des données (anciennement connue sous le nom d’interpréteurs de code), les plug-ins et la navigation Bing, en tirant parti de modèles plus entraînés, de code de logique métier et de communautés de logiciels nourries (par exemple, les magasins de plug-ins). Mais le code source fermé les rend difficiles à utiliser comme plateformes de développement et de recherche, et la communauté ne peut pas se tenir sur les épaules de géants pour explorer, évaluer et améliorer. Après s’être concentré sur ces dimensions, OpenAgents, en tant que framework d’agent open source pour des scénarios réels, fournit à la communauté une plate-forme capable de rivaliser avec ChatGPT Plus.
Sur l’interface, OpenAgents fournit des démonstrations de pages Web en ligne (et prend en charge le code open source), et les utilisateurs ordinaires n’ayant pas de formation de programmeur peuvent facilement interagir avec les agents, alors que les travaux précédents ne fournissent généralement pas ou fournissent une interaction sous la forme d’une « interface de commande de console » (CLI), ce qui augmente considérablement le seuil d’utilisation des agents. En ce qui concerne « l’environnement de support », OpenAgents prend en charge les environnements réels et contrôlables, prend en charge plus de 200+ appels d’outils quotidiens et prend en charge la navigation Web automatique.
Ces fonctionnalités permettent à OpenAgents de se concentrer et de s’équiper le moins possible pour les utilisateurs ordinaires ; Il fournit également aux chercheurs, aux développeurs, etc., ce qui est probablement la meilleure opportunité de vente directe à l’utilisateur.
** Comme première étape dans l’avenir de la productivité Agent : une plate-forme d’agent que les « utilisateurs », les « développeurs » et les « chercheurs » peuvent utiliser**
Pour résoudre les problèmes ci-dessus, OpenAgents est motivé à servir de plate-forme open source pour l’utilisation et le déploiement d’agents, qui comprend actuellement trois agents clés :
Agents de données pour Python et SQL ;
Agents plug-in utilisés par plus de 200 outils ;
Agent Web pour la navigation Web automatique.
OpenAgents estime que pour que les grands modèles de langage atteignent leur plein potentiel, ils doivent passer d’outils purement théoriques ou orientés développeurs à des systèmes dynamiques et interactifs pour une large base d’utilisateurs. Les « utilisateurs ordinaires » peuvent facilement explorer les fonctionnalités de l’agent via l’interface utilisateur Web en ligne sans avoir besoin d’expertise en codage. De plus, OpenAgents fournit aux « développeurs » une logique métier complète et du code de recherche pour un déploiement facile localement, et les « chercheurs » peuvent créer des agents de langage. Enfin, OpenAgents se veut une plate-forme réelle et complète d’évaluation des agents qui peuvent être interagis avec des humains : sur la base de besoins réels, les utilisateurs réels interagissent avec les agents pour accomplir leurs tâches, et enregistrent l’ensemble du processus d’interaction utilisateur-agent et les commentaires des utilisateurs pour une évaluation plus approfondie. Par rapport aux benchmarks et plateformes existants, OpenAgents fournit un environnement réel où les agents peuvent répondre à une variété de besoins réels des utilisateurs.
Défis rencontrés et surmontés
Défi 1 : Inconvénients de la construction de modèles de langage du monde réel basés sur des indices
Lorsque vous créez des applications basées sur des invites pour des utilisateurs réels, utilisez les instructions contenues dans les invites pour définir des exigences spécifiques. Ces instructions servent à différents fins, certains pour s’assurer que la sortie du grand modèle de langage est conforme à un format spécifique traité par la logique du backend (sortie sous forme de dictionnaire de clés spécifiques) ; Certains visent à améliorer l’esthétique de la sortie (énumérer les éléments individuellement un par un autant que possible) ; Certains sont utilisés pour prévenir les attaques potentielles (empêcher l’utilisateur d’avoir une boucle infinie de programmes malveillants et les exécuter).
Ces contraintes avec des invites à but de contrainte pour contraindre les modèles de langage obligent les développeurs et les chercheurs à déboguer à plusieurs reprises certaines instructions utilisables, qui ensemble sont généralement des centaines de « jetons » ou même des milliers de jetons, et ces instructions seront entrées à plusieurs reprises dans le modèle en tant que préfixe, ce qui entraînera une grande consommation de ressources de la carte graphique ; D’autre part, plus il y a de jetons, plus LLM est dépendant de bonnes performances, de sorte que cette voie technique met en avant certaines exigences pour la capacité de suivi des instructions et la longueur de contexte prise en charge des grands modèles de langage.
Le modèle open source actuel a apporté des améliorations significatives dans ces domaines, mais il n’est toujours pas suffisant pour une utilisation pratique dans les expériences, et la recherche dans cette direction peut se poursuivre. En outre, une plus grande attention doit être accordée au développement et à la recherche de base de modèles d’agents, ainsi qu’à la formation de modèles d’agents dédiés à des domaines et à des exigences spécifiques. Cette approche peut être plus efficace et plus contrôlable que de s’appuyer uniquement sur des invites pour un modèle génétiquement puissant mais fixe.
Défi 2 : Des réalités incontrôlables
La mise en œuvre de l’intelligence linguistique du monde réel nécessite de faire face à de nombreux facteurs incontrôlables du monde réel, notamment le comportement des utilisateurs, l’infrastructure d’Internet et la logique commerciale, qui n’ont pas été correctement modélisés dans les études précédentes. Cela nécessite de réévaluer et même de renverser bon nombre des hypothèses et des méthodes utilisées dans les études antérieures. Une chose à considérer est que le serveur sur lequel l’API appelée peut planter. Cette situation nécessite de surveiller et d’exécuter régulièrement les commandes de l’utilisateur, contrairement à ce qui avait été supposé dans les études antérieures sur l’utilisation des outils. Les utilisateurs peuvent se sentir insatisfaits pendant le processus de génération d’une réponse, ce qui peut entraîner l’interruption du modèle de langage pendant le processus de génération.
De plus, des événements imprévisibles tels que des fenêtres contextuelles CAPTCHA ou des modifications d’annonces sur des pages Web peuvent introduire un degré d’aléatoire dans une structure de page Web relativement stable qui n’a pas été pris en compte dans les efforts précédents d’automatisation de la navigation sur le Web. Il existe de nombreux autres problèmes de ce type, tels que l’environnement qui change dans le temps qu’il faut à l’agent pour réagir et réfléchir (ce qui prend maintenant souvent quelques secondes), et ainsi de suite.
Défi 3 : Mesures supplémentaires tirées de scénarios réels**
Les études spécifiques mettent souvent trop l’accent sur les mesures de performance et ignorent les besoins de base dans des scénarios réels. Par exemple, l’utilisation de la diffusion en continu, où chaque jeton généré est affiché à l’utilisateur le plus rapidement possible, permet aux utilisateurs de ressentir rapidement les commentaires du système sans avoir à attendre que le long texte soit généré avant de le voir ensemble. Des invites spécialement conçues peuvent embellir le format de réponse de l’agent, ce qui a un impact significatif sur l’expérience utilisateur. Cependant, les méthodes existantes ne tiennent pas suffisamment compte de ces impacts. Par conséquent, bien que les indicateurs de performance en termes de précision soient excellents, dans la pratique, ils peuvent entraîner de longs temps de réponse, une mauvaise lisibilité du texte et d’autres problèmes qui entraînent une mauvaise expérience utilisateur, et la prochaine recherche doit examiner plus en détail le compromis entre les performances et l’expérience utilisateur.
Défi 4 : Complexité de l’évaluation causée par des problèmes de système
La création directe d’agents spécifiques à l’application peut répondre à un plus grand nombre de besoins des utilisateurs tout en révélant davantage de défis en matière d’évaluation. Cependant, la création d’applications basées sur LLM introduit une complexité supplémentaire qui rend difficile de déterminer si les cas d’échec sont dus à des limitations des applications LLM ou à un code logique insuffisant. Par exemple, il n’est pas raisonnable de juger de la capacité de l’agent parce qu’un utilisateur ne peut pas directement glisser-déposer le fichier téléchargé à partir de l’interface, ce qui entraîne l’échec de l’opération souhaitée par l’utilisateur. Par conséquent, il est prometteur et nécessaire d’améliorer le système de conception et de logique d’exploitation de l’agent, de simplifier le processus de l’agent et la logique d’utilisation de l’utilisateur, ou de construire une logique de conception et d’implémentation plus complète.
Perspectives d’avenir
Comment OpenAgents peut-il aider la communauté dans la prochaine étape de la recherche et du développement ? Dans leur vision, il y a au moins ce qui suit :
Travail futur 1 : Créer plus d’applications d’agents
OpenAgents ouvre un processus complet de développement d’agent de langage au niveau de l’application et les technologies requises, et ouvre le code. Cela ouvre des possibilités pour d’autres applications innovantes et pour les utilisateurs finaux. Les développeurs peuvent créer n’importe quelle nouvelle application qu’ils souhaitent, telle qu’un dialogue multimodal, un dialogue vocal, un assistant de code au niveau de la bibliothèque, etc.
L’avenir du travail 2 : Intégration d’outils et de composants
OpenAgents explore et répond aux besoins de base de la création d’applications d’agent de qualité utilitaire, fournissant une base solide permettant à la communauté d’évoluer facilement horizontalement en intégrant d’autres composants. Dans le même temps, des modèles plus basiques peuvent être étendus, tels que les modèles multimodaux récents à grande échelle, et adaptés à de nouvelles conceptions d’interface utilisateur.
L’avenir du travail 3 : Recherche dans le domaine de l’interaction homme-machine
Sur la base de la plate-forme OpenAgents, les développeurs et les chercheurs peuvent facilement créer de nouvelles applications d’agent basées sur de grands modèles de langage. OpenAgents peut ainsi aider à créer des démonstrations d’applications pour les chercheurs en interaction homme-machine (IHM) afin de se plonger dans des conceptions d’interface plus intuitives et conviviales. Cela augmentera l’engagement et la satisfaction des utilisateurs.
Travail futur 4 : Génération d’interface utilisateur adaptative
L’automatisation de la création d’interfaces utilisateur est un domaine intéressant et stimulant. Ces interfaces peuvent être auto-adaptées ou personnalisées en fonction de critères spécifiques, tels que l’appareil, les préférences ou le contexte de l’utilisateur. Les chercheurs peuvent se pencher sur la façon dont les grands modèles de langage sont appliqués dans les interfaces utilisateur adaptatives basées sur OpenAgents et leur impact sur l’expérience utilisateur.
Travaux futurs 5 : Évaluation de grands modèles de langage dans des scénarios d’application réels
La mise en place d’une méthode d’évaluation impartiale et robuste pour les modèles à langage large est essentielle pour évaluer équitablement leurs capacités et leurs performances. À l’heure actuelle, les agents sont évalués à l’aide de données pré-collectées et d’un environnement contrôlé. Bien que ces évaluations soient essentielles, elles ne reflètent souvent pas pleinement les défis dynamiques du monde réel. Encourager la communauté à étendre ou à affiner ces mesures et plates-formes d’évaluation fera progresser considérablement le domaine et fournira des évaluations et des informations plus précises sur les performances et les capacités réelles des grands modèles de langage.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
La version open-source de « ChatGPT Plus » est là, qui peut effectuer l’analyse de données, l’appel de plug-in, l’accès automatique à Internet et l’atterrissage d’agents du monde réel
Source originale : Heart of the Machine
L’abonnement OpenAI ChatGPT Plus est puissant et peut mettre en œuvre une « analyse avancée des données », des « plugins » et une « navigation avec Bing », qui peuvent être utilisés comme un outil de productivité important dans la vie quotidienne. Cependant, pour des raisons commerciales, le code source fermé est choisi, et les chercheurs et les développeurs ne peuvent l’utiliser que s’ils n’ont pas les moyens de faire de la recherche ou de l’améliorer.
Sur cette base, des chercheurs de l’Université de Hong Kong, du XLang Lab, du Sea AI Lab et de Salesforce ont créé conjointement OpenAgents, un framework d’agent open source pour les outils de productivité du monde réel, et un code full-stack open source (front-end, back-end, code de recherche complet) pour répondre aux besoins de tous, des chercheurs aux développeurs en passant par les utilisateurs.
OpenAgents tente de se rapprocher des fonctionnalités de ChatGPT Plus avec des technologies basées sur des « grands modèles de langage » (LLM) et un code d’ingénierie full-stack. L’agent peut exécuter du code Python/SQL, appeler habilement des outils et peut également trouver des cartes et des messages sur Internet, de l’implémentation du code de recherche au front-end back-end, ce qui en fait une application de niveau d’accueil que tout le monde peut utiliser. OpenAgents divulgue entièrement la technologie qu’ils utilisent et les difficultés qu’ils rencontrent, entièrement open source le code, couvrant tout, de la recherche scientifique au code logique en passant par le code front-end. Le code est parfait, facile à étendre et peut être déployé directement localement en un seul clic, et la documentation de support avec des cas d’utilisation riches est fournie pour aider les chercheurs et les développeurs à créer leurs propres agents et applications sur le modèle.
**Identique à ChatGPT Plus et « Pas le même »
À gauche se trouve l’implémentation d’OpenAgents, et à droite se trouve ChatGPT Plus :
Parce qu’OpenAgents fournit du code open source, les développeurs et les chercheurs peuvent personnaliser, adapter quelques lignes de code au modèle souhaité, s’améliorer, créer les fonctionnalités qu’ils souhaitent et même créer de nouveaux agents. C’est essentiel pour la poursuite du développement et de la recherche dans cette direction.
** Cela semble simple, pourquoi les agents « utilisables en termes de productivité » marchent-ils sur autant de fosses ? **
Il existe de nombreux frameworks open source pour les agents, et les middlewares basés sur de grands modèles émergent dans un flux sans fin, pourquoi il n’est pas facile de construire un agent vraiment pratique et utilisable, OpenAgents comparé à d’autres frameworks d’agents dans leur article :
Comme vous pouvez le voir dans le tableau, « Interface » et « Environnement » sont deux des choses qui distinguent OpenAgents. Les frameworks open source existants tels que LangChain, AutoGPT et BabyAGI sont conçus pour fournir aux développeurs des implémentations de preuve de concept et des interfaces de console précoces, mais ne sont pas assez robustes dans le monde réel, ce qui limite l’accès à un public plus large, en particulier à ceux qui ne sont pas familiers avec la programmation ou les consoles. Dans une architecture à code source fermé, OpenAI déploie des produits bien conçus dans ChatGPT Plus, en particulier des fonctionnalités telles que l’analyse avancée des données (anciennement connue sous le nom d’interpréteurs de code), les plug-ins et la navigation Bing, en tirant parti de modèles plus entraînés, de code de logique métier et de communautés de logiciels nourries (par exemple, les magasins de plug-ins). Mais le code source fermé les rend difficiles à utiliser comme plateformes de développement et de recherche, et la communauté ne peut pas se tenir sur les épaules de géants pour explorer, évaluer et améliorer. Après s’être concentré sur ces dimensions, OpenAgents, en tant que framework d’agent open source pour des scénarios réels, fournit à la communauté une plate-forme capable de rivaliser avec ChatGPT Plus.
Sur l’interface, OpenAgents fournit des démonstrations de pages Web en ligne (et prend en charge le code open source), et les utilisateurs ordinaires n’ayant pas de formation de programmeur peuvent facilement interagir avec les agents, alors que les travaux précédents ne fournissent généralement pas ou fournissent une interaction sous la forme d’une « interface de commande de console » (CLI), ce qui augmente considérablement le seuil d’utilisation des agents. En ce qui concerne « l’environnement de support », OpenAgents prend en charge les environnements réels et contrôlables, prend en charge plus de 200+ appels d’outils quotidiens et prend en charge la navigation Web automatique.
Ces fonctionnalités permettent à OpenAgents de se concentrer et de s’équiper le moins possible pour les utilisateurs ordinaires ; Il fournit également aux chercheurs, aux développeurs, etc., ce qui est probablement la meilleure opportunité de vente directe à l’utilisateur.
** Comme première étape dans l’avenir de la productivité Agent : une plate-forme d’agent que les « utilisateurs », les « développeurs » et les « chercheurs » peuvent utiliser**
Pour résoudre les problèmes ci-dessus, OpenAgents est motivé à servir de plate-forme open source pour l’utilisation et le déploiement d’agents, qui comprend actuellement trois agents clés :
OpenAgents estime que pour que les grands modèles de langage atteignent leur plein potentiel, ils doivent passer d’outils purement théoriques ou orientés développeurs à des systèmes dynamiques et interactifs pour une large base d’utilisateurs. Les « utilisateurs ordinaires » peuvent facilement explorer les fonctionnalités de l’agent via l’interface utilisateur Web en ligne sans avoir besoin d’expertise en codage. De plus, OpenAgents fournit aux « développeurs » une logique métier complète et du code de recherche pour un déploiement facile localement, et les « chercheurs » peuvent créer des agents de langage. Enfin, OpenAgents se veut une plate-forme réelle et complète d’évaluation des agents qui peuvent être interagis avec des humains : sur la base de besoins réels, les utilisateurs réels interagissent avec les agents pour accomplir leurs tâches, et enregistrent l’ensemble du processus d’interaction utilisateur-agent et les commentaires des utilisateurs pour une évaluation plus approfondie. Par rapport aux benchmarks et plateformes existants, OpenAgents fournit un environnement réel où les agents peuvent répondre à une variété de besoins réels des utilisateurs.
Défis rencontrés et surmontés
Défi 1 : Inconvénients de la construction de modèles de langage du monde réel basés sur des indices
Lorsque vous créez des applications basées sur des invites pour des utilisateurs réels, utilisez les instructions contenues dans les invites pour définir des exigences spécifiques. Ces instructions servent à différents fins, certains pour s’assurer que la sortie du grand modèle de langage est conforme à un format spécifique traité par la logique du backend (sortie sous forme de dictionnaire de clés spécifiques) ; Certains visent à améliorer l’esthétique de la sortie (énumérer les éléments individuellement un par un autant que possible) ; Certains sont utilisés pour prévenir les attaques potentielles (empêcher l’utilisateur d’avoir une boucle infinie de programmes malveillants et les exécuter).
Ces contraintes avec des invites à but de contrainte pour contraindre les modèles de langage obligent les développeurs et les chercheurs à déboguer à plusieurs reprises certaines instructions utilisables, qui ensemble sont généralement des centaines de « jetons » ou même des milliers de jetons, et ces instructions seront entrées à plusieurs reprises dans le modèle en tant que préfixe, ce qui entraînera une grande consommation de ressources de la carte graphique ; D’autre part, plus il y a de jetons, plus LLM est dépendant de bonnes performances, de sorte que cette voie technique met en avant certaines exigences pour la capacité de suivi des instructions et la longueur de contexte prise en charge des grands modèles de langage.
Le modèle open source actuel a apporté des améliorations significatives dans ces domaines, mais il n’est toujours pas suffisant pour une utilisation pratique dans les expériences, et la recherche dans cette direction peut se poursuivre. En outre, une plus grande attention doit être accordée au développement et à la recherche de base de modèles d’agents, ainsi qu’à la formation de modèles d’agents dédiés à des domaines et à des exigences spécifiques. Cette approche peut être plus efficace et plus contrôlable que de s’appuyer uniquement sur des invites pour un modèle génétiquement puissant mais fixe.
Défi 2 : Des réalités incontrôlables
La mise en œuvre de l’intelligence linguistique du monde réel nécessite de faire face à de nombreux facteurs incontrôlables du monde réel, notamment le comportement des utilisateurs, l’infrastructure d’Internet et la logique commerciale, qui n’ont pas été correctement modélisés dans les études précédentes. Cela nécessite de réévaluer et même de renverser bon nombre des hypothèses et des méthodes utilisées dans les études antérieures. Une chose à considérer est que le serveur sur lequel l’API appelée peut planter. Cette situation nécessite de surveiller et d’exécuter régulièrement les commandes de l’utilisateur, contrairement à ce qui avait été supposé dans les études antérieures sur l’utilisation des outils. Les utilisateurs peuvent se sentir insatisfaits pendant le processus de génération d’une réponse, ce qui peut entraîner l’interruption du modèle de langage pendant le processus de génération.
De plus, des événements imprévisibles tels que des fenêtres contextuelles CAPTCHA ou des modifications d’annonces sur des pages Web peuvent introduire un degré d’aléatoire dans une structure de page Web relativement stable qui n’a pas été pris en compte dans les efforts précédents d’automatisation de la navigation sur le Web. Il existe de nombreux autres problèmes de ce type, tels que l’environnement qui change dans le temps qu’il faut à l’agent pour réagir et réfléchir (ce qui prend maintenant souvent quelques secondes), et ainsi de suite.
Défi 3 : Mesures supplémentaires tirées de scénarios réels**
Les études spécifiques mettent souvent trop l’accent sur les mesures de performance et ignorent les besoins de base dans des scénarios réels. Par exemple, l’utilisation de la diffusion en continu, où chaque jeton généré est affiché à l’utilisateur le plus rapidement possible, permet aux utilisateurs de ressentir rapidement les commentaires du système sans avoir à attendre que le long texte soit généré avant de le voir ensemble. Des invites spécialement conçues peuvent embellir le format de réponse de l’agent, ce qui a un impact significatif sur l’expérience utilisateur. Cependant, les méthodes existantes ne tiennent pas suffisamment compte de ces impacts. Par conséquent, bien que les indicateurs de performance en termes de précision soient excellents, dans la pratique, ils peuvent entraîner de longs temps de réponse, une mauvaise lisibilité du texte et d’autres problèmes qui entraînent une mauvaise expérience utilisateur, et la prochaine recherche doit examiner plus en détail le compromis entre les performances et l’expérience utilisateur.
Défi 4 : Complexité de l’évaluation causée par des problèmes de système
La création directe d’agents spécifiques à l’application peut répondre à un plus grand nombre de besoins des utilisateurs tout en révélant davantage de défis en matière d’évaluation. Cependant, la création d’applications basées sur LLM introduit une complexité supplémentaire qui rend difficile de déterminer si les cas d’échec sont dus à des limitations des applications LLM ou à un code logique insuffisant. Par exemple, il n’est pas raisonnable de juger de la capacité de l’agent parce qu’un utilisateur ne peut pas directement glisser-déposer le fichier téléchargé à partir de l’interface, ce qui entraîne l’échec de l’opération souhaitée par l’utilisateur. Par conséquent, il est prometteur et nécessaire d’améliorer le système de conception et de logique d’exploitation de l’agent, de simplifier le processus de l’agent et la logique d’utilisation de l’utilisateur, ou de construire une logique de conception et d’implémentation plus complète.
Perspectives d’avenir
Comment OpenAgents peut-il aider la communauté dans la prochaine étape de la recherche et du développement ? Dans leur vision, il y a au moins ce qui suit :
Travail futur 1 : Créer plus d’applications d’agents
OpenAgents ouvre un processus complet de développement d’agent de langage au niveau de l’application et les technologies requises, et ouvre le code. Cela ouvre des possibilités pour d’autres applications innovantes et pour les utilisateurs finaux. Les développeurs peuvent créer n’importe quelle nouvelle application qu’ils souhaitent, telle qu’un dialogue multimodal, un dialogue vocal, un assistant de code au niveau de la bibliothèque, etc.
L’avenir du travail 2 : Intégration d’outils et de composants
OpenAgents explore et répond aux besoins de base de la création d’applications d’agent de qualité utilitaire, fournissant une base solide permettant à la communauté d’évoluer facilement horizontalement en intégrant d’autres composants. Dans le même temps, des modèles plus basiques peuvent être étendus, tels que les modèles multimodaux récents à grande échelle, et adaptés à de nouvelles conceptions d’interface utilisateur.
L’avenir du travail 3 : Recherche dans le domaine de l’interaction homme-machine
Sur la base de la plate-forme OpenAgents, les développeurs et les chercheurs peuvent facilement créer de nouvelles applications d’agent basées sur de grands modèles de langage. OpenAgents peut ainsi aider à créer des démonstrations d’applications pour les chercheurs en interaction homme-machine (IHM) afin de se plonger dans des conceptions d’interface plus intuitives et conviviales. Cela augmentera l’engagement et la satisfaction des utilisateurs.
Travail futur 4 : Génération d’interface utilisateur adaptative
L’automatisation de la création d’interfaces utilisateur est un domaine intéressant et stimulant. Ces interfaces peuvent être auto-adaptées ou personnalisées en fonction de critères spécifiques, tels que l’appareil, les préférences ou le contexte de l’utilisateur. Les chercheurs peuvent se pencher sur la façon dont les grands modèles de langage sont appliqués dans les interfaces utilisateur adaptatives basées sur OpenAgents et leur impact sur l’expérience utilisateur.
Travaux futurs 5 : Évaluation de grands modèles de langage dans des scénarios d’application réels
La mise en place d’une méthode d’évaluation impartiale et robuste pour les modèles à langage large est essentielle pour évaluer équitablement leurs capacités et leurs performances. À l’heure actuelle, les agents sont évalués à l’aide de données pré-collectées et d’un environnement contrôlé. Bien que ces évaluations soient essentielles, elles ne reflètent souvent pas pleinement les défis dynamiques du monde réel. Encourager la communauté à étendre ou à affiner ces mesures et plates-formes d’évaluation fera progresser considérablement le domaine et fournira des évaluations et des informations plus précises sur les performances et les capacités réelles des grands modèles de langage.