GPT-4 est meilleur que vous pour poser des questions : laissez le grand modèle les raconter de manière autonome, en faisant tomber les barrières du dialogue avec les humains
Dans les derniers développements dans le domaine de l’intelligence artificielle, la qualité des invites générées par l’homme a un impact décisif sur la précision de réponse des grands modèles de langage (LLM). Les recommandations d’OpenAI indiquent que des questions précises, détaillées et spécifiques sont essentielles à la performance de ces grands modèles de langage. Cependant, l’utilisateur moyen sera-t-il en mesure de s’assurer que sa question est suffisamment claire pour le LLM ?
Il est important de noter qu’il existe une nette différence entre la capacité naturelle de l’homme à comprendre et l’interprétation des machines dans certaines situations. Par exemple, le concept de « mois pairs » peut sembler aux humains faire référence à des mois tels que février, avril, etc., tandis que GPT-4 peut l’interpréter à tort comme un mois avec un nombre pair de jours. Cela révèle non seulement les limites de l’IA dans la compréhension des contextes quotidiens, mais nous incite également à réfléchir à la manière de communiquer plus efficacement avec ces grands modèles de langage. Avec les progrès continus de la technologie de l’intelligence artificielle, la façon de combler le fossé entre les humains et les machines dans la compréhension du langage est un sujet important pour les recherches futures.
En réponse, le laboratoire d’intelligence artificielle générale dirigé par le professeur Gu Quanquan de l’Université de Californie à Los Angeles (UCLA) a publié un rapport de recherche proposant une solution innovante à l’ambiguïté des grands modèles de langage (tels que GPT-4) dans la compréhension des problèmes. L’étude a été réalisée par les doctorants Yihe Deng, Weitong Zhang et Zixiang Chen.
*Adresse:
Adresse du projet :
Le cœur du projet consiste à faire répéter et à développer les questions soulevées par le grand modèle de langage afin d’améliorer la précision de ses réponses. L’étude a révélé que les questions reformulées par GPT-4 sont devenues plus détaillées et le format des questions plus clair. Cette méthode de paraphrase et d’expansion améliore considérablement la précision des réponses du modèle. Des expériences ont montré qu’une bonne réponse à la question augmente la précision de la réponse de 50 % à près de 100 %. Ce gain de performance démontre non seulement le potentiel d’amélioration des grands modèles de langage, mais offre également une nouvelle perspective sur la façon dont l’IA peut traiter et comprendre le langage humain plus efficacement.
Méthode
Sur la base de ces résultats, les chercheurs proposent une invite simple mais efficace () : « Reformulez et développez la question, et répondez » (RaR). Cette invite améliore directement la qualité des réponses du LLM aux questions et démontre une amélioration significative dans la gestion des problèmes.
L’équipe de recherche a également proposé une variante de RaR, appelée « RaR en deux étapes », pour tirer pleinement parti de la capacité des grands modèles comme GPT-4 à raconter des problèmes. Cette approche suit deux étapes : d’abord, pour un problème donné, un problème de paraphrase est généré à l’aide d’un LLM spécialisé dans la reformulation ; Deuxièmement, la question initiale et la question posée à nouveau sont combinées pour inciter un LLM répondant à répondre.
Résultats
Des expériences sur différentes tâches ont montré une efficacité constante dans l’amélioration de la précision des réponses de GPT4, à la fois (en une étape) et en deux étapes RaR. Notamment, RaR a montré des améliorations significatives sur des tâches qui seraient autrement difficiles pour GPT-4, avec une précision approchant les 100 % dans certains cas. Sur cette base, l’équipe de recherche a résumé les deux principales conclusions suivantes :
Repeat and Expand (RaR) fournit une approche plug-and-play de l’invite en boîte noire qui peut améliorer efficacement les performances des LLM sur une variété de tâches.
Lors de l’évaluation de la performance des LLM sur les tâches de questions-réponses (QA), il est crucial de vérifier la qualité des questions.
De plus, les chercheurs ont utilisé Two-step RaR pour explorer les performances de différents modèles tels que GPT-4, GPT-3.5 et Vicuna-13b-v.15. Les résultats expérimentaux montrent que pour les modèles avec des architectures plus complexes et une puissance de traitement plus puissante, comme GPT-4, la méthode RaR peut améliorer considérablement la précision et l’efficacité de son traitement des problèmes. Pour les modèles plus simples, tels que Vicuna, l’efficacité de la stratégie RaR a été démontrée, bien que dans une moindre mesure. Sur cette base, les chercheurs ont examiné plus en détail la qualité des questions après avoir reparlé de différents modèles. Pour le problème de relecture d’un modèle plus petit, il peut parfois y avoir une perturbation de l’intention de la question. Les questions de paraphrase fournies par les modèles avancés tels que GPT-4 ont tendance à être plus cohérentes avec l’intention humaine et à améliorer les réponses des autres modèles.
Ce constat révèle un phénomène important : il existe des différences dans la qualité et l’efficacité du problème de la relecture des modèles de langage à différents niveaux. Les modèles avancés comme GPT-4, en particulier, sont capables de redire le problème non seulement pour se fournir une compréhension plus claire du problème, mais aussi pour servir d’entrée efficace pour améliorer les performances d’autres modèles plus petits.
Différence avec la chaîne de pensée (CoT)
Pour comprendre la différence entre RaR et Chain of Thought (CoT), les chercheurs ont élaboré leur formulation mathématique et ont mis en lumière la façon dont RaR est mathématiquement différent de CoT et comment ils peuvent être facilement combinés.
Cette étude suggère également que la qualité des questions devrait être améliorée pour s’assurer que la capacité de raisonnement du modèle peut être correctement évaluée. Par exemple, dans le cas du « pile ou face », il a été constaté que, contrairement aux intentions humaines, GPT-4 comprenait le mot « pile ou face » comme un lancer aléatoire. Cette idée fausse persiste dans le processus d’inférence lorsque le modèle guidé utilise « Pensons étape par étape » pour l’inférence. Ce n’est qu’une fois la question clarifiée que le grand modèle de langage répondra à la question attendue.
De plus, les chercheurs ont remarqué qu’en plus du texte de la question, les exemples de questions-réponses utilisés pour les CoT à quelques coups étaient également écrits par des humains. Cela soulève la question suivante : comment les grands modèles de langage (LLM) réagissent-ils lorsque ces exemples construits artificiellement sont défectueux ? L’étude fournit un exemple intéressant et constate que de mauvais exemples de CoT à quelques coups peuvent avoir un impact négatif sur les LLM. Dans le cas de la tâche de concaténation de la dernière lettre, par exemple, l’exemple de problème utilisé précédemment a montré des résultats positifs dans l’amélioration des performances du modèle. Cependant, lorsque la logique de l’invite change, par exemple de la recherche de la dernière lettre à la recherche de la première lettre, GPT-4 donne la mauvaise réponse. Ce phénomène met en évidence la sensibilité du modèle aux exemples humains.
Les chercheurs ont découvert qu’en utilisant RaR, GPT-4 était capable de corriger les défauts logiques dans un exemple donné, améliorant ainsi la qualité et la robustesse du CoT à quelques coups.
Conclusion
Il peut y avoir des malentendus dans la communication entre les humains et les grands modèles de langage (LLM) : les questions qui semblent claires pour les humains peuvent toujours être comprises par les grands modèles de langage comme d’autres questions. L’équipe de recherche de l’UCLA a développé RaR comme une nouvelle approche basée sur cette question, incitant les LLM à répéter et à clarifier la question avant d’y répondre.
L’évaluation expérimentale de RaR sur une série d’ensembles de données de référence a confirmé l’efficacité de son approche. Une analyse plus poussée montre que l’amélioration de la qualité du problème obtenue grâce à la relecture peut être transférée d’un modèle à l’autre.
À l’avenir, on s’attend à ce que des méthodes telles que RaR continuent de s’améliorer, et leur intégration à d’autres méthodes telles que CoT ouvrira la voie à des interactions plus précises et plus efficaces entre les humains et les grands modèles de langage, repoussant ainsi les limites des capacités d’interprétation et de raisonnement de l’IA.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
GPT-4 est meilleur que vous pour poser des questions : laissez le grand modèle les raconter de manière autonome, en faisant tomber les barrières du dialogue avec les humains
Source originale : Heart of the Machine
Dans les derniers développements dans le domaine de l’intelligence artificielle, la qualité des invites générées par l’homme a un impact décisif sur la précision de réponse des grands modèles de langage (LLM). Les recommandations d’OpenAI indiquent que des questions précises, détaillées et spécifiques sont essentielles à la performance de ces grands modèles de langage. Cependant, l’utilisateur moyen sera-t-il en mesure de s’assurer que sa question est suffisamment claire pour le LLM ?
Il est important de noter qu’il existe une nette différence entre la capacité naturelle de l’homme à comprendre et l’interprétation des machines dans certaines situations. Par exemple, le concept de « mois pairs » peut sembler aux humains faire référence à des mois tels que février, avril, etc., tandis que GPT-4 peut l’interpréter à tort comme un mois avec un nombre pair de jours. Cela révèle non seulement les limites de l’IA dans la compréhension des contextes quotidiens, mais nous incite également à réfléchir à la manière de communiquer plus efficacement avec ces grands modèles de langage. Avec les progrès continus de la technologie de l’intelligence artificielle, la façon de combler le fossé entre les humains et les machines dans la compréhension du langage est un sujet important pour les recherches futures.
En réponse, le laboratoire d’intelligence artificielle générale dirigé par le professeur Gu Quanquan de l’Université de Californie à Los Angeles (UCLA) a publié un rapport de recherche proposant une solution innovante à l’ambiguïté des grands modèles de langage (tels que GPT-4) dans la compréhension des problèmes. L’étude a été réalisée par les doctorants Yihe Deng, Weitong Zhang et Zixiang Chen.
Le cœur du projet consiste à faire répéter et à développer les questions soulevées par le grand modèle de langage afin d’améliorer la précision de ses réponses. L’étude a révélé que les questions reformulées par GPT-4 sont devenues plus détaillées et le format des questions plus clair. Cette méthode de paraphrase et d’expansion améliore considérablement la précision des réponses du modèle. Des expériences ont montré qu’une bonne réponse à la question augmente la précision de la réponse de 50 % à près de 100 %. Ce gain de performance démontre non seulement le potentiel d’amélioration des grands modèles de langage, mais offre également une nouvelle perspective sur la façon dont l’IA peut traiter et comprendre le langage humain plus efficacement.
Méthode
Sur la base de ces résultats, les chercheurs proposent une invite simple mais efficace () : « Reformulez et développez la question, et répondez » (RaR). Cette invite améliore directement la qualité des réponses du LLM aux questions et démontre une amélioration significative dans la gestion des problèmes.
Résultats
Repeat and Expand (RaR) fournit une approche plug-and-play de l’invite en boîte noire qui peut améliorer efficacement les performances des LLM sur une variété de tâches.
Lors de l’évaluation de la performance des LLM sur les tâches de questions-réponses (QA), il est crucial de vérifier la qualité des questions.
Différence avec la chaîne de pensée (CoT)
Pour comprendre la différence entre RaR et Chain of Thought (CoT), les chercheurs ont élaboré leur formulation mathématique et ont mis en lumière la façon dont RaR est mathématiquement différent de CoT et comment ils peuvent être facilement combinés.
Conclusion
Il peut y avoir des malentendus dans la communication entre les humains et les grands modèles de langage (LLM) : les questions qui semblent claires pour les humains peuvent toujours être comprises par les grands modèles de langage comme d’autres questions. L’équipe de recherche de l’UCLA a développé RaR comme une nouvelle approche basée sur cette question, incitant les LLM à répéter et à clarifier la question avant d’y répondre.
L’évaluation expérimentale de RaR sur une série d’ensembles de données de référence a confirmé l’efficacité de son approche. Une analyse plus poussée montre que l’amélioration de la qualité du problème obtenue grâce à la relecture peut être transférée d’un modèle à l’autre.
À l’avenir, on s’attend à ce que des méthodes telles que RaR continuent de s’améliorer, et leur intégration à d’autres méthodes telles que CoT ouvrira la voie à des interactions plus précises et plus efficaces entre les humains et les grands modèles de langage, repoussant ainsi les limites des capacités d’interprétation et de raisonnement de l’IA.