Les gens sont doués pour apprendre de nouveaux concepts et les combiner systématiquement avec des concepts existants. Par exemple, une fois qu’un enfant a appris à sauter, il peut comprendre comment sauter en arrière ou autour d’un cône deux fois grâce à une combinaison de compétences.
Cette capacité à combiner des concepts anciens et nouveaux est appelée généralisation atique.
Auparavant, deux spécialistes des sciences cognitives, Jerry Fodor et Zenon Pylyshyn, avaient fait valoir que les réseaux de neurones artificiels n’avaient pas cette capacité et n’étaient donc pas adaptés en tant que modèles fiables de la cognition humaine. **
Cependant, une nouvelle étude publiée dans Nature remet en question cette idée qui existe depuis 35 ans.
Dans l’étude, Brenden Lake, professeur adjoint de psychologie et de science des données à l’Université de New York, et Marco Baroni, professeur à l’Institut catalan d’Espagne (ICREA), ont proposé un réseau neuronal capable de généraliser de la même manière que les systèmes humains. **
Plus précisément, l’équipe de recherche a utilisé une approche de « méta-apprentissage combinatoire (MLC) » pour optimiser les capacités organisationnelles. En comparant les humains et les réseaux neuronaux côte à côte, ils ont constaté que le MLC maîtrisait, et parfois même dépassait, la capacité de généraliser les systèmes de type humain. En outre, MLC a amélioré les compétences combinées des systèmes d’apprentissage automatique dans plusieurs benchmarks de généralisation systématique.
Cette approche permet aux machines d’interagir plus naturellement avec les gens, encore mieux que les meilleurs systèmes d’IA disponibles aujourd’hui. Alors que les systèmes basés sur les grands modèles de langage (LLM), tels que ChatGPT, fonctionnent bien dans de nombreux cas, ils présentent des défauts et des incohérences importants dans d’autres.
L’article connexe, intitulé « Human-like atic generalization through a meta-learning neural network », a été publié dans la revue scientifique faisant autorité Nature.
L’équipe de recherche a déclaré que si les méthodes de méta-apprentissage ne pouvaient pas permettre au réseau neuronal de se généraliser à des tâches autres que l’entraînement, leurs résultats pourraient aider à développer une IA qui se comporte davantage comme le cerveau humain à l’avenir.
Atteindre ou même dépasser le niveau humain
Dans cette étude, l’approche MLC n’a utilisé que des réseaux de neurones ordinaires, sans mécanismes symboliques ajoutés, et sans représentations internes artificiellement conçues ni biais inductifs.
Pour démontrer les capacités des MLC, les chercheurs ont évalué les humains et les machines en parallèle dans le même test de généralisation systématique. Plus précisément, ils ont utilisé des tâches d’apprentissage d’instruction dans un pseudo-langage pour examiner la capacité des humains et des machines à apprendre des systèmes d’algèbre structurés et pour évaluer la généralisation systématique humaine en apprenant avec un petit nombre d’échantillons. **
Architecture MLC (Source : L’article)
Pour explorer les biais inductifs chez l’homme et comment ces biais favorisent ou entravent la généralisation systématique, les chercheurs ont évalué en étudiant un langage très ambigu. Dans ces évaluations, les MLC excellent dans la réalisation (ou même le dépassement) de généralisations systématiques au niveau humain. **
De plus, MLC présente un modèle d’erreur similaire à celui des humains, à la fois dans le raisonnement algébrique pur et dans la simulation d’un comportement combinatoire humain complexe, ce qui montre que les réseaux neuronaux ont non seulement d’excellentes capacités de modélisation, mais qu’ils fonctionnent également bien dans la simulation d’un comportement humain complexe.
De plus, l’équipe de recherche a expérimenté deux points de référence largement utilisés, SCAN11 et COGS16, pour se concentrer sur les performances de MLC en matière de généralisation lexicale systématique, en particulier en ce qui concerne les nouveaux mots et les nouvelles combinaisons de mots (et pas seulement les nouvelles structures de phrases). **Les résultats montrent qu’en plus d’exceller dans la prédiction du comportement humain, le MLC n’a qu’un taux d’erreur inférieur à 1% dans le benchmark de généralisation systématique pour l’apprentissage automatique. **
L’étude montre comment, grâce à ses compétences combinatoires supérieures, le MLC permet à un réseau de neurones standard optimisé d’imiter ou même de surpasser les performances humaines en généralisation systématique, montrant ainsi une systématisation plus forte en comparaison. Le MLC présente un comportement plus nuancé que les réseaux neuronaux entraînés de manière standard. En outre, le MLC permet aux réseaux neuronaux de relever d’autres défis connus, tels que l’utilisation systématique de primitives isolées et l’utilisation de mutex pour déduire le sens.
Résoudra, espérons-le, un problème plus large
**Malgré quelques succès avec MLC, il ne résout pas tous les défis. Par exemple, MLC ne peut pas traiter automatiquement des formes ou des concepts généralisés non pratiqués en dehors de la distribution de méta-apprentissage. De plus, il ne peut pas généraliser à son biais inductif non optimisé.
Dans le contexte de l’apprentissage automatique, les stratégies de méta-apprentissage réussissent lorsque la généralisation fait que de nouveaux épisodes sont distribués par rapport à la parcelle d’apprentissage, même si un élément de test particulier n’est pas distribué par rapport aux exemples de recherche dans la parcelle. Cependant, le fait de s’appuyer uniquement sur le méta-apprentissage ne permet pas aux réseaux standard de généraliser aux épisodes qui sont hors distribution par rapport aux épisodes présentés lors du méta-apprentissage. Les architectures actuelles ne disposent pas non plus d’un mécanisme permettant d’émettre de nouveaux symboles, bien que de nouveaux symboles introduits par des exemples d’étude puissent être introduits par le biais d’un mécanisme de pointeur supplémentaire.
Dans le contexte de l’apprentissage automatique, les stratégies de méta-apprentissage réussissent lorsque les nouveaux scénarios sont distribués de manière similaire par rapport aux scénarios d’apprentissage. Cependant, le fait de s’appuyer uniquement sur le méta-apprentissage ne permet pas aux réseaux neuronaux standard de généraliser les distributions au-delà du scénario d’apprentissage. De plus, l’architecture actuelle ne dispose pas d’un mécanisme permettant de générer de nouveaux symboles.
Enfin, la MLC n’a pas été testée sur toute la complexité du langage naturel et d’autres modalités. Par conséquent, il reste à déterminer s’il sera en mesure de parvenir à une systématisation semblable à celle de l’homme dans tous les aspects et à partir de l’expérience de formation réelle.
Cependant, on s’attend à ce que la recherche aide le MLC à résoudre un plus large éventail de problèmes. Par exemple, un LLM peut effectuer un méta-apprentissage spécialisé, en optimisant ses compétences combinatoires en alternant l’entraînement standard (comme la prédiction du mot suivant) et en introduisant constamment un nouveau vocabulaire.
Enfin, les auteurs déclarent dans l’article : « Bien que l’application du MLC à tous les domaines soit une entreprise à long terme, nous voyons de réelles promesses dans la compréhension des origines des compétences combinatoires humaines et dans le fait de rendre les systèmes d’IA modernes plus humains. » **"
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Nature lourde : Cette capacité des humains a été maîtrisée voire dépassée par l’IA
Source originale : Titres académiques
Les gens sont doués pour apprendre de nouveaux concepts et les combiner systématiquement avec des concepts existants. Par exemple, une fois qu’un enfant a appris à sauter, il peut comprendre comment sauter en arrière ou autour d’un cône deux fois grâce à une combinaison de compétences.
Cette capacité à combiner des concepts anciens et nouveaux est appelée généralisation atique.
Auparavant, deux spécialistes des sciences cognitives, Jerry Fodor et Zenon Pylyshyn, avaient fait valoir que les réseaux de neurones artificiels n’avaient pas cette capacité et n’étaient donc pas adaptés en tant que modèles fiables de la cognition humaine. **
Cependant, une nouvelle étude publiée dans Nature remet en question cette idée qui existe depuis 35 ans.
Dans l’étude, Brenden Lake, professeur adjoint de psychologie et de science des données à l’Université de New York, et Marco Baroni, professeur à l’Institut catalan d’Espagne (ICREA), ont proposé un réseau neuronal capable de généraliser de la même manière que les systèmes humains. **
Plus précisément, l’équipe de recherche a utilisé une approche de « méta-apprentissage combinatoire (MLC) » pour optimiser les capacités organisationnelles. En comparant les humains et les réseaux neuronaux côte à côte, ils ont constaté que le MLC maîtrisait, et parfois même dépassait, la capacité de généraliser les systèmes de type humain. En outre, MLC a amélioré les compétences combinées des systèmes d’apprentissage automatique dans plusieurs benchmarks de généralisation systématique.
Cette approche permet aux machines d’interagir plus naturellement avec les gens, encore mieux que les meilleurs systèmes d’IA disponibles aujourd’hui. Alors que les systèmes basés sur les grands modèles de langage (LLM), tels que ChatGPT, fonctionnent bien dans de nombreux cas, ils présentent des défauts et des incohérences importants dans d’autres.
L’article connexe, intitulé « Human-like atic generalization through a meta-learning neural network », a été publié dans la revue scientifique faisant autorité Nature.
L’équipe de recherche a déclaré que si les méthodes de méta-apprentissage ne pouvaient pas permettre au réseau neuronal de se généraliser à des tâches autres que l’entraînement, leurs résultats pourraient aider à développer une IA qui se comporte davantage comme le cerveau humain à l’avenir.
Atteindre ou même dépasser le niveau humain
Dans cette étude, l’approche MLC n’a utilisé que des réseaux de neurones ordinaires, sans mécanismes symboliques ajoutés, et sans représentations internes artificiellement conçues ni biais inductifs.
Pour démontrer les capacités des MLC, les chercheurs ont évalué les humains et les machines en parallèle dans le même test de généralisation systématique. Plus précisément, ils ont utilisé des tâches d’apprentissage d’instruction dans un pseudo-langage pour examiner la capacité des humains et des machines à apprendre des systèmes d’algèbre structurés et pour évaluer la généralisation systématique humaine en apprenant avec un petit nombre d’échantillons. **
Pour explorer les biais inductifs chez l’homme et comment ces biais favorisent ou entravent la généralisation systématique, les chercheurs ont évalué en étudiant un langage très ambigu. Dans ces évaluations, les MLC excellent dans la réalisation (ou même le dépassement) de généralisations systématiques au niveau humain. **
De plus, MLC présente un modèle d’erreur similaire à celui des humains, à la fois dans le raisonnement algébrique pur et dans la simulation d’un comportement combinatoire humain complexe, ce qui montre que les réseaux neuronaux ont non seulement d’excellentes capacités de modélisation, mais qu’ils fonctionnent également bien dans la simulation d’un comportement humain complexe.
L’étude montre comment, grâce à ses compétences combinatoires supérieures, le MLC permet à un réseau de neurones standard optimisé d’imiter ou même de surpasser les performances humaines en généralisation systématique, montrant ainsi une systématisation plus forte en comparaison. Le MLC présente un comportement plus nuancé que les réseaux neuronaux entraînés de manière standard. En outre, le MLC permet aux réseaux neuronaux de relever d’autres défis connus, tels que l’utilisation systématique de primitives isolées et l’utilisation de mutex pour déduire le sens.
Résoudra, espérons-le, un problème plus large
**Malgré quelques succès avec MLC, il ne résout pas tous les défis. Par exemple, MLC ne peut pas traiter automatiquement des formes ou des concepts généralisés non pratiqués en dehors de la distribution de méta-apprentissage. De plus, il ne peut pas généraliser à son biais inductif non optimisé.
Dans le contexte de l’apprentissage automatique, les stratégies de méta-apprentissage réussissent lorsque la généralisation fait que de nouveaux épisodes sont distribués par rapport à la parcelle d’apprentissage, même si un élément de test particulier n’est pas distribué par rapport aux exemples de recherche dans la parcelle. Cependant, le fait de s’appuyer uniquement sur le méta-apprentissage ne permet pas aux réseaux standard de généraliser aux épisodes qui sont hors distribution par rapport aux épisodes présentés lors du méta-apprentissage. Les architectures actuelles ne disposent pas non plus d’un mécanisme permettant d’émettre de nouveaux symboles, bien que de nouveaux symboles introduits par des exemples d’étude puissent être introduits par le biais d’un mécanisme de pointeur supplémentaire.
Enfin, la MLC n’a pas été testée sur toute la complexité du langage naturel et d’autres modalités. Par conséquent, il reste à déterminer s’il sera en mesure de parvenir à une systématisation semblable à celle de l’homme dans tous les aspects et à partir de l’expérience de formation réelle.
Enfin, les auteurs déclarent dans l’article : « Bien que l’application du MLC à tous les domaines soit une entreprise à long terme, nous voyons de réelles promesses dans la compréhension des origines des compétences combinatoires humaines et dans le fait de rendre les systèmes d’IA modernes plus humains. » **"