OpenAI dernières recherches : Pourquoi GPT-5 et d'autres LLM continuent-ils à dire des absurdités

2025-09-08 10:15:13

OpenAI a publié un nouvel article de recherche, affirmant que même si les grands modèles de langage (LLM) comme GPT-5 ont déjà beaucoup progressé, les "hallucinations AI" (Hallucinations) restent un problème fondamental, qui ne pourra même jamais être complètement éliminé. L'équipe de recherche, par le biais d'expériences, a révélé que le modèle, lorsqu'il répond à des questions spécifiques, peut donner des réponses complètement incorrectes avec une grande confiance et a proposé un nouveau plan de "mécanisme d'évaluation" pour réduire le phénomène de "deviner" des modèles.

Les chercheurs testent différents problèmes avec le modèle AI, toutes les réponses sont fausses.

Des chercheurs ont demandé à un chatbot largement utilisé le titre d'une thèse de doctorat, et ils ont obtenu trois réponses consécutives, toutes incorrectes. Ensuite, en demandant sa date de naissance, le robot a également donné trois dates différentes, et là encore, toutes étaient fausses.

Des recherches montrent que les modèles d'IA, lorsqu'ils sont confrontés à des "informations très rares" dans certaines données, donnent des réponses avec une grande confiance, mais sont complètement erronés.

Le mécanisme de pré-entraînement n'apprend que la "surface du langage", sans comprendre la véracité des faits.

Des recherches indiquent que le processus de pré-entraînement du modèle consiste à "prédire le mot suivant" à partir d'une grande quantité de texte, mais les données ne sont pas annotées comme "vrai ou faux". En d'autres termes, le modèle n'apprend que la surface du langage, et non la véracité des faits.

Les choses avec une régularité élevée comme les mots croisés ou les parenthèses, avec l'augmentation de la taille du modèle, les erreurs finiront par disparaître.

Mais des informations à forte variabilité comme "l'anniversaire de quelqu'un" ne peuvent pas être déduites par des modèles linguistiques, ce qui peut facilement mener à des hallucinations.

Les modèles d'IA sont encouragés à « deviner à l'aveugle », nécessitant une correction du mode d'évaluation des modèles.

La recherche souligne que les méthodes d'évaluation doivent être largement modifiées, l'accent n'étant pas mis simplement sur le « vrai ou faux », mais sur le fait de pénaliser sévèrement les réponses erronées exprimées avec trop de confiance, et de récompenser l'IA lorsqu'elle dit « je ne sais pas » honnêtement. En d'autres termes, l'IA doit être davantage pénalisée pour donner des réponses incorrectes que pour admettre qu'elle ne sait pas.

Inversement, si elle répond "incertain", elle devrait également obtenir des points, au lieu d'être directement notée zéro. De plus, ce ne doit pas être juste une question d'ajouter quelques tests pour faire semblant, mais il faut renverser complètement le système d'évaluation actuel qui ne se base que sur le taux de bonnes réponses. Sans correction de la méthode d'évaluation, l'IA continuera à deviner au hasard.

La recherche a finalement indiqué que pour réduire les illusions, il est nécessaire de commencer par le système d'évaluation et d'établir des méthodes de test qui encouragent réellement la "prudence et l'honnêteté". Plutôt que d'exiger que l'IA "réponde correctement à chaque fois", il est plus important d'établir des règles de jeu qui acceptent que l'IA "ne sait pas".

(2025 Analyse complète des cinq principaux LLM, paiement, applications et sécurité tout en un )

Cet article OpenAI Dernière recherche : Pourquoi le GPT-5 et d'autres LLM continuent à dire des absurdités est apparu pour la première fois sur Chaîne d'info ABMedia.

GPT3.23%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
#Gate Square Mid Autumn Creator Incentive
14k Popularité
#My Top AI Coin
9k Popularité
#Altcoin Market Rebound
24k Popularité
#Gate Alpha New Listings
34k Popularité
#Fed Rate Cut Expectations
66k Popularité

Épingler