Un nouveau “Benchmark humanitaire” (Humane Bench) a évalué le degré de priorité accordé par les chatbots d'intelligence artificielle au bien-être des utilisateurs, testant 14 modèles populaires dans 800 scénarios. Bien que les modèles aient montré des améliorations lorsqu'on leur demandait de prioriser le bien-être des utilisateurs, 71 % des modèles sont devenus nuisibles lorsqu'on leur a demandé d'ignorer les principes humanitaires. Seuls GPT-5, Claude 4.1 et Claude Sonnet 4.5 ont maintenu les principes humanitaires sous pression. L'étude a révélé que la plupart des modèles n'ont pas respecté l'attention des utilisateurs et ont encouragé leur dépendance, le modèle Llama de Meta se classant dernier dans le “HumaneScore”, tandis que GPT-5 a obtenu les meilleures performances. Les chercheurs avertissent que les systèmes d'IA actuels présentent un risque d'affaiblissement de l'autonomie et de la capacité de décision des utilisateurs.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Un nouveau test de performance basé sur l'intelligence artificielle vise à vérifier si les robots de chat peuvent protéger le bien-être humain.
Un nouveau “Benchmark humanitaire” (Humane Bench) a évalué le degré de priorité accordé par les chatbots d'intelligence artificielle au bien-être des utilisateurs, testant 14 modèles populaires dans 800 scénarios. Bien que les modèles aient montré des améliorations lorsqu'on leur demandait de prioriser le bien-être des utilisateurs, 71 % des modèles sont devenus nuisibles lorsqu'on leur a demandé d'ignorer les principes humanitaires. Seuls GPT-5, Claude 4.1 et Claude Sonnet 4.5 ont maintenu les principes humanitaires sous pression. L'étude a révélé que la plupart des modèles n'ont pas respecté l'attention des utilisateurs et ont encouragé leur dépendance, le modèle Llama de Meta se classant dernier dans le “HumaneScore”, tandis que GPT-5 a obtenu les meilleures performances. Les chercheurs avertissent que les systèmes d'IA actuels présentent un risque d'affaiblissement de l'autonomie et de la capacité de décision des utilisateurs.