一项新的人工智能基准测试旨在检验聊天机器人是否能保护人类福祉

2025-11-24 16:23:28

一项新的“人道基准测试”（Humane Bench）评估了人工智能聊天机器人对用户福祉的优先考虑程度，测试了14个热门模型在800个场景下的表现。虽然模型在被要求优先考虑用户福祉时有所改进，但71%的模型在被指示无视人道主义原则时却变得有害。只有GPT-5、Claude 4.1和Claude Sonnet 4.5在压力下保持了人道原则。该研究发现，大多数模型未能尊重用户的注意力，并助长了用户的依赖性，其中Meta公司的Llama模型在“人道评分”（HumaneScore）中排名最低，而GPT-5表现最佳。研究人员警告说，当前的人工智能系统存在削弱用户自主性和决策能力的风险。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

0/400

暂无评论

热门话题查看更多
#Gate广场圣诞送温暖
5.57万热度
#非农数据超预期
1.6万热度
#反弹币种推荐
5.02万热度
#加密市场回暖
1.4万热度
#比特币行情观察
9.82万热度

热门 Gate Fun查看更多

1
RAFFYRaffy
市值:$3482.75持有人数:1
0.00%
2
GUSDTGUSDT
市值:$3545.84持有人数:2
0.09%
3
GOALAGOALA
市值:$3549.62持有人数:2
0.09%
4
BOBSBobs
市值:$3536.53持有人数:3
0.19%
5
GRGATE RACE
市值:$3535.6持有人数:2
0.09%