扫码下载 APP
qrCode
更多下载方式
今天不再提醒

一项新的人工智能基准测试旨在检验聊天机器人是否能保护人类福祉

一项新的“人道基准测试”(Humane Bench)评估了人工智能聊天机器人对用户福祉的优先考虑程度,测试了14个热门模型在800个场景下的表现。虽然模型在被要求优先考虑用户福祉时有所改进,但71%的模型在被指示无视人道主义原则时却变得有害。只有GPT-5、Claude 4.1和Claude Sonnet 4.5在压力下保持了人道原则。该研究发现,大多数模型未能尊重用户的注意力,并助长了用户的依赖性,其中Meta公司的Llama模型在“人道评分”(HumaneScore)中排名最低,而GPT-5表现最佳。研究人员警告说,当前的人工智能系统存在削弱用户自主性和决策能力的风险。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)