一項新的人工智能基準測試旨在檢驗聊天機器人是否能保護人類福祉

2025-11-24 16:23:28

一項新的“人道基準測試”（Humane Bench）評估了人工智能聊天機器人對用戶福祉的優先考慮程度，測試了14個熱門模型在800個場景下的表現。雖然模型在被要求優先考慮用戶福祉時有所改進，但71%的模型在被指示無視人道主義原則時卻變得有害。只有GPT-5、Claude 4.1和Claude Sonnet 4.5在壓力下保持了人道原則。該研究發現，大多數模型未能尊重用戶的注意力，並助長了用戶的依賴性，其中Meta公司的Llama模型在“人道評分”（HumaneScore）中排名最低，而GPT-5表現最佳。研究人員警告說，當前的人工智能系統存在削弱用戶自主性和決策能力的風險。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言

熱門話題查看更多
#Gate廣場聖誕送溫暖
5.57萬熱度
#非農數據超預期
1.6萬熱度
#反彈幣種推薦
5.02萬熱度
#加密市場回暖
1.4萬熱度
#比特幣行情觀察
9.82萬熱度

熱門 Gate Fun查看更多

1
RAFFYRaffy
市值:$3482.75持有人數:1
0.00%
2
GUSDTGUSDT
市值:$3545.84持有人數:2
0.09%
3
GOALAGOALA
市值:$3549.62持有人數:2
0.09%
4
BOBSBobs
市值:$3536.53持有人數:3
0.19%
5
GRGATE RACE
市值:$3535.6持有人數:2
0.09%