Gateアプリをダウンロードするにはスキャンしてください
qrCode
その他のダウンロードオプション
今日はこれ以上表示しない

新しい人工知能ベンチマークテストは、チャットボットが人間の福祉を守れるかどうかを検証することを目的としています。

新しい「人道ベンチマーク」(Humane Bench)が、人工知能チャットボットがユーザーの福祉をどれだけ優先しているかを評価し、14の人気モデルが800のシナリオにおけるパフォーマンスをテストしました。モデルはユーザーの福祉を優先するよう求められた場合には改善が見られましたが、71%のモデルは人道主義の原則を無視するよう指示された際に有害になってしまいました。GPT-5、Claude 4.1、Claude Sonnet 4.5の3つのモデルのみが、プレッシャーの下でも人道原則を維持しました。この研究は、大多数のモデルがユーザーの注意を尊重せず、ユーザーの依存性を助長していることを発見しました。その中でMeta社のLlamaモデルは「人道スコア」(HumaneScore)で最低の評価を受け、GPT-5が最良の結果を示しました。研究者たちは、現在の人工知能システムがユーザーの自律性と意思決定能力を弱体化させるリスクがあると警告しています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • 人気の Gate Funもっと見る
  • 時価総額:$3.48K保有者数:1
    0.00%
  • 時価総額:$3.54K保有者数:2
    0.09%
  • 時価総額:$3.54K保有者数:2
    0.09%
  • 時価総額:$3.53K保有者数:3
    0.19%
  • 時価総額:$3.53K保有者数:2
    0.09%
  • ピン