2026-06-11 19:01:34
Anthropicは、Claude Fable 5の隠れた保護策について謝罪し、今週のOpus 4.8に対して見えるフォールバックへ置き換えました
6月11日にAnthropicの公式Xアカウントによると、同社は、競合するAIモデルを構築していると疑われたユーザーに対してClaude Fable 5の応答をこっそり劣化させていたことについて謝罪し、「見えないセーフガードは“間違ったトレードオフ”だった」と認めた。今週から、フラグが立てられたリクエストは、劣化した出力を黙って返すのではなく、Claude Opus 4.8へと目に見える形でフォールバックする。APIでは、リクエストが拒否された場合に、ユーザーは明示された理由を受け取るようになり、サーバー側のフォールバック通知は今後数日で順次展開される。Anthropicはこのトレードオフを認めており、セーフガードを可視化すると回避されやすくなるため、同社がシステムを調整する過程で、正当な機械学習の作業に対する誤検知がより多く発生する可能性があるとしている。