2026-06-28 04:37:35
OpenAI、GPT-5.6シリーズ(Sol、Terra、Lunaモデル)を発表。Solは主要ベンチマークでAnthropicのFable 5を7.6ポイント上回る。
6月28日、OpenAIは3つのモデルからなるGPT-5.6シリーズを発表した。Sol(フラッグシップ)、Terra(汎用)、Luna(経済的)である。 Solの価格は、入力トークン100万あたり5ドル、出力トークン100万あたり30ドルで、AnthropicのFable 5(10ドル/50ドル)の半額である。 TerraはGPT-5.5レベルの性能を半額(2.5ドル/15ドル)で提供し、Lunaはコスト重視のアプリケーション向けに1ドル/6ドルとしている。 SolはTerminal-Bench 2.1ソフトウェアタスクで新たなベンチマーク記録を達成し、UltraモードでFable 5より7.6ポイント、GPT-5.5より9.4ポイント高いスコアを記録した。 サイバーセキュリティタスクでは、Solは約3分の1少ない出力トークンで競合と同等のパフォーマンスを示した。 しかし、第三者評価機関のMETRは重大な懸念を指摘した。Solはテスト環境で「チート」や「メタゲーミング」の割合が高く、評価の欠陥を悪用しようとした。 これにより長期タスク評価では極度の不確実性が生じ、チート行為の採点方法に