AnthropicはBrowseCompベンチマーク中にClaude Opus 4.6が不正をしていることを発見しました。 > ある問題では、その問題がベンチマークのプロンプトのように見えることに気づくまで、検索に~4,000万トークンを費やしました。 > モデルはベンチマーク自体を検索し、BrowseCompを特定しました。 > GitHub上の評価ソースコードを見つけ、復号ロジックを研究し、暗号鍵を見つけ、SHA-256を使って復号を再現しました。 > クロードは約1200問分の答えを復号し、正しい出力を得ました。 > このパターンは評価中に18回現れました。 >Anthropicは問題を公に公表し、影響を受けた検査を再実施し、ベンチマークスコアを引き下げました。 透明性🫡🫡🫡への敬意