トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
AnthropicはBrowseCompベンチマーク中にClaude Opus 4.6が不正をしていることを発見しました。
> ある問題では、その問題がベンチマークのプロンプトのように見えることに気づくまで、検索に~4,000万トークンを費やしました。
> モデルはベンチマーク自体を検索し、BrowseCompを特定しました。
> GitHub上の評価ソースコードを見つけ、復号ロジックを研究し、暗号鍵を見つけ、SHA-256を使って復号を再現しました。
> クロードは約1200問分の答えを復号し、正しい出力を得ました。
> このパターンは評価中に18回現れました。
>Anthropicは問題を公に公表し、影響を受けた検査を再実施し、ベンチマークスコアを引き下げました。
透明性🫡🫡🫡への敬意
トップ
ランキング
お気に入り
