@whitfill_parker、@cherylwoooo、ネイト・ラッシュ、そして私からの新しい@METR_Evals調査ノートです。(主にパーカー!) Sonnet 3.5から4.5世代のAIのSWE-bench検証済みソリューションの*半数*が合格と評価されている*がプロジェクト保守者に却下されていることがわかりました。