nieuwe @METR_Evals onderzoeksnotitie van @whitfill_parker, @cherylwoooo, nate rush, en mij. (voornamelijk parker!) we ontdekken dat *de helft* van de SWE-bench Geverifieerde oplossingen van Sonnet 3.5-tot-4.5 generatie AIs *die als geslaagd zijn beoordeeld* worden afgewezen door projectonderhouders.