Notă de cercetare pe @METR_Evals de la @whitfill_parker, @cherylwoooo, Nate Rush și mine. (în principal Parker!) am constatat că *jumătate* din soluțiile verificate SWE-bench de la AI-uri de generație Sonnet 3.5 până la 4.5 *care sunt evaluate ca trece* sunt respinse de către mentenanții proiectului.