bản nghiên cứu mới từ @METR_Evals của @whitfill_parker, @cherylwoooo, nate rush, và tôi. (chủ yếu là parker!) chúng tôi phát hiện rằng *một nửa* các giải pháp được xác minh SWE-bench từ các AI thế hệ Sonnet 3.5 đến 4.5 *được đánh giá là đạt yêu cầu* thì bị từ chối bởi các người duy trì dự án.