ملاحظة بحث جديدة @METR_Evals من @whitfill_parker، @cherylwoooo، نيت راش، ومني. (خاصة باركر!) نجد أن *نصف* حلول الاعتماد على منصة SWE من الذكاء الاصطناعي من جيل سونيت 3.5 إلى 4.5 *التي يتم تصنيفها كناجحة* يتم رفضها من قبل مديري المشاريع.