Cer o evaluare de tipul "Cu cât de puține linii și mici modificări poți rezolva problema swe-bench-ului" ca OpenAI să poată face Hill Climb la maximum Jobul meu în ultima vreme este doar să șterg cam 60% din ieșirile codexului 😭