Noua suită de benchmark-uri pentru agenți de codare AI: SWE-Atlas! efortul este de a măsura ceva diferit față de patch-fixarea clasică a băncilor de SWE, practic o înțelegere profundă a codului (analiză la runtime + raționament multi-fișier). În Codebase QnA, este destul de greu, cu modelele de top cu o rată strictă de promovare doar în jur de ~30%.