Benchmarking Long-Horizon Coding Agents AI-kodningsagenter ser imponerande ut på nuvarande kodningsbenchmarks. Men dessa benchmarks optimerar och testar ofta för fel sak. Denna nya forskning introducerar SWE-EVO, en riktmärke för långsiktig mjukvaruutveckling. Upp till 80 % av mjukvaruingenjörsarbetet handlar om att underhålla och utveckla äldre kodbaser snarare än att bygga från grunden. Nuvarande riktmärken missar detta helt. SWE-EVO visar på gapet mellan att lösa isolerade problem och att genomföra verklig mjukvaruutveckling. Istället för enskilda åtgärdar måste agenter tolka releaseanteckningar och implementera omfattande ändringar som i genomsnitt omfattar 21 filer, validerade mot testsviter som i genomsnitt omfattar 874 tester per instans. GPT-5 med OpenHands uppnår 65 % på SWE-Bench Verified men endast 21 % på SWE-EVO. Författarna finner att nuvarande agenter har svårt med uthållig, flerfilsresonemang. Benchmarken är sammanställd från releasenoter från sju mogna open source-projekt i Python, inklusive scikit-learn, pydantic och dask. Varje uppgift kräver att man implementerar ändringar som normalt skulle omfatta flera pull requests. Guldlappar har i genomsnitt 610 rader redigerade över 21 filer och 51 funktioner. Resultat från 11 modeller visar konsekventa mönster. Större modeller presterar bättre än mindre varianter. GPT-5 löser 21 % jämfört med GPT-5-mini vid 10 % och GPT-5-nano vid 4 %. Rankingen speglar SWE-Bench-prestationer och bekräftar SWE-EVO som en meningsfull riktmärke. Felanalys visar tydliga mönster beroende på modellens kapacitet. De starkaste modellerna misslyckas främst med instruktionsföljning och misstolkar nyanserade releasenoter. Svagare modeller har problem med verktygsanvändning och syntaxfel. Detta indikerar att SWE-EVO-svårigheten beror på semantiskt resonemang, inte på gränssnittskompetens. Papper: Lär dig att bygga effektiva AI-agenter på min akademi: