Benchmarking agentów kodujących na długie horyzonty Agentów kodujących AI wygląda imponująco w obecnych benchmarkach kodowania. Ale te benchmarki często optymalizują i testują niewłaściwe rzeczy. Niniejsze badanie wprowadza SWE-EVO, benchmark dla długoterminowej ewolucji oprogramowania. Do 80% wysiłku inżynierii oprogramowania polega na utrzymywaniu i ewolucji starych baz kodu, a nie na budowaniu od podstaw. Obecne benchmarki całkowicie to pomijają. SWE-EVO ujawnia różnicę między rozwiązywaniem izolowanych problemów a przeprowadzaniem rzeczywistej ewolucji oprogramowania. Zamiast poprawek dotyczących pojedynczych problemów, agenci muszą interpretować notatki z wydania i wprowadzać kompleksowe zmiany, które obejmują średnio 21 plików, weryfikowane w testach, które średnio mają 874 testy na instancję. GPT-5 z OpenHands osiąga 65% w SWE-Bench Verified, ale tylko 21% w SWE-EVO. Autorzy stwierdzają, że obecne agenty mają trudności z długotrwałym, wieloplikiem rozumowaniem. Benchmark jest skonstruowany na podstawie notatek z wydania siedmiu dojrzałych projektów open-source w Pythonie, w tym scikit-learn, pydantic i dask. Każde zadanie wymaga wprowadzenia zmian, które normalnie obejmowałyby wiele pull requestów. Złote poprawki średnio mają 610 edytowanych linii w 21 plikach i 51 funkcjach. Wyniki z 11 modeli ujawniają spójne wzorce. Większe modele przewyższają mniejsze warianty. GPT-5 rozwiązuje 21% w porównaniu do GPT-5-mini na poziomie 10% i GPT-5-nano na poziomie 4%. Ranking odzwierciedla wydajność SWE-Bench, potwierdzając SWE-EVO jako znaczący benchmark. Analiza błędów pokazuje wyraźne wzorce w zależności od zdolności modelu. Najsilniejsze modele zawodzą głównie w zakresie przestrzegania instrukcji, błędnie interpretując subtelne notatki z wydania. Słabsze modele mają trudności z używaniem narzędzi i błędami składniowymi. To wskazuje, że trudność SWE-EVO wynika z rozumowania semantycznego, a nie kompetencji interfejsu. Artykuł: Naucz się budować skuteczne agenty AI w mojej akademii: