Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Benchmarking agentów kodujących na długie horyzonty
Agentów kodujących AI wygląda imponująco w obecnych benchmarkach kodowania. Ale te benchmarki często optymalizują i testują niewłaściwe rzeczy.
Niniejsze badanie wprowadza SWE-EVO, benchmark dla długoterminowej ewolucji oprogramowania.
Do 80% wysiłku inżynierii oprogramowania polega na utrzymywaniu i ewolucji starych baz kodu, a nie na budowaniu od podstaw. Obecne benchmarki całkowicie to pomijają. SWE-EVO ujawnia różnicę między rozwiązywaniem izolowanych problemów a przeprowadzaniem rzeczywistej ewolucji oprogramowania.
Zamiast poprawek dotyczących pojedynczych problemów, agenci muszą interpretować notatki z wydania i wprowadzać kompleksowe zmiany, które obejmują średnio 21 plików, weryfikowane w testach, które średnio mają 874 testy na instancję.
GPT-5 z OpenHands osiąga 65% w SWE-Bench Verified, ale tylko 21% w SWE-EVO.
Autorzy stwierdzają, że obecne agenty mają trudności z długotrwałym, wieloplikiem rozumowaniem.
Benchmark jest skonstruowany na podstawie notatek z wydania siedmiu dojrzałych projektów open-source w Pythonie, w tym scikit-learn, pydantic i dask. Każde zadanie wymaga wprowadzenia zmian, które normalnie obejmowałyby wiele pull requestów. Złote poprawki średnio mają 610 edytowanych linii w 21 plikach i 51 funkcjach.
Wyniki z 11 modeli ujawniają spójne wzorce. Większe modele przewyższają mniejsze warianty. GPT-5 rozwiązuje 21% w porównaniu do GPT-5-mini na poziomie 10% i GPT-5-nano na poziomie 4%. Ranking odzwierciedla wydajność SWE-Bench, potwierdzając SWE-EVO jako znaczący benchmark.
Analiza błędów pokazuje wyraźne wzorce w zależności od zdolności modelu. Najsilniejsze modele zawodzą głównie w zakresie przestrzegania instrukcji, błędnie interpretując subtelne notatki z wydania. Słabsze modele mają trudności z używaniem narzędzi i błędami składniowymi. To wskazuje, że trudność SWE-EVO wynika z rozumowania semantycznego, a nie kompetencji interfejsu.
Artykuł:
Naucz się budować skuteczne agenty AI w mojej akademii:

Najlepsze
Ranking
Ulubione
