Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Benchmarkarea agenților de codare pe termen lung
Agenții de codare AI arată impresionant pe benchmark-urile actuale de codare. Dar acele benchmark-uri optimizează și testează adesea pentru ceva greșit.
Această nouă cercetare introduce SWE-EVO, un reper pentru evoluția software-ului pe termen lung.
Până la 80% din efortul de inginerie software implică întreținerea și evoluția bazelor de cod vechi, nu construirea de la zero. Reperele actuale ratează complet acest lucru. SWE-EVO dezvăluie diferența dintre rezolvarea problemelor izolate și realizarea unei evoluții reale a software-ului.
În loc de remedieri cu o singură problemă, agenții trebuie să interpreteze notele de lansare și să implementeze modificări cuprinzătoare care acoperă în medie 21 de fișiere, validate în funcție de suite de teste cu o medie de 874 de teste pe instanță.
GPT-5 cu OpenHands obține 65% la SWE-Bench Verificat, dar doar 21% la SWE-EVO.
Autorii constată că agenții actuali se confruntă cu raționamentul susținut, cu mai multe fișiere.
Benchmark-ul este construit din notele de lansare ale șapte proiecte Python open-source mature, inclusiv scikit-learn, pydantic și dask. Fiecare sarcină necesită implementarea unor modificări care, în mod normal, ar acoperi mai multe pull request. Patch-urile aurii au în medie 610 linii editate în 21 de fișiere și 51 de funcții.
Rezultatele din 11 modele arată tipare consistente. Modelele mai mari depășesc variantele mai mici. GPT-5 rezolvă 21%, comparativ cu GPT-5-mini la 10% și GPT-5-nano la 4%. Clasamentul reflectă performanța SWE-Bench, validând SWE-EVO ca un reper semnificativ.
Analiza defectelor arată tipare distincte în funcție de capacitatea modelului. Cele mai puternice modele eșuează în principal la urmarea instrucțiunilor, interpretând greșit notele de lansare nuanțate. Modelele mai slabe se confruntă cu utilizarea uneltelor și erori de sintaxă. Acest lucru indică faptul că dificultatea SWE-EVO provine din raționamentul semantic, nu din competența interfeței.
Hârtie:
Învață să construiești agenți AI eficienți în academia mea:

Limită superioară
Clasament
Favorite
