Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Benchmarking Long-Horizon Coding Agents
AI-codingagents zien er indrukwekkend uit op de huidige coding benchmarks. Maar die benchmarks optimaliseren en testen vaak voor de verkeerde dingen.
Dit nieuwe onderzoek introduceert SWE-EVO, een benchmark voor software-evolutie op lange termijn.
Tot 80% van de inspanning in software-engineering houdt in dat er onderhoud en evolutie van legacy codebases plaatsvindt in plaats van vanaf nul te bouwen. Huidige benchmarks missen dit volledig. SWE-EVO onthult de kloof tussen het oplossen van geïsoleerde problemen en het uitvoeren van echte software-evolutie.
In plaats van oplossingen voor enkele problemen, moeten agents release-opmerkingen interpreteren en uitgebreide wijzigingen doorvoeren die gemiddeld 21 bestanden beslaan, gevalideerd tegen test suites met gemiddeld 874 tests per instantie.
GPT-5 met OpenHands behaalt 65% op SWE-Bench Verified, maar slechts 21% op SWE-EVO.
De auteurs ontdekken dat huidige agents moeite hebben met langdurig, multi-bestand redeneren.
De benchmark is opgebouwd uit release-opmerkingen van zeven volwassen open-source Python-projecten, waaronder scikit-learn, pydantic en dask. Elke taak vereist het doorvoeren van wijzigingen die normaal gesproken meerdere pull requests zouden beslaan. Gouden patches bewerken gemiddeld 610 regels over 21 bestanden en 51 functies.
Resultaten over 11 modellen onthullen consistente patronen. Grotere modellen presteren beter dan kleinere varianten. GPT-5 lost 21% op versus GPT-5-mini met 10% en GPT-5-nano met 4%. De rangschikking weerspiegelt de prestaties van SWE-Bench, wat SWE-EVO valideert als een betekenisvolle benchmark.
Faalanalyse toont duidelijke patronen op basis van modelcapaciteit. De sterkste modellen falen voornamelijk op het volgen van instructies, waarbij ze genuanceerde release-opmerkingen verkeerd interpreteren. Zwakkere modellen hebben moeite met het gebruik van tools en syntaxisfouten. Dit geeft aan dat de moeilijkheid van SWE-EVO voortkomt uit semantisch redeneren, niet uit interface-competentie.
Paper:
Leer effectieve AI-agents te bouwen in mijn academie:

Boven
Positie
Favorieten
