Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Benchmarking von Langzeit-Coding-Agenten
AI-Coding-Agenten sehen auf aktuellen Coding-Benchmarks beeindruckend aus. Aber diese Benchmarks optimieren und testen oft für das Falsche.
Diese neue Forschung führt SWE-EVO ein, einen Benchmark für die langfristige Software-Evolution.
Bis zu 80 % des Aufwands in der Softwareentwicklung besteht darin, Legacy-Codebasen zu warten und weiterzuentwickeln, anstatt von Grund auf neu zu bauen. Aktuelle Benchmarks erfassen dies überhaupt nicht. SWE-EVO zeigt die Lücke zwischen der Lösung isolierter Probleme und der Durchführung echter Software-Evolution.
Anstatt sich auf Einzelprobleme zu konzentrieren, müssen die Agenten die Release-Notizen interpretieren und umfassende Änderungen implementieren, die im Durchschnitt 21 Dateien umfassen, validiert gegen Test-Suiten mit durchschnittlich 874 Tests pro Instanz.
GPT-5 mit OpenHands erreicht 65 % bei SWE-Bench Verified, aber nur 21 % bei SWE-EVO.
Die Autoren stellen fest, dass aktuelle Agenten Schwierigkeiten mit nachhaltigem, mehrdateiigem Denken haben.
Der Benchmark wird aus Release-Notizen von sieben reifen Open-Source-Python-Projekten erstellt, darunter scikit-learn, pydantic und dask. Jede Aufgabe erfordert die Implementierung von Änderungen, die normalerweise mehrere Pull-Requests umfassen würden. Gold-Patches umfassen im Durchschnitt 610 bearbeitete Zeilen über 21 Dateien und 51 Funktionen.
Die Ergebnisse über 11 Modelle zeigen konsistente Muster. Größere Modelle übertreffen kleinere Varianten. GPT-5 löst 21 % im Vergleich zu GPT-5-mini mit 10 % und GPT-5-nano mit 4 %. Das Ranking spiegelt die Leistung von SWE-Bench wider und validiert SWE-EVO als bedeutenden Benchmark.
Die Fehleranalyse zeigt deutliche Muster je nach Modellfähigkeit. Die stärksten Modelle scheitern hauptsächlich an der Befolgung von Anweisungen und missverstehen nuancierte Release-Notizen. Schwächere Modelle haben Schwierigkeiten mit der Werkzeugnutzung und Syntaxfehlern. Dies deutet darauf hin, dass die Schwierigkeit von SWE-EVO aus semantischem Denken resultiert, nicht aus der Kompetenz im Umgang mit der Schnittstelle.
Paper:
Lerne, effektive AI-Agenten in meiner Akademie zu bauen:

Top
Ranking
Favoriten
