DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Benchmarking von Langzeit-Coding-Agenten AI-Coding-Agenten sehen auf aktuellen Coding-Benchmarks beeindruckend aus. Aber diese Benchmarks optimieren und testen oft für das Falsche. Diese neue Forschung führt SWE-EVO ein, einen Benchmark für die langfristige Software-Evolution. Bis zu 80 % des Aufwands in der Softwareentwicklung besteht darin, Legacy-Codebasen zu warten und weiterzuentwickeln, anstatt von Grund auf neu zu bauen. Aktuelle Benchmarks erfassen dies überhaupt nicht. SWE-EVO zeigt die Lücke zwischen der Lösung isolierter Probleme und der Durchführung echter Software-Evolution. Anstatt sich auf Einzelprobleme zu konzentrieren, müssen die Agenten die Release-Notizen interpretieren und umfassende Änderungen implementieren, die im Durchschnitt 21 Dateien umfassen, validiert gegen Test-Suiten mit durchschnittlich 874 Tests pro Instanz. GPT-5 mit OpenHands erreicht 65 % bei SWE-Bench Verified, aber nur 21 % bei SWE-EVO. Die Autoren stellen fest, dass aktuelle Agenten Schwierigkeiten mit nachhaltigem, mehrdateiigem Denken haben. Der Benchmark wird aus Release-Notizen von sieben reifen Open-Source-Python-Projekten erstellt, darunter scikit-learn, pydantic und dask. Jede Aufgabe erfordert die Implementierung von Änderungen, die normalerweise mehrere Pull-Requests umfassen würden. Gold-Patches umfassen im Durchschnitt 610 bearbeitete Zeilen über 21 Dateien und 51 Funktionen. Die Ergebnisse über 11 Modelle zeigen konsistente Muster. Größere Modelle übertreffen kleinere Varianten. GPT-5 löst 21 % im Vergleich zu GPT-5-mini mit 10 % und GPT-5-nano mit 4 %. Das Ranking spiegelt die Leistung von SWE-Bench wider und validiert SWE-EVO als bedeutenden Benchmark. Die Fehleranalyse zeigt deutliche Muster je nach Modellfähigkeit. Die stärksten Modelle scheitern hauptsächlich an der Befolgung von Anweisungen und missverstehen nuancierte Release-Notizen. Schwächere Modelle haben Schwierigkeiten mit der Werkzeugnutzung und Syntaxfehlern. Dies deutet darauf hin, dass die Schwierigkeit von SWE-EVO aus semantischem Denken resultiert, nicht aus der Kompetenz im Umgang mit der Schnittstelle. Paper: Lerne, effektive AI-Agenten in meiner Akademie zu bauen:

Top

Ranking

Favoriten