🚨BREAKING: Alibaba hat KI-Coding-Agenten an 100 realen Codebasen getestet, die jeweils 233 Tage umspannten. Die Agenten sind spektakulär gescheitert. Es stellt sich heraus, dass es einfach ist, Tests einmal zu bestehen. Den Code über 8 Monate hinweg zu warten, ohne alles zu brechen, ist der Punkt, an dem KI zusammenbricht. SWE-CI ist der erste Benchmark, der die langfristige Codewartung misst, anstatt einmalige Fehlerbehebungen. Jede Aufgabe verfolgt 71 aufeinanderfolgende Commits realer Evolution. 75 % der KI-Modelle brechen zuvor funktionierenden Code während der Wartung. Nur Claude Opus 4 bleibt über 50 % Null-Regressionsrate. Jedes andere Modell akkumuliert technische Schulden, die sich über Iterationen hinweg verstärken. Hier ist der brutale Teil: - HumanEval und SWE-bench messen "funktioniert es gerade jetzt" - SWE-CI misst "funktioniert es nach 6 Monaten Änderungen immer noch" Agenten, die für Snapshot-Tests optimiert sind, schreiben brüchigen Code, der heute Tests besteht, aber morgen unwartbar wird. Alibaba hat EvoScore entwickelt, um spätere Iterationen schwerer zu gewichten als frühe. Agenten, die Codequalität für schnelle Gewinne opfern, werden bestraft, wenn die Konsequenzen sich kumulieren. Die Erzählung über KI-Coding ist gerade ehrlicher geworden: Die meisten Modelle können Code schreiben. Fast keines kann ihn warten.