DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

🚨BREAKING: Alibaba heeft AI-coderingsagenten getest op 100 echte codebases, verspreid over 233 dagen elk. de agenten faalden spectaculair. het blijkt dat het gemakkelijk is om tests één keer te doorstaan. het onderhouden van code gedurende 8 maanden zonder alles te breken is waar AI instort. SWE-CI is de eerste benchmark die de lange termijn codeonderhoud meet in plaats van eenmalige bugfixes. iedere taak volgt 71 opeenvolgende commits van echte evolutie. 75% van de AI-modellen breken eerder werkende code tijdens onderhoud. alleen Claude Opus 4 blijft boven de 50% nul-regressiepercentage. elk ander model accumuleert technische schuld die zich ophoopt over iteraties. hier is het brute deel: - HumanEval en SWE-bench meten "werkt het nu goed" - SWE-CI meet "werkt het nog steeds na 6 maanden veranderingen" agenten die geoptimaliseerd zijn voor snapshot-testing schrijven broze code die vandaag de tests doorstaat maar morgen ononderhoudbaar wordt. Alibaba heeft EvoScore gebouwd om latere iteraties zwaarder te wegen dan vroege. agenten die codekwaliteit opofferen voor snelle overwinningen worden bestraft wanneer de gevolgen zich ophopen. de AI-coderingsnarratief is net eerlijker geworden: de meeste modellen kunnen code schrijven. bijna geen enkele kan het onderhouden.

Boven

Positie

Favorieten