Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨PRZEŁOM: Alibaba testowała agentów AI do kodowania na 100 rzeczywistych bazach kodu, przez 233 dni każda.
agenci ponieśli spektakularną porażkę.
okazuje się, że zdanie testów raz jest łatwe. utrzymanie kodu przez 8 miesięcy bez zepsucia wszystkiego to moment, w którym AI się załamuje.
SWE-CI to pierwszy benchmark, który mierzy długoterminowe utrzymanie kodu zamiast jednorazowych poprawek błędów.
każde zadanie śledzi 71 kolejnych commitów rzeczywistej ewolucji.
75% modeli AI psuje wcześniej działający kod podczas utrzymania.
tylko Claude Opus 4 utrzymuje powyżej 50% wskaźnika zerowej regresji. każdy inny model gromadzi dług technologiczny, który się kumuluje w kolejnych iteracjach.
oto brutalna część:
- HumanEval i SWE-bench mierzą "czy działa teraz"
- SWE-CI mierzy "czy nadal działa po 6 miesiącach zmian"
agenci zoptymalizowani pod kątem testowania snapshotów piszą kruchy kod, który przechodzi testy dzisiaj, ale staje się niemożliwy do utrzymania jutro.
Alibaba stworzyła EvoScore, aby ważyć późniejsze iteracje ciężej niż wcześniejsze. agenci, którzy poświęcają jakość kodu dla szybkich zysków, są karani, gdy konsekwencje się kumulują.
temat kodowania AI stał się właśnie bardziej szczery: większość modeli potrafi pisać kod. prawie żaden nie potrafi go utrzymać.

Najlepsze
Ranking
Ulubione
