🤯PRZEŁOM: Alibaba właśnie udowodniła, że AI w programowaniu nie zabiera twojej pracy, tylko pisze kod legacy, który sprawi, że będziesz zatrudniony, aby go naprawiać przez następną dekadę. 🤣 Zdać test programistyczny raz jest łatwo. Utrzymanie tego kodu przez 8 miesięcy bez jego wybuchu? Podobno to prawie niemożliwe dla AI. Alibaba przetestowała 18 agentów AI na 100 rzeczywistych bazach kodu w cyklach 233-dniowych. Nie szukali tylko "szybkich poprawek" — szukali długoterminowego przetrwania. Wyniki były krwawe: 75% modeli zepsuło wcześniej działający kod podczas konserwacji. Tylko Claude Opus 4.5/4.6 utrzymał >50% wskaźnik zerowej regresji. Każdy inny model zgromadził dług technologiczny, który narastał, aż baza kodu się załamała. Używaliśmy "snapshot" benchmarków, takich jak HumanEval, które tylko pytają "Czy to działa teraz?" Nowy benchmark SWE-CI pyta: "Czy to nadal działa po 8 miesiącach ewolucji?" Większość agentów AI to "Artyści Szybkich Poprawek." Piszą kruchy kod, który przechodzi testy dzisiaj, ale jutro staje się koszmarem konserwacyjnym. Nie budują oprogramowania; budują domek z kart. Narracja właśnie stała się szczera: Większość modeli potrafi pisać kod. Prawie żaden nie potrafi go utrzymać.