🤯BREAKING: Alibaba щойно довела, що AI Coding не забирає вашу роботу, а просто написання спадкового коду, який дозволить вам працювати над його виправленням наступне десятиліття. 🤣 Скласти тест з кодування один раз легко. Підтримувати цей код 8 місяців без вибуху? Схоже, для ШІ це майже неможливо. Alibaba протестувала 18 агентів ШІ на 100 реальних кодових базах протягом 233-денних циклів. Вони шукали не просто «швидкі рішення» — вони шукали довгострокове виживання. Результат був справжньою різаниною: 75% моделей під час технічного обслуговування порушували раніше працюючий код. Лише Claude Opus 4.5/4.6 підтримували >50% нульовий регресійний коефіцієнт. Усі інші моделі накопичували технічний борг, який накопичувався, поки кодова база не звалилася. Ми використовуємо «snapshot» бенчмарки на кшталт HumanEval, які запитують лише: «Чи працює це зараз?» Новий бенчмарк SWE-CI запитує: «Чи працює він після 8 місяців еволюції?» Більшість агентів ШІ — це «майстри швидких виправлень». Вони пишуть крихкий код, який сьогодні проходить тести, а завтра стає справжнім кошмаром для обслуговування. Вони не створюють програмне забезпечення; Вони будують будинок із карт. Наратив став чесним: більшість моделей можуть писати код. Майже ніхто не може його підтримувати.