🚨СРОЧНО: Alibaba протестировала AI-агентов по программированию на 100 реальных кодовых базах, охватывающих 233 дня каждая. агенты провалились с треском. оказалось, что пройти тесты один раз легко. поддерживать код в течение 8 месяцев, не сломав всё, — вот где AI терпит крах. SWE-CI — это первая метрика, которая измеряет долгосрочное обслуживание кода, а не одноразовые исправления ошибок. каждая задача отслеживает 71 последовательный коммит реальной эволюции. 75% моделей AI ломают ранее работающий код во время обслуживания. только Claude Opus 4 остается выше 50% нулевой регрессии. каждая другая модель накапливает технический долг, который усугубляется с итерациями. вот жестокая часть: - HumanEval и SWE-bench измеряют "работает ли это прямо сейчас" - SWE-CI измеряет "работает ли это всё ещё после 6 месяцев изменений" агенты, оптимизированные для тестирования снимков, пишут хрупкий код, который проходит тесты сегодня, но становится непригодным для обслуживания завтра. Alibaba создала EvoScore, чтобы оценивать более поздние итерации тяжелее, чем ранние. агенты, которые жертвуют качеством кода ради быстрых побед, получают наказание, когда последствия накапливаются. наратив о программировании AI стал более честным: большинство моделей могут писать код. почти ни одна не может его поддерживать.