Бенчмаркінг довготривалих кодувальних агентів Агенти кодування на базі ШІ виглядають вражаюче на поточних бенчмарках. Але ці бенчмарки часто оптимізують і тестують на неправильні речі. Це нове дослідження представляє SWE-EVO — еталонну еволюцію програмного забезпечення з довгостроковим горизонтом. До 80% зусиль у розробці програмного забезпечення передбачає підтримку та розвиток застарілих кодових баз, а не створення з нуля. Поточні бенчмарки цього повністю пропускають. SWE-EVO виявляє розрив між вирішенням ізольованих проблем і реалізацією реальної еволюції програмного забезпечення. Замість виправлень по одному випуску агенти повинні інтерпретувати нотатки до релізу та впроваджувати комплексні зміни, що охоплюють у середньому 21 файл, перевірені за тестовими наборами, які в середньому мають 874 тести на екземпляр. GPT-5 з OpenHands отримує 65% на SWE-Bench Verified, але лише 21% на SWE-EVO. Автори з'ясували, що сучасні агенти мають труднощі з тривалим, багатофайловим міркуванням. Бенчмарк побудований на основі нотаток до релізів семи зрілих відкритих Python-проєктів, включно зі scikit-learn, pydantic та dask. Кожне завдання вимагає впровадження змін, які зазвичай охоплюють кілька pull requests. Золоті патчі в середньому мають 610 рядків, відредагованих у 21 файлі та 51 функції. Результати за 11 моделями виявляють узгоджені закономірності. Більші моделі перевершують менші варіанти. GPT-5 розв'язує 21%, GPT-5-mini — 10%, GPT-5-nano — 4%. Рейтинг відображає результати SWE-Bench, підтверджуючи SWE-EVO як значущий орієнтир. Аналіз відмов показує чіткі закономірності залежно від можливостей моделі. Найсильніші моделі переважно провалюють через виконання інструкцій, неправильно тлумачачи нюансовані нотатки до релізу. Слабші моделі мають проблеми з використанням інструментів і синтаксичними помилками. Це свідчить про складність SWE-EVO через семантичне мислення, а не компетенцію інтерфейсу. Стаття: Навчіться створювати ефективних агентів ШІ в моїй академії: