Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Бенчмаркінг довготривалих кодувальних агентів
Агенти кодування на базі ШІ виглядають вражаюче на поточних бенчмарках. Але ці бенчмарки часто оптимізують і тестують на неправильні речі.
Це нове дослідження представляє SWE-EVO — еталонну еволюцію програмного забезпечення з довгостроковим горизонтом.
До 80% зусиль у розробці програмного забезпечення передбачає підтримку та розвиток застарілих кодових баз, а не створення з нуля. Поточні бенчмарки цього повністю пропускають. SWE-EVO виявляє розрив між вирішенням ізольованих проблем і реалізацією реальної еволюції програмного забезпечення.
Замість виправлень по одному випуску агенти повинні інтерпретувати нотатки до релізу та впроваджувати комплексні зміни, що охоплюють у середньому 21 файл, перевірені за тестовими наборами, які в середньому мають 874 тести на екземпляр.
GPT-5 з OpenHands отримує 65% на SWE-Bench Verified, але лише 21% на SWE-EVO.
Автори з'ясували, що сучасні агенти мають труднощі з тривалим, багатофайловим міркуванням.
Бенчмарк побудований на основі нотаток до релізів семи зрілих відкритих Python-проєктів, включно зі scikit-learn, pydantic та dask. Кожне завдання вимагає впровадження змін, які зазвичай охоплюють кілька pull requests. Золоті патчі в середньому мають 610 рядків, відредагованих у 21 файлі та 51 функції.
Результати за 11 моделями виявляють узгоджені закономірності. Більші моделі перевершують менші варіанти. GPT-5 розв'язує 21%, GPT-5-mini — 10%, GPT-5-nano — 4%. Рейтинг відображає результати SWE-Bench, підтверджуючи SWE-EVO як значущий орієнтир.
Аналіз відмов показує чіткі закономірності залежно від можливостей моделі. Найсильніші моделі переважно провалюють через виконання інструкцій, неправильно тлумачачи нюансовані нотатки до релізу. Слабші моделі мають проблеми з використанням інструментів і синтаксичними помилками. Це свідчить про складність SWE-EVO через семантичне мислення, а не компетенцію інтерфейсу.
Стаття:
Навчіться створювати ефективних агентів ШІ в моїй академії:

Найкращі
Рейтинг
Вибране
