Benchmarking de Agentes de Codificação de Longo Prazo Os agentes de codificação de IA parecem impressionantes nos benchmarks de codificação atuais. Mas esses benchmarks muitas vezes otimizam e testam para a coisa errada. Esta nova pesquisa introduz o SWE-EVO, um benchmark para a evolução de software a longo prazo. Até 80% do esforço em engenharia de software envolve a manutenção e evolução de bases de código legadas, em vez de construir do zero. Os benchmarks atuais perdem isso completamente. O SWE-EVO revela a lacuna entre resolver problemas isolados e realizar uma verdadeira evolução de software. Em vez de correções de problemas únicos, os agentes devem interpretar notas de lançamento e implementar mudanças abrangentes que abrangem uma média de 21 arquivos, validadas contra suítes de testes que têm uma média de 874 testes por instância. O GPT-5 com OpenHands alcança 65% no SWE-Bench Verified, mas apenas 21% no SWE-EVO. Os autores descobrem que os agentes atuais têm dificuldades com raciocínio sustentado e multi-arquivo. O benchmark é construído a partir de notas de lançamento de sete projetos Python de código aberto maduros, incluindo scikit-learn, pydantic e dask. Cada tarefa requer a implementação de mudanças que normalmente abrangeriam múltiplos pull requests. Os patches de ouro têm uma média de 610 linhas editadas em 21 arquivos e 51 funções. Os resultados em 11 modelos revelam padrões consistentes. Modelos maiores superam variantes menores. O GPT-5 resolve 21% contra 10% do GPT-5-mini e 4% do GPT-5-nano. A classificação espelha o desempenho do SWE-Bench, validando o SWE-EVO como um benchmark significativo. A análise de falhas mostra padrões distintos por capacidade do modelo. Os modelos mais fortes falham principalmente em seguir instruções, interpretando mal notas de lançamento sutis. Modelos mais fracos têm dificuldades com o uso de ferramentas e erros de sintaxe. Isso indica que a dificuldade do SWE-EVO decorre do raciocínio semântico, não da competência de interface. Artigo: Aprenda a construir agentes de IA eficazes na minha academia: