Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Évaluation des agents de codage à long terme
Les agents de codage AI semblent impressionnants sur les benchmarks de codage actuels. Mais ces benchmarks optimisent souvent et testent pour la mauvaise chose.
Cette nouvelle recherche introduit SWE-EVO, un benchmark pour l'évolution logicielle à long terme.
Jusqu'à 80 % des efforts en ingénierie logicielle impliquent la maintenance et l'évolution de bases de code héritées plutôt que de construire à partir de zéro. Les benchmarks actuels manquent complètement cela. SWE-EVO révèle l'écart entre la résolution de problèmes isolés et la réalisation d'une véritable évolution logicielle.
Au lieu de corrections de problèmes uniques, les agents doivent interpréter les notes de version et mettre en œuvre des changements complets qui couvrent en moyenne 21 fichiers, validés par des suites de tests moyennant 874 tests par instance.
GPT-5 avec OpenHands atteint 65 % sur SWE-Bench Verified mais seulement 21 % sur SWE-EVO.
Les auteurs constatent que les agents actuels ont du mal avec le raisonnement soutenu et multi-fichiers.
Le benchmark est construit à partir des notes de version de sept projets Python open-source matures, y compris scikit-learn, pydantic et dask. Chaque tâche nécessite la mise en œuvre de changements qui s'étendraient normalement sur plusieurs demandes de tirage. Les correctifs en or comptent en moyenne 610 lignes modifiées à travers 21 fichiers et 51 fonctions.
Les résultats de 11 modèles révèlent des schémas cohérents. Les modèles plus grands surpassent les variantes plus petites. GPT-5 résout 21 % contre GPT-5-mini à 10 % et GPT-5-nano à 4 %. Le classement reflète la performance de SWE-Bench, validant SWE-EVO comme un benchmark significatif.
L'analyse des échecs montre des schémas distincts selon la capacité du modèle. Les modèles les plus performants échouent principalement sur le suivi des instructions, mal interprétant les notes de version nuancées. Les modèles plus faibles ont du mal avec l'utilisation des outils et les erreurs de syntaxe. Cela indique que la difficulté de SWE-EVO provient du raisonnement sémantique, et non de la compétence d'interface.
Article :
Apprenez à construire des agents AI efficaces dans mon académie :

Meilleurs
Classement
Favoris
