Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Evaluación de Pruebas de Agentes de Codificación a Largo Plazo
Los agentes de codificación con IA lucen impresionantes en los benchmarks actuales de codificación. Pero esos benchmarks suelen optimizar y comprobar lo incorrecto.
Esta nueva investigación introduce SWE-EVO, un referente para la evolución del software a largo plazo.
Hasta el 80% del esfuerzo de ingeniería de software consiste en mantener y evolucionar bases de código heredadas en lugar de construir desde cero. Los benchmarks actuales pasan por alto esto por completo. SWE-EVO revela la brecha entre resolver problemas aislados y realizar una evolución real del software.
En lugar de correcciones de un solo problema, los agentes deben interpretar las notas de lanzamiento e implementar cambios completos que abarcan una media de 21 archivos, validados contra suites de pruebas que promedian 874 pruebas por instancia.
GPT-5 con OpenHands alcanza un 65% en SWE-Bench Verified pero solo un 21% en SWE-EVO.
Los autores encuentran que los agentes actuales tienen dificultades con el razonamiento sostenido y multi-archivo.
El benchmark está construido a partir de notas de lanzamiento de siete proyectos maduros de código abierto en Python, incluyendo scikit-learn, pydantic y dask. Cada tarea requiere implementar cambios que normalmente abarcarían múltiples pull requests. Los parches dorados tienen una media de 610 líneas editadas en 21 archivos y 51 funciones.
Los resultados en 11 modelos revelan patrones consistentes. Los modelos más grandes superan a las variantes más pequeñas. GPT-5 resuelve un 21% frente a GPT-5-mini al 10% y GPT-5-nano al 4%. La clasificación refleja el rendimiento de SWE-Bench, validando SWE-EVO como un referente significativo.
El análisis de fallos muestra patrones distintos según la capacidad del modelo. Los modelos más fuertes fallan principalmente al seguir instrucciones, malinterpretando notas de lanzamiento matizadas. Los modelos más débiles tienen problemas con el uso de herramientas y errores de sintaxis. Esto indica que la dificultad SWE-EVO proviene del razonamiento semántico, no de la competencia en la interfaz.
Papel:
Aprende a crear agentes de IA efectivos en mi academia:

Populares
Ranking
Favoritas
