Benchmarking de Agentes de Codificación a Largo Plazo Los agentes de codificación de IA lucen impresionantes en los benchmarks de codificación actuales. Pero esos benchmarks a menudo optimizan y prueban lo incorrecto. Esta nueva investigación presenta SWE-EVO, un benchmark para la evolución de software a largo plazo. Hasta el 80% del esfuerzo en ingeniería de software implica mantener y evolucionar bases de código heredadas en lugar de construir desde cero. Los benchmarks actuales pasan por alto esto por completo. SWE-EVO revela la brecha entre resolver problemas aislados y realizar una verdadera evolución del software. En lugar de arreglos de un solo problema, los agentes deben interpretar notas de lanzamiento e implementar cambios integrales que abarcan un promedio de 21 archivos, validados contra suites de pruebas que promedian 874 pruebas por instancia. GPT-5 con OpenHands logra un 65% en SWE-Bench Verificado, pero solo un 21% en SWE-EVO. Los autores encuentran que los agentes actuales luchan con el razonamiento sostenido y multi-archivo. El benchmark se construye a partir de notas de lanzamiento de siete proyectos de Python de código abierto maduros, incluyendo scikit-learn, pydantic y dask. Cada tarea requiere implementar cambios que normalmente abarcarían múltiples solicitudes de extracción. Los parches de oro promedian 610 líneas editadas en 21 archivos y 51 funciones. Los resultados a través de 11 modelos revelan patrones consistentes. Los modelos más grandes superan a las variantes más pequeñas. GPT-5 resuelve un 21% frente a GPT-5-mini con un 10% y GPT-5-nano con un 4%. La clasificación refleja el rendimiento de SWE-Bench, validando a SWE-EVO como un benchmark significativo. El análisis de fallos muestra patrones distintos según la capacidad del modelo. Los modelos más fuertes fallan principalmente en seguir instrucciones, malinterpretando notas de lanzamiento matizadas. Los modelos más débiles luchan con el uso de herramientas y errores de sintaxis. Esto indica que la dificultad de SWE-EVO proviene del razonamiento semántico, no de la competencia en la interfaz. Paper: Aprende a construir agentes de IA efectivos en mi academia: