Los agentes de codificación tienen dificultades en trabajos complejos en repositorios grandes y desordenados, y esto no mejorará hasta que dejemos de usar benchmarks saturados con pruebas que no se parezcan en nada a la ingeniería real. Por eso estamos comprometiendo 1 millón de dólares en cline-bench, nuestro referente abierto para tareas de programación del mundo real.