Anunciamos cline-bench, un benchmark de código abierto del mundo real para la codificación agentic. cline-bench se construye a partir de tareas de ingeniería del mundo real de desarrolladores participantes donde los modelos de frontera fallaron y los humanos tuvieron que intervenir. Cada tarea aceptada se convierte en un entorno de RL completamente reproducible con un snapshot del repositorio inicial, un prompt real y pruebas de verdad fundamental del código que finalmente se envió. Para laboratorios e investigadores, esto significa: > puedes evaluar modelos en trabajos de ingeniería genuinos, no en acertijos de leetcode. > obtienes entornos compatibles con Harbor y herramientas de evaluación modernas para comparación lado a lado. > puedes usar las mismas tareas para SFT y RL, por lo que el entrenamiento y la evaluación permanecen anclados en flujos de trabajo de ingeniería reales. Hoy estamos abriendo contribuciones y comenzando a recopilar tareas a través del Proveedor Cline. La participación es opcional y limitada a repositorios de código abierto. Cuando una tarea difícil desconcierta a un modelo y tú intervienes, ese fallo puede convertirse en un entorno estandarizado que toda la comunidad puede estudiar, evaluar y entrenar. Si trabajas en problemas difíciles de código abierto, especialmente OSS comercial, me gustaría invitarte personalmente a ayudar. Estamos comprometidos a patrocinar con $1M a mantenedores de código abierto para que participen en la iniciativa cline-bench. "Cline-bench es un gran ejemplo de cómo los benchmarks abiertos y del mundo real pueden avanzar todo el ecosistema. Tareas de codificación de alta calidad y verificadas, basadas en flujos de trabajo de desarrolladores reales, son exactamente lo que necesitamos para medir de manera significativa los modelos de frontera, descubrir modos de fallo y avanzar en el estado del arte." – @shyamalanadkat, Jefe de Evaluaciones Aplicadas @OpenAI "Nous Research se centra en entrenar y proliferar modelos que sobresalen en tareas del mundo real. cline-bench será una herramienta integral en nuestros esfuerzos por maximizar el rendimiento y comprender las capacidades de nuestros modelos." – @Teknium, Jefe de Post Entrenamiento @nousresearch "Somos grandes admiradores de todo lo que Cline ha estado haciendo para empoderar el ecosistema de IA de código abierto, y estamos increíblemente emocionados de apoyar el lanzamiento de cline-bench. Entornos abiertos de alta calidad para la codificación agentic son extremadamente raros. Este lanzamiento será un gran avance tanto como evaluación de capacidades como un banco de pruebas post-entrenamiento para tareas desafiantes del mundo real, avanzando nuestra comprensión colectiva y capacidades en torno al desarrollo de software autónomo." – @willccbb, Líder de Investigación @PrimeIntellect: "Compartimos el compromiso de Cline con el código abierto y creemos que hacer este benchmark disponible para todos nos ayudará a seguir empujando las capacidades de codificación de frontera de nuestros LLMs." – @b_roziere, Científico de Investigación @MistralAI: Los detalles completos están en el blog: