El recurso más escaso que tienes como ingeniero es tu propio tiempo. Diferentes modelos suben en distintas tareas y todos los LLMs pueden ser ocasionalmente irregulares, así que una forma natural de ahorrarte tiempo al programar es ejecutar la misma tarea en varios modelos a la vez, luego comparar los resultados y decidir con cuál prefieres trabajar. Uno de los efectos secundarios divertidos de esto es que ¡quizá obtengamos la evaluación de código más natural del mundo real que existe! Todo el mundo sabe lo fácil que es hacer benchmax en un conjunto fijo de tareas; Esta evaluación es una verdadera prueba de qué modelos funcionan mejor para los desarrolladores en su trabajo diario.