El recurso más escaso que tienes como ingeniero es tu propio tiempo. Diferentes modelos destacan en diferentes tareas y todos los LLM pueden ser ocasionalmente irregulares, así que una forma natural de ahorrarte tiempo al programar es ejecutar la misma tarea en múltiples modelos a la vez, y luego comparar los resultados y decidir cuál prefieres utilizar. Uno de los efectos secundarios divertidos de esto es que obtenemos quizás la evaluación de codificación en el mundo real más natural que existe. Todos saben lo fácil que es hacer un benchmax en un conjunto fijo de tareas; esta evaluación es una verdadera prueba de cuáles modelos funcionan mejor para los desarrolladores en su trabajo diario.