Aquí, la rúbrica de RL estaba recompensando 48, pero Opus sabía que la respuesta era 24. Una ventana a cómo los modelos experimentan RL