tenker på hvordan RL-treningen ender opp med å optimalisere for selve evalueringene