memikirkan bagaimana pelatihan RL akhirnya mengoptimalkan untuk evals itu sendiri