Wil je schaalwetten voor RL opbouwen maar weet je niet hoe je moet schalen? Of wat te schalen? Of zou RL zelfs voorspelbaar kunnen schalen? We introduceren: De Kunst van het Schalen van Reinforcement Learning Compute voor LLM's