Haluatko rakentaa skaalauslakeja RL:lle, mutta et ole varma, miten skaalata? Tai mitä mittakaavaa? Vai skaalautuisiko RL edes ennustettavasti? Esittelemme: The Art of Scaling Reinforcement Learning Compute LLM:ille