Ønsker du å bygge skaleringslover for RL, men er usikker på hvordan du skalerer? Eller hvilke vekter? Eller ville RL til og med skalere forutsigbart? Vi introduserer: Kunsten å skalere forsterkende læringsberegning for LLM-er