Chcesz zbudować prawa skalowania dla RL, ale nie jesteś pewien, jak skalować? Albo co skalować? A może RL w ogóle będzie się skalować w sposób przewidywalny? Przedstawiamy: Sztuka skalowania obliczeń w uczeniu przez wzmacnianie dla LLM-ów