Бажаєте побудувати закони масштабування для RL, але не знаєте, як масштабувати? Або які ваги? Чи RL навіть передбачувано масштабувався? Ми представляємо: Мистецтво масштабування обчислень навчання з підкріпленням для LLM