Хотите разработать законы масштабирования для RL, но не уверены, как масштабировать? Или что масштабировать? Или будет ли RL вообще масштабироваться предсказуемо? Мы представляем: Искусство масштабирования вычислений для обучения с подкреплением для LLM.