Doriți să construiți legi de scalare pentru RL, dar nu sunteți sigur cum să scalați? Sau ce scale? Sau RL ar scala chiar previzibil? Vă prezentăm: Arta de a scala Calculul de învățare prin întărire pentru LLM