Chcete vytvořit zákony pro škálování pro RL, ale nejste si jisti, jak škálovat? Nebo jaké váhy? Nebo by se RL vůbec předvídatelně škálovalo? Představujeme: Umění škálování zpětnovazebního učení pro LLM