RLのスケーリング法則を構築したいが、スケーリング方法がわかりませんか?それともスケールは?それとも、RLは予測どおりに拡張できるのでしょうか? LLM のための強化学習コンピューティングをスケーリングする技術を紹介します。