*chatgptをチェック* この論文の費用は~420万米ドル(400K GB200時間)です。 最も高価な実行は 100K GPU 時間でした (Deepseek-R1-zero と同じ量ですが、GB200 上)。 ここでの発見の 1 つは、スケーラブルな RL アルゴリズムができれば、RL コンピューティングのスケーリングが予測可能になるということです (たとえば、17Bx16 MoE の 3 倍コンピューティングを 16k GPU 時間から 50k 時間に外挿しました)。 もう1つは、アルゴリズムを比較するときに、苦い教訓を受け入れることです(固定コンピューティングでのパフォーマンスだけでなく、特定のパフォーマンス曲線を使用してコンピューティングでどれだけうまくスケーリングされるかを予測してみてください)。 スケーラブルな RL メソッドのほとんどのアルゴリズム トリックは漸近線のパフォーマンスを変更しませんが、モデル サイズ、コンテキストの長さ、バッチ サイズ、データなどは変更します。 もちろん、RLには多くの設計上の選択肢があるため、ScaleRLのレシピが話の終わりだとは思いません。