トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
*chatgptをチェック* この論文の費用は~420万米ドル(400K GB200時間)です。
最も高価な実行は 100K GPU 時間でした (Deepseek-R1-zero と同じ量ですが、GB200 上)。
ここでの発見の 1 つは、スケーラブルな RL アルゴリズムができれば、RL コンピューティングのスケーリングが予測可能になるということです (たとえば、17Bx16 MoE の 3 倍コンピューティングを 16k GPU 時間から 50k 時間に外挿しました)。
もう1つは、アルゴリズムを比較するときに、苦い教訓を受け入れることです(固定コンピューティングでのパフォーマンスだけでなく、特定のパフォーマンス曲線を使用してコンピューティングでどれだけうまくスケーリングされるかを予測してみてください)。
スケーラブルな RL メソッドのほとんどのアルゴリズム トリックは漸近線のパフォーマンスを変更しませんが、モデル サイズ、コンテキストの長さ、バッチ サイズ、データなどは変更します。
もちろん、RLには多くの設計上の選択肢があるため、ScaleRLのレシピが話の終わりだとは思いません。
トップ
ランキング
お気に入り
