嫌いではありませんが、$4.2M RL スケーリングの論文は、それが何であるかについては少し誇大宣伝されているようですか?新聞自体によって少し、さらにツイッターのポーターによって。 最初の読みからは、GRPOのさらに別の調整セットのように見えますが、今回は異なるコンピューティングバジェットでトレーニングされていますが、重要なのは、比較的小規模なモデル(Llama 3 8B、およびLlama 4 Scout)と、100%数学の質問である1つのデータセットでのみトレーニングされています。 主な目新しさは、報酬グラフに曲線をはめ込んだことですが、これは、ええと、クールだと思いますか? 一番上のチェリーは、 'from scipy.optimize import curve_fit'を中心とした1つのファイルであるコードリポジトリです 私はより原則的なRL研究に賛成ですが、RLトレーニング環境がプレトレーニングデータセットよりも多様であることは間違いありません。さらに、巨大なモデル (>100B?) の RL は、小型モデルとは質的に異なる獣であるという、私はまだこっそりと疑っています (そして検証する予算はありません)。 LLM スケーリング法則の優れた点は、特定の予算に対して、いくつかのハイパーパラメーターをアプリオリに推定できるため、ハイパーパラメーターの推測を節約できることです。ここで同様の洞察を見つけるのに苦労しています。 しかし、400k GPU 時間を使用しました。