トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
嫌いではありませんが、$4.2M RL スケーリングの論文は、それが何であるかについては少し誇大宣伝されているようですか?新聞自体によって少し、さらにツイッターのポーターによって。
最初の読みからは、GRPOのさらに別の調整セットのように見えますが、今回は異なるコンピューティングバジェットでトレーニングされていますが、重要なのは、比較的小規模なモデル(Llama 3 8B、およびLlama 4 Scout)と、100%数学の質問である1つのデータセットでのみトレーニングされています。
主な目新しさは、報酬グラフに曲線をはめ込んだことですが、これは、ええと、クールだと思いますか?
一番上のチェリーは、 'from scipy.optimize import curve_fit'を中心とした1つのファイルであるコードリポジトリです
私はより原則的なRL研究に賛成ですが、RLトレーニング環境がプレトレーニングデータセットよりも多様であることは間違いありません。さらに、巨大なモデル (>100B?) の RL は、小型モデルとは質的に異なる獣であるという、私はまだこっそりと疑っています (そして検証する予算はありません)。
LLM スケーリング法則の優れた点は、特定の予算に対して、いくつかのハイパーパラメーターをアプリオリに推定できるため、ハイパーパラメーターの推測を節約できることです。ここで同様の洞察を見つけるのに苦労しています。
しかし、400k GPU 時間を使用しました。

トップ
ランキング
お気に入り

