トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NanoChatは現在、GPT-2グレードのLLMを<<$100(~$73、8XH100ノード1台で3時間)で訓練可能です。
GPT-2は私のお気に入りのLLMです。なぜなら、LLMスタックが初めて現代的な形でまとまっているからです。そのため、GPT-2対応のモデルを、はるかに安く、7年分の進歩の恩恵を受けてトレーニングすることが、私の少し奇妙で長続きする執着になっています。特に、今日なら<<ドルで1匹を訓練できるはずだと思った。
もともと2019年、GPT-2はOpenAIによって32台のTPU v3チップ上で168時間(7日間)訓練され、当時はTPUv3あたり8ドルで、合計約43,000ドルのコストで訓練されました。COREスコアは0.256525を達成しており、これはDCLM論文で導入されたアンサンブル指標で、ARC/MMLUなど22回の評価を通じて使われています。
nanochatに統合された最近のいくつかの改良(多くはmodded nanogptリポジトリから)により、8XH100ノード1台で3.04時間(~$73)でより高いCOREスコアを達成できるようになりました。これは7年間で600倍のコスト削減であり、GPT-2の訓練コストは毎年約2.5倍に減少しています。これは過小評価だと思います。なぜなら、まだ比較的定期的に改善点を見つけており、試したいアイデアの積み山もあるからです。
最適化の詳細や再現方法のヒントを詳述した長い投稿はこちらです:
modded-nanoGPTに触発され、「GPT-2までの時間」のリーダーボードも作成しました。この最初の「1月29日」モデルは3.04時間でエントリー#1です。これからもこの問題をさらに改良していくのが楽しいですし、ぜひご協力をお待ちしています!私の願いは、nanochatがプロトタイピングや楽しみ、もちろん学習のための非常に素敵でクリーンで調整された実験的なLLMハーネスに成長することです。
箱から出してすぐに効果が得られた最大の改善点は、1) Flash Attention 3カーネル(window_size高速で、Kwargが交互に注意パターンを得られるように)、Muonオプティマイザー(1~日ほどAdamWだけを使おうとしましたができません)、学習可能なスカラーでゲートされた残留経路やスキップ接続、 値埋め込み。他にも多くの小さな要素が積み重なっていました。
画像:現在のナノチャットモデルミニシリーズのスケーリング法則を導き出す半ば関連した目の保養、美しい、そして満足感!

トップ
ランキング
お気に入り
