トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
新しいMotif-2-12.7B(韓国製)は本当に印象的なスコアを持っており、アーキテクチャ/ハードウェアの最適化で再び調理されました。
私のお気に入りの部分は、以前の Motif-2.6B を使用してより大きなモデルを初期化し、2 つの異なる手法を使用してモデルの奥行きと幅をスケーリングする方法であり、ゼロからのトレーニングと比較してトークンの効率が向上しました。また、独自の作業を使用して、以前使用していた差動アテンションを改善し、グループ化されたバリアントを使用して、ノイズと信号ヘッドの粒度を高めます(信号が増え、ノイズが少なくなります)。
5.5Tトークンのみでトレーニングされ、「カリキュラムを意識したデータスケジューリング」(これについてはあまり情報がありません)+並列Muon-Clipによるさまざまなハードウェア最適化(一部はオープンソースです、以下のリンクを参照してください!)、Polynorm用の効率的なカーネル、およびtorchtitanを使用したFP8トレーニング!
また、Muon ではより大きなバッチ サイズが可能で、最大 80M GBS までスケールアップでき、これはこのサイズのモデルとしてはかなり高いと述べています。
400 個の H100 GPU と ~272K GPU 時間は、このレベルのパフォーマンスを実現するのに印象的です。

トップ
ランキング
お気に入り

