トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💡Minimax M2 に関するいくつかの楽しい事実:
1. Minimaxは、GPT-OSSのような構造、つまり、スライディングウィンドウアテンション(SWA)とインターリーブされたフルアテンションを使用します。
2. QK Norm を使用し、すべてのアテンション ヘッドには独自の学習可能な RMSNorm があります。
3. フルアテンションとSWAの部分は設定を共有していません:それぞれが独自のRoPEシータ設定を取得します。
もう一つ。。。誰かが、なぜ線形アテンション(加法則またはデルタ法則)を使用しないのかと尋ねるかもしれません
⚡️答えは明らかです: FlashAttention (Dao et al.) は非常に効果的で、低精度のトレーニングと推論 (FP8/FP4) をサポートしますが、Linear Attention は低精度では機能しません。
ますます多くのAIラボが、高慢と偏見ではなく、本物の科学を行っているのを見てうれしいです!😃

トップ
ランキング
お気に入り

