💡Minimax M2 に関するいくつかの楽しい事実: 1. Minimaxは、GPT-OSSのような構造、つまり、スライディングウィンドウアテンション(SWA)とインターリーブされたフルアテンションを使用します。 2. QK Norm を使用し、すべてのアテンション ヘッドには独自の学習可能な RMSNorm があります。 3. フルアテンションとSWAの部分は設定を共有していません:それぞれが独自のRoPEシータ設定を取得します。 もう一つ。。。誰かが、なぜ線形アテンション(加法則またはデルタ法則)を使用しないのかと尋ねるかもしれません ⚡️答えは明らかです: FlashAttention (Dao et al.) は非常に効果的で、低精度のトレーニングと推論 (FP8/FP4) をサポートしますが、Linear Attention は低精度では機能しません。 ますます多くのAIラボが、高慢と偏見ではなく、本物の科学を行っているのを見てうれしいです!😃