💡Některá zábavná fakta o Minimax M2: 1. Minimax používá strukturu podobnou GPT-OSS, tj. Full Attention prokládanou Sliding Window Attention (SWA). 2. Používá QK Norm a každá jednotlivá hlava pozornosti má svůj vlastní jedinečný, naučitelný RMSNorm. 3. Plná pozornost a SWA části ani nesdílejí nastavení: každá z nich dostane svou vlastní konfiguraci RoPE theta. Ještě jedna věc... Někdo se může ptát, proč nepoužít lineární pozornost (aditivní pravidlo nebo delta pravidlo ⚡️Odpověď je jasná: FlashAttention (Dao et al.) je tak efektivní, že podporuje trénování a inferenci s nízkou přesností (FP8/FP4), zatímco Linear Attention nefunguje s nízkou přesností! Jsem rád, že stále více laboratoří umělé inteligence dělá skutečnou vědu místo Pýchy a předsudku! 😃