Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💡Některá zábavná fakta o Minimax M2:
1. Minimax používá strukturu podobnou GPT-OSS, tj. Full Attention prokládanou Sliding Window Attention (SWA).
2. Používá QK Norm a každá jednotlivá hlava pozornosti má svůj vlastní jedinečný, naučitelný RMSNorm.
3. Plná pozornost a SWA části ani nesdílejí nastavení: každá z nich dostane svou vlastní konfiguraci RoPE theta.
Ještě jedna věc... Někdo se může ptát, proč nepoužít lineární pozornost (aditivní pravidlo nebo delta pravidlo
⚡️Odpověď je jasná: FlashAttention (Dao et al.) je tak efektivní, že podporuje trénování a inferenci s nízkou přesností (FP8/FP4), zatímco Linear Attention nefunguje s nízkou přesností!
Jsem rád, že stále více laboratoří umělé inteligence dělá skutečnou vědu místo Pýchy a předsudku! 😃

Top
Hodnocení
Oblíbené

