🚀 HLA: Høyere lineær oppmerksomhet = oppmerksomhetsvibber + RNN-hastighet:
Lineær oppmerksomhet av høyere orden med parallelliserbar trening!
Prosjekt side:
VI ER SÅ TILBAKE! 🚀
#LLM #AI #DeepLearning #Transformers
Farvel, innbygging av roterende posisjon (RoPE). Vi ser for oss at RoPE ikke lenger vil bli brukt i fremtidige LLM-er.
Noe vesentlig har allerede blitt avslørt; Svaret er i dette bildet. Følg med! 🚀
💡Noen morsomme fakta om Minimax M2:
1. Minimax bruker GPT-OSS-lignende struktur, det vil si Full Attention interfoliert med Sliding Window Attention (SWA).
2. Den bruker QK Norm, og hvert eneste oppmerksomhetshode har sin egen unike, lærbare RMSNorm.
3. Full oppmerksomhet og SWA-deler deler ikke engang innstillinger: de får hver sin RoPE-theta-konfigurasjon.
En ting til... Noen kan spørre hvorfor ikke bruke lineær oppmerksomhet (additiv regel eller deltaregel
⚡️Svaret er klart: FlashAttention (Dao et al.) er så effektivt, og støtter lavpresisjonstrening og inferens (FP8/FP4), mens lineær oppmerksomhet ikke fungerer under lav presisjon!
Glad for å se at flere og flere AI Labs driver med ekte vitenskap, i stedet for stolthet og fordom! 😃
MiniMax M2: Vår avanserte modell som oppnår global topp 5-status, overgår Claude Opus 4.1 og rangerer like bak Sonnet 4.5.
Kommer 27 oktober - Følg med