GLM-teamet använder nu MLA!! detta är en ganska galen modell med totalt 30 miljarder param och cirka 4 miljarder aktiva. Mycket fin utlösning Strukturmässigt är det ungefär samma djup som GLM4.5 Air och QWEN3 30B A3B, 64 total expert istället för 128, men de aktiverar bara 5 istället för 9 om man räknar med den delade experten