Het GLM-team gebruikt nu MLA!! Dit is een behoorlijk insane model met 30B totale parameters en ongeveer 4B actief. Zeer mooie release Wat betreft de structuur is het ongeveer dezelfde diepte als glm4.5 air en qwen3 30B A3B, 64 totale experts in plaats van 128, maar ze activeren er slechts 5 in plaats van 9 als je de gedeelde expert meetelt.