L'équipe GLM utilise maintenant MLA !! C'est un modèle assez incroyable avec 30 milliards de paramètres au total et environ 4 milliards actifs. Très belle sortie En termes de structure, c'est approximativement la même profondeur que glm4.5 air et qwen3 30B A3B, 64 experts au total au lieu de 128, mais ils n'activent que 5 au lieu de 9 si vous comptez l'expert partagé.