A equipa GLM está agora a usar o MLA!! este é um modelo bastante insano com 30B de parâmetros totais e cerca de 4B ativos. lançamento muito bom em termos de estrutura, é aproximadamente a mesma profundidade que o glm4.5 air e o qwen3 30B A3B, 64 especialistas totais em vez de 128, mas eles ativam apenas 5 em vez de 9 se contares o especialista partilhado.