GLM-teamet bruker nå MLA!! dette er en ganske vill modell med 30 milliarder total param og omtrent 4 milliarder aktive. Veldig fin utgivelse Når det gjelder struktur, er det omtrent samme dybde som GLM4.5 Air og QWEN3 30B A3B, 64 totalt ekspert i stedet for 128, men de aktiverer bare 5 i stedet for 9 hvis du regner med den delte eksperten