Il team di GLM sta ora utilizzando MLA!! Questo è un modello piuttosto pazzesco con 30 miliardi di parametri totali e circa 4 miliardi attivi. Ottima release In termini di struttura, ha approssimativamente la stessa profondità di glm4.5 air e qwen3 30B A3B, 64 esperti totali invece di 128, ma attivano solo 5 invece di 9 se si conta l'esperto condiviso.