Das GLM-Team verwendet jetzt MLA!! Das ist ein ziemlich verrücktes Modell mit insgesamt 30B Parametern und etwa 4B aktiv. Sehr schöne Veröffentlichung In Bezug auf die Struktur hat es ungefähr die gleiche Tiefe wie glm4.5 air und qwen3 30B A3B, 64 insgesamt Experten anstelle von 128, aber sie aktivieren nur 5 anstelle von 9, wenn man den gemeinsamen Experten zählt.