Die Grenzerforschung von LLM-Architekturen hat sich weitgehend konvergiert. Ich habe den HuggingFace-Transformers-Code für @Zai_org's neu veröffentlichtes GLM-5 (zai-org/GLM-5) durchforstet. Hier ist eine detaillierte architektonische Analyse und was sie uns über die Richtung des LLM-Designs sagt. TL;DR: Architektonisch folgt GLM-5 eng DeepSeek-V3 mit geringfügigen Anpassungen. ACHTUNG: MLA ersetzt GQA Die größte Änderung von GLM-4.7 zu GLM-5 ist die Aufmerksamkeit. GLM-4.7 verwendete die Standard Grouped Query Attention (GQA) mit 96 Q-Köpfen, 8 KV-Köpfen und separaten q/k/v-Projektionen. GLM-5 verwirft all das und übernimmt DeepSeek's Multi-head Latent Attention (MLA). In der MLA-Pipeline durchlaufen Abfragen eine LoRA-ähnliche zweistufige Projektion: hidden -> q_a_proj auf Rang 2048 -> RMSNorm -> q_b_proj auf 64 Köpfe * 256 dim. Schlüssel und Werte werden gemeinsam in einen einzigen Low-Rank-Flaschenhals komprimiert: hidden -> kv_a_proj auf Rang 512+64 -> aufgeteilt in einen latenten KV-Pfad und einen RoPE-Pfad. Der latente Teil wird über kv_b_proj zurück auf 64 Köpfe von (192 nope + 256 Wert) Dimensionen erweitert. Dies ist das genau gleiche MLA-Design wie bei DeepSeek-V3. GLM-5 passt nur die Dimensionen an: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128. Die kv_lora_rank (512) und qk_rope_head_dim (64) sind identisch. Außerdem gibt es keinen Bias irgendwo in der Aufmerksamkeit (attention_bias standardmäßig auf False). Jede Projektion (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj und alle DSA-Indexerprojektionen) ist biasfrei. Dies ist jetzt Standardpraxis; unter den großen Modellen, die 2025 veröffentlicht werden, verwendet nur GPT-oss weiterhin einen Aufmerksamkeitsbias. ...