De grensverkenning van LLM-architecturen is grotendeels geconvergeerd. Ik heb door de HuggingFace transformers code gegraven voor @Zai_org's nieuw vrijgegeven GLM-5 (zai-org/GLM-5). Hier is een gedetailleerde architectonische analyse en wat het ons vertelt over de richting waarin LLM-ontwerp zich beweegt. TL;DR: Architectonisch volgt GLM-5 nauwkeurig DeepSeek-V3 met kleine aanpassingen. AANDACHT: MLA vervangt GQA De grootste verandering van GLM-4.7 naar GLM-5 is aandacht. GLM-4.7 gebruikte standaard Groep Gevraagde Aandacht (GQA) met 96 Q-koppen, 8 KV-koppen, aparte q/k/v-projecties. GLM-5 schrapt dat allemaal en adopteert DeepSeek's Multi-head Latent Attention (MLA). In de MLA-pijplijn gaan vragen door een LoRA-stijl tweefase-projectie: hidden -> q_a_proj naar rang 2048 -> RMSNorm -> q_b_proj naar 64 koppen * 256 dim. Sleutels en waarden worden gezamenlijk gecomprimeerd in een enkele low-rank bottleneck: hidden -> kv_a_proj naar rang 512+64 -> gesplitst in een latente KV-pad en een RoPE-pad. Het latente deel wordt terug uitgebreid via kv_b_proj naar 64 koppen van (192 nope + 256 waarde) dims. Dit is hetzelfde MLA-ontwerp als DeepSeek-V3. GLM-5 past alleen de dimensies aan: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128. De kv_lora_rank (512) en qk_rope_head_dim (64) zijn identiek. Ook is er geen bias ergens in de aandacht (attention_bias standaard op False). Elke projectie (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj, en alle DSA indexer projecties) is bias-vrij. Dit is nu standaardpraktijk; onder de belangrijkste modellen die in 2025 zijn uitgebracht, gebruikt alleen GPT-oss nog aandacht bias. ...