Průzkum LLM architektur se do značné míry sblížil. Prohrabal jsem se kódem HuggingFace transformátorů pro nově vydaný @Zai_org GLM-5 (zai-org/GLM-5). Zde je podrobný architektonický rozbor a co nám říká o tom, kam směřuje návrh LLM. Stručně; DR: Architektonicky GLM-5 velmi následuje DeepSeek-V3 s drobným laděním knoflíků. POZOR: MLA nahrazuje GQA Největší změnou mezi modelem GLM-4.7 a GLM-5 je pozornost. GLM-4.7 používal standardní Grouped Query Attention (GQA) s 96 Q hlavami, 8 KV hlavami a samostatnými q/k/v projekcemi. GLM-5 to všechno ruší a přejímá DeepSeek Multi-head Latent Attention (MLA). V MLA pipeline probíhají dotazy přes dvoufázovou projekci ve stylu LoRA: skryté -> q_a_proj na pořadí 2048 -> RMSNorm -> q_b_proj do 64 hlav * 256 dim. Klíče a hodnoty jsou společně komprimovány do jednoho nízkohodnotného úzkého hrdla: skryté -> kv_a_proj na pořadí 512+64 -> rozdělené na latentní KV cestu a RoPE cestu. Latentní část se rozšiřuje zpět kv_b_proj na 64 hlav (192 ne + 256 hodnot) dimů. Je to přesně stejný design MLA jako DeepSeek-V3. GLM-5 jen ladí rozměry: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128. kv_lora_rank (512) a qk_rope_head_dim (64) jsou totožné. Také žádná zaujatost v pozornosti (attention_bias výchozí nastavení je Nepravdivé). Každá projekce (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj a všechny projekce indexeru DSA) je bez zkreslení. To je nyní standardní praxe; Mezi hlavními modely vydanými v roce 2025 používá pozornost zkreslení pouze GPT-OSS. ...