Explorarea de frontieră a arhitecturilor LLM s-a reunit în mare măsură. Am răsfoit codul HuggingFace transformers pentru noul GLM-5 lansat de @Zai_org (zai-org/GLM-5). Iată o analiză arhitecturală detaliată și ce ne spune despre direcția în care se îndreaptă designul LLM-urilor. Pe scurt; DR: Din punct de vedere arhitectural, GLM-5 urmează îndeaproape DeepSeek-V3 cu reglaje minore la butoane. ATENȚIE: MLA înlocuiește GQA Cea mai mare schimbare de la GLM-4.7 la GLM-5 este atenția. GLM-4.7 folosea Atenția Grupată a Interogărilor (GQA) standard cu 96 de capete Q, 8 capete KV, proiecții separate q/k/v. GLM-5 renunță la toate acestea și adoptă Multi-head Latent Attention (MLA) de la DeepSeek. În pipeline-ul MLA, interogările trec printr-o proiecție în două etape în stil LoRA: ascuns -> q_a_proj la rangul 2048 -> RMSNorm -> q_b_proj la 64 capete * 256 dim. Cheile și valorile sunt comprimate împreună într-un singur blocaj de rang scăzut: ascuns -> kv_a_proj la rangul 512+64 -> împărțit într-o cale KV latentă și o cale RoPE. Partea latentă este extinsă înapoi prin kv_b_proj în 64 de capete de (192 nope + 256 valoare) dims. Acesta este exact același design MLA ca DeepSeek-V3. GLM-5 doar reglează dimensiunile: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128. kv_lora_rank (512) și qk_rope_head_dim (64) sunt identice. De asemenea, nu există nicio părtinire în atenție (attention_bias implicit pe Fals). Fiecare proiecție (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj și toate proiecțiile indexatelor DSA) este lipsită de biais. Aceasta este acum o practică standard; dintre modelele majore lansate în 2025, doar GPT-OSS folosește încă biasul de atenție. ...