Den banbrytande utforskningen av LLM-arkitekturer har till stor del konvergerat. Jag grävde igenom HuggingFace transformers-koden för @Zai_org:s nyligen släppta GLM-5 (zai-org/GLM-5). Här är en detaljerad arkitektonisk genomgång och vad den berättar om vart LLM-design är på väg. TL; DR: Arkitektoniskt följer GLM-5 DeepSeek-V3 nära med mindre rattjusteringar. UPPMÄRKSAMHET: MLA ersätter GQA Den största förändringen från GLM-4.7 till GLM-5 är uppmärksamheten. GLM-4.7 använde standard Grouped Query Attention (GQA) med 96 Q-huvuden, 8 KV-huvuden, separata q/k/v-projektioner. GLM-5 skrotar allt detta och antar DeepSeeks Multi-head Latent Attention (MLA). I MLA-pipelinen går frågorna genom en LoRA-liknande tvåstegsprojektion: dolt -> q_a_proj till rank 2048 -> RMSNorm -> q_b_proj till 64 huvuden * 256 dim. Nycklar och värden komprimeras gemensamt till en enda lågrankad flaskhals: hidden -> kv_a_proj till rang 512+64 -> delas upp i en latent KV-väg och en RoPE-väg. Den latenta delen expanderas tillbaka via kv_b_proj till 64 huvuden (192 nej + 256 värde) dims. Detta är exakt samma MLA-design som DeepSeek-V3. GLM-5 justerar bara måtten: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128. kv_lora_rank (512) och qk_rope_head_dim (64) är identiska. Ingen partiskhet någonstans i uppmärksamheten (attention_bias är som standard Falsk). Varje projektion (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj och alla DSA-indexerprojektioner) är biasfri. Detta är nu standardpraxis; bland de stora modellerna som släpptes 2025 är det bara GPT-Kast som fortfarande använder uppmärksamhetsbias. ...