Utforskningen av LLM-arkitekturer har i stor grad konvergert. Jeg gravde gjennom HuggingFace transformers-koden for @Zai_org sin nylig lanserte GLM-5 (zai-org/GLM-5). Her er en detaljert arkitektonisk gjennomgang, og hva den forteller oss om hvor LLM-design er på vei. TL; DR: Arkitektonisk følger GLM-5 tett DeepSeek-V3 med mindre knappjustering. OPPMERKSOMHET: MLA erstatter GQA Den største endringen fra GLM-4.7 til GLM-5 er oppmerksomhet. GLM-4.7 brukte standard Grouped Query Attention (GQA) med 96 Q-hoder, 8 KV-hoder, separate q/k/v-projeksjoner. GLM-5 forkaster alt dette og tar i bruk DeepSeeks Multi-head Latent Attention (MLA). I MLA-pipelinen går spørringene gjennom en LoRA-lignende to-trinns projeksjon: skjult -> q_a_proj til rangering 2048 -> RMSNorm -> q_b_proj til 64 hoder * 256 svak. Nøkler og verdier komprimeres sammen til en enkelt lavrang flaskehals: skjult -> kv_a_proj til rang 512+64 -> delt i en latent KV-sti og en RoPE-sti. Den latente delen utvides tilbake via kv_b_proj til 64 hoder (192 nei + 256 verdi) dims. Dette er nøyaktig samme MLA-design som DeepSeek-V3. GLM-5 justerer bare dimensjonene: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128. kv_lora_rank (512) og qk_rope_head_dim (64) er identiske. Også, ingen partiskhet noe sted i oppmerksomheten (attention_bias går som standard til Falsk). Hver projeksjon (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj og alle DSA-indekseringsprojeksjoner) er biasfri. Dette er nå standard praksis; blant de store modellene som ble lansert i 2025, er det kun GPT-Oss som fortsatt bruker oppmerksomhetsbias. ...