LLM-arkkitehtuurien rajaseudun tutkimus on pitkälti yhdistynyt. Kaivoin läpi HuggingFace-muuntajien koodin @Zai_org:n juuri julkaistulle GLM-5:lle (zai-org/GLM-5). Tässä on yksityiskohtainen arkkitehtoninen erittely ja mitä se kertoo siitä, mihin LLM-suunnittelu on menossa. TL; DR: Arkkitehtonisesti GLM-5 seuraa läheisesti DeepSeek-V3:a, mutta pienellä säätimen säädöllä. HUOMIO: Kansanedustaja korvaa GQA:n Suurin muutos GLM-4.7:stä GLM-5:een on huomio. GLM-4.7 käytti standardia Grouped Query Attention (GQA) -toimintoa, jossa oli 96 Q-päitä, 8 KV päät ja erilliset q/k/v-projektiot. GLM-5 hylkää kaiken tämän ja ottaa käyttöön DeepSeekin Multi-head Latent Attention (MLA) -järjestelmän. MLA-putkessa kyselyt käyvät läpi LoRA-tyylisen kaksivaiheisen projektion: piilotettu -> q_a_proj sijoitukseen 2048 -> RMSNorm -> q_b_proj 64 päälle * 256 himmeä. Avaimet ja arvot tiivistetään yhdessä yhdeksi matalan tason pullonkaulaksi: piilotettu -> kv_a_proj rank 512+64 -> jaettu latenttiin KV-polkuun ja RoPE-polkuun. Piilevä osa laajennetaan takaisin kv_b_proj kautta 64 päähän (192 ei + 256 arvoa) dimejä. Tämä on täsmälleen sama MLA-suunnittelu kuin DeepSeek-V3:ssa. GLM-5 säätää vain mitat: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128. kv_lora_rank (512) ja qk_rope_head_dim (64) ovat identtisiä. Lisäksi huomiossa ei ole ennakkoluuloja (attention_bias oletuksena on epätosi). Jokainen ennuste (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj ja kaikki DSA-indeksointiennusteet) on puolueeton. Tämä on nykyään vakiokäytäntö; vuonna 2025 julkaistuista suurista malleista vain GPT-OSS käyttää edelleen huomioharhaa. ...