Дослідження архітектур LLM здебільшого зійшлися. Я переглянув код трансформерів HuggingFace для нещодавно випущеного GLM-5 @Zai_org (zai-org/GLM-5). Ось детальний архітектурний розбір і те, що він розповідає про те, куди рухається дизайн LLM. Коротко; DR: Архітектурно GLM-5 дуже наслідує DeepSeek-V3 з незначними налаштуваннями ручок. УВАГА: MLA замінює GQA Найбільша зміна з GLM-4.7 на GLM-5 — це увага. GLM-4.7 використовував стандартну груповану увагу запитів (GQA) з 96 головками Q, 8 KV, окремими q/k/v проєкціями. GLM-5 відмовляється від усього цього і приймає Multi-head Latent Attention (MLA) від DeepSeek. У конвеєрі MLA запити проходять через двоетапну проекцію в стилі LoRA: hidden -> q_a_proj до рангу 2048 -> RMSNorm -> q_b_proj до 64 голів * 256 dim. Ключі та значення спільно стискаються в одному вузькому місці низького рангу: hidden -> kv_a_proj до рангу 512+64 -> розділено на латентний шлях KV і шлях RoPE. Латентна частина розширюється назад через kv_b_proj до 64 голів (192 no + 256 значення) затемнень. Це точно той самий дизайн MLA, що й DeepSeek-V3. GLM-5 просто налаштовує розміри: q_lora_rank 2048 проти 1536, v_head_dim 256 проти 128, qk_nope_head_dim 192 проти 128. kv_lora_rank (512) і qk_rope_head_dim (64) ідентичні. Також немає упередженості в увазі (attention_bias за замовчуванням False). Кожна проекція (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj та всі проекції індексаторів DSA) є безупередженою. Тепер це стало стандартною практикою; серед основних моделей, випущених у 2025 році, лише GPT-OSS досі використовує урахування уваги. ...