Исследование архитектур LLM на переднем крае в значительной степени сошлось. Я изучил код трансформеров HuggingFace для недавно выпущенного GLM-5 от @Zai_org (zai-org/GLM-5). Вот подробный разбор архитектуры и то, что он говорит нам о том, куда движется дизайн LLM. Кратко: архитектурно GLM-5 близок к DeepSeek-V3 с незначительной настройкой. ВНИМАНИЕ: MLA заменяет GQA Самое большое изменение от GLM-4.7 к GLM-5 — это внимание. GLM-4.7 использовал стандартное внимание с группированными запросами (GQA) с 96 Q головами, 8 KV головами, отдельными проекциями q/k/v. GLM-5 отказывается от всего этого и принимает многоголовое латентное внимание DeepSeek (MLA). В конвейере MLA запросы проходят через проекцию в два этапа в стиле LoRA: скрытое -> q_a_proj до ранга 2048 -> RMSNorm -> q_b_proj до 64 голов * 256 размерности. Ключи и значения совместно сжимаются в единую низкоранговую бутылочную горлышко: скрытое -> kv_a_proj до ранга 512+64 -> разделяется на латентный путь KV и путь RoPE. Латентная часть расширяется обратно через kv_b_proj в 64 головы размерности (192 nope + 256 значение). Это точно такой же дизайн MLA, как у DeepSeek-V3. GLM-5 просто настраивает размеры: q_lora_rank 2048 против 1536, v_head_dim 256 против 128, qk_nope_head_dim 192 против 128. kv_lora_rank (512) и qk_rope_head_dim (64) идентичны. Также нет смещения нигде в внимании (attention_bias по умолчанию False). Каждая проекция (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj и все проекции индексатора DSA) не имеет смещения. Это теперь стандартная практика; среди основных моделей, выпущенных в 2025 году, только GPT-oss все еще использует смещение внимания. ...