Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Исследование архитектур LLM на переднем крае в значительной степени сошлось.
Я изучил код трансформеров HuggingFace для недавно выпущенного GLM-5 от @Zai_org (zai-org/GLM-5).
Вот подробный разбор архитектуры и то, что он говорит нам о том, куда движется дизайн LLM.
Кратко: архитектурно GLM-5 близок к DeepSeek-V3 с незначительной настройкой.
ВНИМАНИЕ: MLA заменяет GQA
Самое большое изменение от GLM-4.7 к GLM-5 — это внимание.
GLM-4.7 использовал стандартное внимание с группированными запросами (GQA) с 96 Q головами, 8 KV головами, отдельными проекциями q/k/v.
GLM-5 отказывается от всего этого и принимает многоголовое латентное внимание DeepSeek (MLA).
В конвейере MLA запросы проходят через проекцию в два этапа в стиле LoRA:
скрытое -> q_a_proj до ранга 2048 -> RMSNorm -> q_b_proj до 64 голов * 256 размерности.
Ключи и значения совместно сжимаются в единую низкоранговую бутылочную горлышко:
скрытое -> kv_a_proj до ранга 512+64 -> разделяется на латентный путь KV и путь RoPE.
Латентная часть расширяется обратно через kv_b_proj в 64 головы размерности (192 nope + 256 значение).
Это точно такой же дизайн MLA, как у DeepSeek-V3.
GLM-5 просто настраивает размеры: q_lora_rank 2048 против 1536, v_head_dim 256 против 128, qk_nope_head_dim 192 против 128.
kv_lora_rank (512) и qk_rope_head_dim (64) идентичны.
Также нет смещения нигде в внимании (attention_bias по умолчанию False).
Каждая проекция (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj и все проекции индексатора DSA) не имеет смещения.
Это теперь стандартная практика; среди основных моделей, выпущенных в 2025 году, только GPT-oss все еще использует смещение внимания.
...
Топ
Рейтинг
Избранное
