Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Дослідження архітектур LLM здебільшого зійшлися.
Я переглянув код трансформерів HuggingFace для нещодавно випущеного GLM-5 @Zai_org (zai-org/GLM-5).
Ось детальний архітектурний розбір і те, що він розповідає про те, куди рухається дизайн LLM.
Коротко; DR: Архітектурно GLM-5 дуже наслідує DeepSeek-V3 з незначними налаштуваннями ручок.
УВАГА: MLA замінює GQA
Найбільша зміна з GLM-4.7 на GLM-5 — це увага.
GLM-4.7 використовував стандартну груповану увагу запитів (GQA) з 96 головками Q, 8 KV, окремими q/k/v проєкціями.
GLM-5 відмовляється від усього цього і приймає Multi-head Latent Attention (MLA) від DeepSeek.
У конвеєрі MLA запити проходять через двоетапну проекцію в стилі LoRA:
hidden -> q_a_proj до рангу 2048 -> RMSNorm -> q_b_proj до 64 голів * 256 dim.
Ключі та значення спільно стискаються в одному вузькому місці низького рангу:
hidden -> kv_a_proj до рангу 512+64 -> розділено на латентний шлях KV і шлях RoPE.
Латентна частина розширюється назад через kv_b_proj до 64 голів (192 no + 256 значення) затемнень.
Це точно той самий дизайн MLA, що й DeepSeek-V3.
GLM-5 просто налаштовує розміри: q_lora_rank 2048 проти 1536, v_head_dim 256 проти 128, qk_nope_head_dim 192 проти 128.
kv_lora_rank (512) і qk_rope_head_dim (64) ідентичні.
Також немає упередженості в увазі (attention_bias за замовчуванням False).
Кожна проекція (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj та всі проекції індексаторів DSA) є безупередженою.
Тепер це стало стандартною практикою; серед основних моделей, випущених у 2025 році, лише GPT-OSS досі використовує урахування уваги.
...
Найкращі
Рейтинг
Вибране
