Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Průzkum LLM architektur se do značné míry sblížil.
Prohrabal jsem se kódem HuggingFace transformátorů pro nově vydaný @Zai_org GLM-5 (zai-org/GLM-5).
Zde je podrobný architektonický rozbor a co nám říká o tom, kam směřuje návrh LLM.
Stručně; DR: Architektonicky GLM-5 velmi následuje DeepSeek-V3 s drobným laděním knoflíků.
POZOR: MLA nahrazuje GQA
Největší změnou mezi modelem GLM-4.7 a GLM-5 je pozornost.
GLM-4.7 používal standardní Grouped Query Attention (GQA) s 96 Q hlavami, 8 KV hlavami a samostatnými q/k/v projekcemi.
GLM-5 to všechno ruší a přejímá DeepSeek Multi-head Latent Attention (MLA).
V MLA pipeline probíhají dotazy přes dvoufázovou projekci ve stylu LoRA:
skryté -> q_a_proj na pořadí 2048 -> RMSNorm -> q_b_proj do 64 hlav * 256 dim.
Klíče a hodnoty jsou společně komprimovány do jednoho nízkohodnotného úzkého hrdla:
skryté -> kv_a_proj na pořadí 512+64 -> rozdělené na latentní KV cestu a RoPE cestu.
Latentní část se rozšiřuje zpět kv_b_proj na 64 hlav (192 ne + 256 hodnot) dimů.
Je to přesně stejný design MLA jako DeepSeek-V3.
GLM-5 jen ladí rozměry: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128.
kv_lora_rank (512) a qk_rope_head_dim (64) jsou totožné.
Také žádná zaujatost v pozornosti (attention_bias výchozí nastavení je Nepravdivé).
Každá projekce (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj a všechny projekce indexeru DSA) je bez zkreslení.
To je nyní standardní praxe; Mezi hlavními modely vydanými v roce 2025 používá pozornost zkreslení pouze GPT-OSS.
...
Top
Hodnocení
Oblíbené
