Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
De grensverkenning van LLM-architecturen is grotendeels geconvergeerd.
Ik heb door de HuggingFace transformers code gegraven voor @Zai_org's nieuw vrijgegeven GLM-5 (zai-org/GLM-5).
Hier is een gedetailleerde architectonische analyse en wat het ons vertelt over de richting waarin LLM-ontwerp zich beweegt.
TL;DR: Architectonisch volgt GLM-5 nauwkeurig DeepSeek-V3 met kleine aanpassingen.
AANDACHT: MLA vervangt GQA
De grootste verandering van GLM-4.7 naar GLM-5 is aandacht.
GLM-4.7 gebruikte standaard Groep Gevraagde Aandacht (GQA) met 96 Q-koppen, 8 KV-koppen, aparte q/k/v-projecties.
GLM-5 schrapt dat allemaal en adopteert DeepSeek's Multi-head Latent Attention (MLA).
In de MLA-pijplijn gaan vragen door een LoRA-stijl tweefase-projectie:
hidden -> q_a_proj naar rang 2048 -> RMSNorm -> q_b_proj naar 64 koppen * 256 dim.
Sleutels en waarden worden gezamenlijk gecomprimeerd in een enkele low-rank bottleneck:
hidden -> kv_a_proj naar rang 512+64 -> gesplitst in een latente KV-pad en een RoPE-pad.
Het latente deel wordt terug uitgebreid via kv_b_proj naar 64 koppen van (192 nope + 256 waarde) dims.
Dit is hetzelfde MLA-ontwerp als DeepSeek-V3.
GLM-5 past alleen de dimensies aan: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128.
De kv_lora_rank (512) en qk_rope_head_dim (64) zijn identiek.
Ook is er geen bias ergens in de aandacht (attention_bias standaard op False).
Elke projectie (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj, en alle DSA indexer projecties) is bias-vrij.
Dit is nu standaardpraktijk; onder de belangrijkste modellen die in 2025 zijn uitgebracht, gebruikt alleen GPT-oss nog aandacht bias.
...
Boven
Positie
Favorieten
