Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Den banbrytande utforskningen av LLM-arkitekturer har till stor del konvergerat.
Jag grävde igenom HuggingFace transformers-koden för @Zai_org:s nyligen släppta GLM-5 (zai-org/GLM-5).
Här är en detaljerad arkitektonisk genomgång och vad den berättar om vart LLM-design är på väg.
TL; DR: Arkitektoniskt följer GLM-5 DeepSeek-V3 nära med mindre rattjusteringar.
UPPMÄRKSAMHET: MLA ersätter GQA
Den största förändringen från GLM-4.7 till GLM-5 är uppmärksamheten.
GLM-4.7 använde standard Grouped Query Attention (GQA) med 96 Q-huvuden, 8 KV-huvuden, separata q/k/v-projektioner.
GLM-5 skrotar allt detta och antar DeepSeeks Multi-head Latent Attention (MLA).
I MLA-pipelinen går frågorna genom en LoRA-liknande tvåstegsprojektion:
dolt -> q_a_proj till rank 2048 -> RMSNorm -> q_b_proj till 64 huvuden * 256 dim.
Nycklar och värden komprimeras gemensamt till en enda lågrankad flaskhals:
hidden -> kv_a_proj till rang 512+64 -> delas upp i en latent KV-väg och en RoPE-väg.
Den latenta delen expanderas tillbaka via kv_b_proj till 64 huvuden (192 nej + 256 värde) dims.
Detta är exakt samma MLA-design som DeepSeek-V3.
GLM-5 justerar bara måtten: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128.
kv_lora_rank (512) och qk_rope_head_dim (64) är identiska.
Ingen partiskhet någonstans i uppmärksamheten (attention_bias är som standard Falsk).
Varje projektion (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj och alla DSA-indexerprojektioner) är biasfri.
Detta är nu standardpraxis; bland de stora modellerna som släpptes 2025 är det bara GPT-Kast som fortfarande använder uppmärksamhetsbias.
...
Topp
Rankning
Favoriter
