Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Utforskningen av LLM-arkitekturer har i stor grad konvergert.
Jeg gravde gjennom HuggingFace transformers-koden for @Zai_org sin nylig lanserte GLM-5 (zai-org/GLM-5).
Her er en detaljert arkitektonisk gjennomgang, og hva den forteller oss om hvor LLM-design er på vei.
TL; DR: Arkitektonisk følger GLM-5 tett DeepSeek-V3 med mindre knappjustering.
OPPMERKSOMHET: MLA erstatter GQA
Den største endringen fra GLM-4.7 til GLM-5 er oppmerksomhet.
GLM-4.7 brukte standard Grouped Query Attention (GQA) med 96 Q-hoder, 8 KV-hoder, separate q/k/v-projeksjoner.
GLM-5 forkaster alt dette og tar i bruk DeepSeeks Multi-head Latent Attention (MLA).
I MLA-pipelinen går spørringene gjennom en LoRA-lignende to-trinns projeksjon:
skjult -> q_a_proj til rangering 2048 -> RMSNorm -> q_b_proj til 64 hoder * 256 svak.
Nøkler og verdier komprimeres sammen til en enkelt lavrang flaskehals:
skjult -> kv_a_proj til rang 512+64 -> delt i en latent KV-sti og en RoPE-sti.
Den latente delen utvides tilbake via kv_b_proj til 64 hoder (192 nei + 256 verdi) dims.
Dette er nøyaktig samme MLA-design som DeepSeek-V3.
GLM-5 justerer bare dimensjonene: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128.
kv_lora_rank (512) og qk_rope_head_dim (64) er identiske.
Også, ingen partiskhet noe sted i oppmerksomheten (attention_bias går som standard til Falsk).
Hver projeksjon (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj og alle DSA-indekseringsprojeksjoner) er biasfri.
Dette er nå standard praksis; blant de store modellene som ble lansert i 2025, er det kun GPT-Oss som fortsatt bruker oppmerksomhetsbias.
...
Topp
Rangering
Favoritter
