Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Explorarea de frontieră a arhitecturilor LLM s-a reunit în mare măsură.
Am răsfoit codul HuggingFace transformers pentru noul GLM-5 lansat de @Zai_org (zai-org/GLM-5).
Iată o analiză arhitecturală detaliată și ce ne spune despre direcția în care se îndreaptă designul LLM-urilor.
Pe scurt; DR: Din punct de vedere arhitectural, GLM-5 urmează îndeaproape DeepSeek-V3 cu reglaje minore la butoane.
ATENȚIE: MLA înlocuiește GQA
Cea mai mare schimbare de la GLM-4.7 la GLM-5 este atenția.
GLM-4.7 folosea Atenția Grupată a Interogărilor (GQA) standard cu 96 de capete Q, 8 capete KV, proiecții separate q/k/v.
GLM-5 renunță la toate acestea și adoptă Multi-head Latent Attention (MLA) de la DeepSeek.
În pipeline-ul MLA, interogările trec printr-o proiecție în două etape în stil LoRA:
ascuns -> q_a_proj la rangul 2048 -> RMSNorm -> q_b_proj la 64 capete * 256 dim.
Cheile și valorile sunt comprimate împreună într-un singur blocaj de rang scăzut:
ascuns -> kv_a_proj la rangul 512+64 -> împărțit într-o cale KV latentă și o cale RoPE.
Partea latentă este extinsă înapoi prin kv_b_proj în 64 de capete de (192 nope + 256 valoare) dims.
Acesta este exact același design MLA ca DeepSeek-V3.
GLM-5 doar reglează dimensiunile: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128.
kv_lora_rank (512) și qk_rope_head_dim (64) sunt identice.
De asemenea, nu există nicio părtinire în atenție (attention_bias implicit pe Fals).
Fiecare proiecție (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj și toate proiecțiile indexatelor DSA) este lipsită de biais.
Aceasta este acum o practică standard; dintre modelele majore lansate în 2025, doar GPT-OSS folosește încă biasul de atenție.
...
Limită superioară
Clasament
Favorite
