Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLM-arkkitehtuurien rajaseudun tutkimus on pitkälti yhdistynyt.
Kaivoin läpi HuggingFace-muuntajien koodin @Zai_org:n juuri julkaistulle GLM-5:lle (zai-org/GLM-5).
Tässä on yksityiskohtainen arkkitehtoninen erittely ja mitä se kertoo siitä, mihin LLM-suunnittelu on menossa.
TL; DR: Arkkitehtonisesti GLM-5 seuraa läheisesti DeepSeek-V3:a, mutta pienellä säätimen säädöllä.
HUOMIO: Kansanedustaja korvaa GQA:n
Suurin muutos GLM-4.7:stä GLM-5:een on huomio.
GLM-4.7 käytti standardia Grouped Query Attention (GQA) -toimintoa, jossa oli 96 Q-päitä, 8 KV päät ja erilliset q/k/v-projektiot.
GLM-5 hylkää kaiken tämän ja ottaa käyttöön DeepSeekin Multi-head Latent Attention (MLA) -järjestelmän.
MLA-putkessa kyselyt käyvät läpi LoRA-tyylisen kaksivaiheisen projektion:
piilotettu -> q_a_proj sijoitukseen 2048 -> RMSNorm -> q_b_proj 64 päälle * 256 himmeä.
Avaimet ja arvot tiivistetään yhdessä yhdeksi matalan tason pullonkaulaksi:
piilotettu -> kv_a_proj rank 512+64 -> jaettu latenttiin KV-polkuun ja RoPE-polkuun.
Piilevä osa laajennetaan takaisin kv_b_proj kautta 64 päähän (192 ei + 256 arvoa) dimejä.
Tämä on täsmälleen sama MLA-suunnittelu kuin DeepSeek-V3:ssa.
GLM-5 säätää vain mitat: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128.
kv_lora_rank (512) ja qk_rope_head_dim (64) ovat identtisiä.
Lisäksi huomiossa ei ole ennakkoluuloja (attention_bias oletuksena on epätosi).
Jokainen ennuste (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj ja kaikki DSA-indeksointiennusteet) on puolueeton.
Tämä on nykyään vakiokäytäntö; vuonna 2025 julkaistuista suurista malleista vain GPT-OSS käyttää edelleen huomioharhaa.
...
Johtavat
Rankkaus
Suosikit
