Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Eksploracja architektur LLM na granicy w dużej mierze się zbiega.
Przeszukałem kod transformatorów HuggingFace dla nowo wydanego GLM-5 od @Zai_org (zai-org/GLM-5).
Oto szczegółowy przegląd architektury i to, co mówi nam o kierunku projektowania LLM.
TL;DR: Architektonicznie, GLM-5 ściśle podąża za DeepSeek-V3 z drobnymi dostosowaniami.
UWAGA: MLA zastępuje GQA
Największą zmianą z GLM-4.7 do GLM-5 jest uwaga.
GLM-4.7 używał standardowej uwagi grupowej (GQA) z 96 głowami Q, 8 głowami KV, oddzielnymi projekcjami q/k/v.
GLM-5 porzuca to wszystko i przyjmuje wielogłową ukrytą uwagę DeepSeek (MLA).
W pipeline MLA, zapytania przechodzą przez dwustopniową projekcję w stylu LoRA:
ukryte -> q_a_proj do rangi 2048 -> RMSNorm -> q_b_proj do 64 głów * 256 wymiarów.
Klucze i wartości są wspólnie kompresowane do jednego wąskiego miejsca o niskiej randze:
ukryte -> kv_a_proj do rangi 512+64 -> podzielone na ścieżkę latentną KV i ścieżkę RoPE.
Część latentna jest rozszerzana z powrotem przez kv_b_proj do 64 głów o wymiarach (192 nope + 256 wartość).
To jest dokładnie ten sam projekt MLA co DeepSeek-V3.
GLM-5 po prostu dostosowuje wymiary: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128.
kv_lora_rank (512) i qk_rope_head_dim (64) są identyczne.
Również, brak jakiejkolwiek bias w uwadze (attention_bias domyślnie ustawione na False).
Każda projekcja (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj i wszystkie projekcje indeksera DSA) jest wolna od bias.
To jest teraz standardowa praktyka; wśród głównych modeli wydanych w 2025 roku, tylko GPT-oss nadal używa bias w uwadze.
...
Najlepsze
Ranking
Ulubione
