Eksploracja architektur LLM na granicy w dużej mierze się zbiega. Przeszukałem kod transformatorów HuggingFace dla nowo wydanego GLM-5 od @Zai_org (zai-org/GLM-5). Oto szczegółowy przegląd architektury i to, co mówi nam o kierunku projektowania LLM. TL;DR: Architektonicznie, GLM-5 ściśle podąża za DeepSeek-V3 z drobnymi dostosowaniami. UWAGA: MLA zastępuje GQA Największą zmianą z GLM-4.7 do GLM-5 jest uwaga. GLM-4.7 używał standardowej uwagi grupowej (GQA) z 96 głowami Q, 8 głowami KV, oddzielnymi projekcjami q/k/v. GLM-5 porzuca to wszystko i przyjmuje wielogłową ukrytą uwagę DeepSeek (MLA). W pipeline MLA, zapytania przechodzą przez dwustopniową projekcję w stylu LoRA: ukryte -> q_a_proj do rangi 2048 -> RMSNorm -> q_b_proj do 64 głów * 256 wymiarów. Klucze i wartości są wspólnie kompresowane do jednego wąskiego miejsca o niskiej randze: ukryte -> kv_a_proj do rangi 512+64 -> podzielone na ścieżkę latentną KV i ścieżkę RoPE. Część latentna jest rozszerzana z powrotem przez kv_b_proj do 64 głów o wymiarach (192 nope + 256 wartość). To jest dokładnie ten sam projekt MLA co DeepSeek-V3. GLM-5 po prostu dostosowuje wymiary: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128. kv_lora_rank (512) i qk_rope_head_dim (64) są identyczne. Również, brak jakiejkolwiek bias w uwadze (attention_bias domyślnie ustawione na False). Każda projekcja (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj i wszystkie projekcje indeksera DSA) jest wolna od bias. To jest teraz standardowa praktyka; wśród głównych modeli wydanych w 2025 roku, tylko GPT-oss nadal używa bias w uwadze. ...