Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Die Grenzerforschung von LLM-Architekturen hat sich weitgehend konvergiert.
Ich habe den HuggingFace-Transformers-Code für @Zai_org's neu veröffentlichtes GLM-5 (zai-org/GLM-5) durchforstet.
Hier ist eine detaillierte architektonische Analyse und was sie uns über die Richtung des LLM-Designs sagt.
TL;DR: Architektonisch folgt GLM-5 eng DeepSeek-V3 mit geringfügigen Anpassungen.
ACHTUNG: MLA ersetzt GQA
Die größte Änderung von GLM-4.7 zu GLM-5 ist die Aufmerksamkeit.
GLM-4.7 verwendete die Standard Grouped Query Attention (GQA) mit 96 Q-Köpfen, 8 KV-Köpfen und separaten q/k/v-Projektionen.
GLM-5 verwirft all das und übernimmt DeepSeek's Multi-head Latent Attention (MLA).
In der MLA-Pipeline durchlaufen Abfragen eine LoRA-ähnliche zweistufige Projektion:
hidden -> q_a_proj auf Rang 2048 -> RMSNorm -> q_b_proj auf 64 Köpfe * 256 dim.
Schlüssel und Werte werden gemeinsam in einen einzigen Low-Rank-Flaschenhals komprimiert:
hidden -> kv_a_proj auf Rang 512+64 -> aufgeteilt in einen latenten KV-Pfad und einen RoPE-Pfad.
Der latente Teil wird über kv_b_proj zurück auf 64 Köpfe von (192 nope + 256 Wert) Dimensionen erweitert.
Dies ist das genau gleiche MLA-Design wie bei DeepSeek-V3.
GLM-5 passt nur die Dimensionen an: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128.
Die kv_lora_rank (512) und qk_rope_head_dim (64) sind identisch.
Außerdem gibt es keinen Bias irgendwo in der Aufmerksamkeit (attention_bias standardmäßig auf False).
Jede Projektion (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj und alle DSA-Indexerprojektionen) ist biasfrei.
Dies ist jetzt Standardpraxis; unter den großen Modellen, die 2025 veröffentlicht werden, verwendet nur GPT-oss weiterhin einen Aufmerksamkeitsbias.
...
Top
Ranking
Favoriten
