LLMアーキテクチャの最前線探求はほぼ収束しています。 @Zai_orgの新たにリリースされたGLM-5(zai-org/GLM-5)のHuggingFaceトランスのコードを掘り下げました。 ここに詳細なアーキテクチャの分析と、それがLLM設計の今後の方向性を示しています。 要約:要点:アーキテクチャ的には、GLM-5はDeepSeek-V3に非常に近いが、ノブの調整が少し異なります。 注意:MLAがGQAに代わる GLM-4.7からGLM-5への最大の変化は注意です。 GLM-4.7は標準のグループドクエリアテンション(GQA)を使用し、96のQヘッド、8KVヘッド、別々のq/k/vプロジェクションを備えていました。 GLM-5はそれらをすべて廃止し、DeepSeekのマルチヘッド・ラテントアテンション(MLA)を採用しました。 MLAパイプラインでは、クエリはLoRAスタイルの2段階プロジェクションを通過します。 隠し -> q_a_projからランク2048へ -> RMSNorm -> q_b_proj 64 ヘッド * 256 dim。 キーと値は一つの低ランクのボトルネックにまとめて圧縮されます: 隠された-> kv_a_projは512+64のランクへ、->は潜在KVパスとRoPEパスに分かれます。 潜在部分はkv_b_projで64ヘッド(192ノープ+256の価値)ディムに展開されます。 これはDeepSeek-V3とまったく同じMLA設計です。 GLM-5は寸法を調整するだけです:q_lora_rank 2048 vs 1536、v_head_dim 256 vs 128、qk_nope_head_dim 192 vs 128。 kv_lora_rank(512)とqk_rope_head_dim(64)は同一です。 また、注意に偏りは一切ありません(attention_biasデフォルトはFalseです)。 すべての投影(q_a_proj、q_b_proj、kv_a_proj、kv_b_proj、o_proj、そしてすべてのDSAインデクサー投影)はバイアスフリーです。 これは現在標準的な慣行となっている。2025年にリリースされた主要なモデルの中で、まだ注意バイアスを使っているのはGPT-OSSだけです。 ...