トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLMアーキテクチャの最前線探求はほぼ収束しています。
@Zai_orgの新たにリリースされたGLM-5(zai-org/GLM-5)のHuggingFaceトランスのコードを掘り下げました。
ここに詳細なアーキテクチャの分析と、それがLLM設計の今後の方向性を示しています。
要約:要点:アーキテクチャ的には、GLM-5はDeepSeek-V3に非常に近いが、ノブの調整が少し異なります。
注意:MLAがGQAに代わる
GLM-4.7からGLM-5への最大の変化は注意です。
GLM-4.7は標準のグループドクエリアテンション(GQA)を使用し、96のQヘッド、8KVヘッド、別々のq/k/vプロジェクションを備えていました。
GLM-5はそれらをすべて廃止し、DeepSeekのマルチヘッド・ラテントアテンション(MLA)を採用しました。
MLAパイプラインでは、クエリはLoRAスタイルの2段階プロジェクションを通過します。
隠し -> q_a_projからランク2048へ -> RMSNorm -> q_b_proj 64 ヘッド * 256 dim。
キーと値は一つの低ランクのボトルネックにまとめて圧縮されます:
隠された-> kv_a_projは512+64のランクへ、->は潜在KVパスとRoPEパスに分かれます。
潜在部分はkv_b_projで64ヘッド(192ノープ+256の価値)ディムに展開されます。
これはDeepSeek-V3とまったく同じMLA設計です。
GLM-5は寸法を調整するだけです:q_lora_rank 2048 vs 1536、v_head_dim 256 vs 128、qk_nope_head_dim 192 vs 128。
kv_lora_rank(512)とqk_rope_head_dim(64)は同一です。
また、注意に偏りは一切ありません(attention_biasデフォルトはFalseです)。
すべての投影(q_a_proj、q_b_proj、kv_a_proj、kv_b_proj、o_proj、そしてすべてのDSAインデクサー投影)はバイアスフリーです。
これは現在標準的な慣行となっている。2025年にリリースされた主要なモデルの中で、まだ注意バイアスを使っているのはGPT-OSSだけです。
...
トップ
ランキング
お気に入り
