Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Eksplorasi perbatasan arsitektur LLM sebagian besar telah menyatu.
Saya menggali kode transformator HuggingFace untuk GLM-5 yang baru dirilis @Zai_org (zai-org/GLM-5).
Berikut adalah rincian arsitektur terperinci, dan apa yang diberitahukannya kepada kita tentang ke mana arah desain LLM.
TL; DR: Secara arsitektur, GLM-5 mengikuti DeepSeek-V3 dengan penyetelan kenop kecil.
PERHATIAN: MLA menggantikan GQA
Perubahan terbesar dari GLM-4.7 ke GLM-5 adalah perhatian.
GLM-4.7 menggunakan Grouped Query Attention (GQA) standar dengan 96 kepala Q, kepala 8 KV, proyeksi q/k/v terpisah.
GLM-5 membuang semua itu dan mengadopsi Perhatian Laten Multi-kepala (MLA) DeepSeek.
Dalam alur MLA, kueri melalui proyeksi dua tahap gaya LoRA:
tersembunyi -> q_a_proj ke peringkat 2048 -> RMSNorm -> q_b_proj ke 64 kepala * 256 redup.
Kunci dan nilai dikompresi bersama-sama menjadi satu kemacetan peringkat rendah:
tersembunyi -> kv_a_proj ke peringkat 512+64 -> dibagi menjadi jalur KV laten dan jalur RoPE.
Bagian laten diperluas kembali melalui kv_b_proj menjadi 64 kepala (192 nope + 256 nilai) redup.
Ini adalah desain MLA yang sama persis dengan DeepSeek-V3.
GLM-5 hanya menyetel dimensi: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128.
kv_lora_rank (512) dan qk_rope_head_dim (64) identik.
Juga, tidak ada bias di mana pun dalam perhatian (attention_bias default ke False).
Setiap proyeksi (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj, dan semua proyeksi pengindeks DSA) bebas bias.
Ini sekarang menjadi praktik standar; di antara model utama yang dirilis pada tahun 2025, hanya GPT-oss yang masih menggunakan bias perhatian.
...
Teratas
Peringkat
Favorit
