Eksplorasi perbatasan arsitektur LLM sebagian besar telah menyatu. Saya menggali kode transformator HuggingFace untuk GLM-5 yang baru dirilis @Zai_org (zai-org/GLM-5). Berikut adalah rincian arsitektur terperinci, dan apa yang diberitahukannya kepada kita tentang ke mana arah desain LLM. TL; DR: Secara arsitektur, GLM-5 mengikuti DeepSeek-V3 dengan penyetelan kenop kecil. PERHATIAN: MLA menggantikan GQA Perubahan terbesar dari GLM-4.7 ke GLM-5 adalah perhatian. GLM-4.7 menggunakan Grouped Query Attention (GQA) standar dengan 96 kepala Q, kepala 8 KV, proyeksi q/k/v terpisah. GLM-5 membuang semua itu dan mengadopsi Perhatian Laten Multi-kepala (MLA) DeepSeek. Dalam alur MLA, kueri melalui proyeksi dua tahap gaya LoRA: tersembunyi -> q_a_proj ke peringkat 2048 -> RMSNorm -> q_b_proj ke 64 kepala * 256 redup. Kunci dan nilai dikompresi bersama-sama menjadi satu kemacetan peringkat rendah: tersembunyi -> kv_a_proj ke peringkat 512+64 -> dibagi menjadi jalur KV laten dan jalur RoPE. Bagian laten diperluas kembali melalui kv_b_proj menjadi 64 kepala (192 nope + 256 nilai) redup. Ini adalah desain MLA yang sama persis dengan DeepSeek-V3. GLM-5 hanya menyetel dimensi: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128. kv_lora_rank (512) dan qk_rope_head_dim (64) identik. Juga, tidak ada bias di mana pun dalam perhatian (attention_bias default ke False). Setiap proyeksi (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj, dan semua proyeksi pengindeks DSA) bebas bias. Ini sekarang menjadi praktik standar; di antara model utama yang dirilis pada tahun 2025, hanya GPT-oss yang masih menggunakan bias perhatian. ...