LLM mimarilerinin sınır keşfi büyük ölçüde birleşmiştir. @Zai_org'nin yeni çıkan GLM-5 (zai-org/GLM-5) için HuggingFace transformers kodunu inceledim. İşte ayrıntılı bir mimari analiz ve LLM tasarımının nereye gittiği hakkında bize ne anlattığı anlatım. Özet; DR: Mimari olarak, GLM-5 DeepSeek-V3'ü küçük düğme ayarlarıyla yakından takip ediyor. DİKAT: Milletvekili GQA'nın yerini aldı GLM-4.7'den GLM-5'e en büyük değişiklik dikkat çekmek. GLM-4.7, standart Gruplı Sorgu Dikkati (GQA) kullanıyordu; 96 Q başlığı, 8 KV başlığı ve ayrı q/k/v projeksiyonları bulunuyordu. GLM-5 bunların hepsini bir kenara bırakır ve DeepSeek'in Çok Başlı Gizli Dikkat (MLA) sistemini benimser. MLA pipeline'da sorgular LoRA tarzı iki aşamalı bir projeksiyondan geçer: gizli -> q_a_proj 2048 derecesine -> RMSNorm -> q_b_proj 64 kafaya * 256 dim. Anahtarlar ve değerler ortak olarak tek bir düşük seviyeli darboğaza sıkıştırılır: gizli -> kv_a_proj 512+64 -> numaralı gizli KV yolu ve RoPE yoluna ayrılır. Gizli kısım kv_b_proj ile tekrar genişletilir ve 64 kafa (192 hayır + 256 değer) dims olur. Bu, DeepSeek-V3 ile tam olarak aynı MLA tasarımı. GLM-5 sadece boyutları ayarlıyor: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128. kv_lora_rank (512) ve qk_rope_head_dim (64) aynıdır. Ayrıca, dikkat içinde hiçbir yerde önyargı yok (attention_bias varsayılan olarak Yanlış konumuna geçiyor). Her projeksiyon (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj ve tüm DSA indeksleyici projeksiyonları) önyargısızdır. Bu artık standart uygulamadır; 2025'te piyasaya sürülen büyük modeller arasında sadece GPT-OSS hâlâ dikkat yanlılığı kullanıyor. ...