Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLM mimarilerinin sınır keşfi büyük ölçüde birleşmiştir.
@Zai_org'nin yeni çıkan GLM-5 (zai-org/GLM-5) için HuggingFace transformers kodunu inceledim.
İşte ayrıntılı bir mimari analiz ve LLM tasarımının nereye gittiği hakkında bize ne anlattığı anlatım.
Özet; DR: Mimari olarak, GLM-5 DeepSeek-V3'ü küçük düğme ayarlarıyla yakından takip ediyor.
DİKAT: Milletvekili GQA'nın yerini aldı
GLM-4.7'den GLM-5'e en büyük değişiklik dikkat çekmek.
GLM-4.7, standart Gruplı Sorgu Dikkati (GQA) kullanıyordu; 96 Q başlığı, 8 KV başlığı ve ayrı q/k/v projeksiyonları bulunuyordu.
GLM-5 bunların hepsini bir kenara bırakır ve DeepSeek'in Çok Başlı Gizli Dikkat (MLA) sistemini benimser.
MLA pipeline'da sorgular LoRA tarzı iki aşamalı bir projeksiyondan geçer:
gizli -> q_a_proj 2048 derecesine -> RMSNorm -> q_b_proj 64 kafaya * 256 dim.
Anahtarlar ve değerler ortak olarak tek bir düşük seviyeli darboğaza sıkıştırılır:
gizli -> kv_a_proj 512+64 -> numaralı gizli KV yolu ve RoPE yoluna ayrılır.
Gizli kısım kv_b_proj ile tekrar genişletilir ve 64 kafa (192 hayır + 256 değer) dims olur.
Bu, DeepSeek-V3 ile tam olarak aynı MLA tasarımı.
GLM-5 sadece boyutları ayarlıyor: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128.
kv_lora_rank (512) ve qk_rope_head_dim (64) aynıdır.
Ayrıca, dikkat içinde hiçbir yerde önyargı yok (attention_bias varsayılan olarak Yanlış konumuna geçiyor).
Her projeksiyon (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj ve tüm DSA indeksleyici projeksiyonları) önyargısızdır.
Bu artık standart uygulamadır; 2025'te piyasaya sürülen büyük modeller arasında sadece GPT-OSS hâlâ dikkat yanlılığı kullanıyor.
...
En İyiler
Sıralama
Takip Listesi
