Bir sonraki nesil LLM mimarisi nasıl görünecek? Bu soru tartışmaları sürekli artırıyor — ve Zhihu'nun katkıcısı ve geliştiricisi Yuxuan, DeepSeek Sparse Attention (DSA) ile Native Sparse Attention (NSA) arasında keskin bir karşılaştırma sunuyor ve ayrıca TileLang ile DSA operatörlerinin uygulanmasına pratik bir bakış sunuyor. 🚀 DSA neden NSA'yı > (uzun bağlamlı görevlerde): DSA'yı küçük modellere ekleme deneylerinden ve NSA ile karşılaştırmalardan başlayarak, DSA sürekli olarak daha iyi performans gösteriyor — bunun başlıca iki temel tasarım seçeneği nedeniyle: 1️⃣ Attn-Score damıtılması → indeks seçimi için açık denetim 2️⃣ Blok seviyesinde değil jeton seviyesinde seyreklik→ daha ince tanenli, daha doğru geri alma 🔍 1) Attn-Score Damıtılması Az dikkat doğru anahtar-değer çiftlerini seçmeye bağlıdır. DSA, gerçek dikkat puanlarını kullanarak endeks modülünü doğrudan denetler; eğitimi gerçek amaçla uyumlu hale getirir: "kritik tokenları seç." NSA bunun yerine yalnızca LM kaybını optimize ediyor ve endeks doğruluğuna dair açık bir kısıtlama sağlamayor — bu da uzun belge geri alma kıyaslamalarındaki daha zayıf performansını açıklıyor. 🔍 2) Token vs Blok Seviyesi Seyreklik Doğruluk hesaplama bütçesiyle ölçeklenir: daha hassas indeksleme → daha iyi geri dönüş. Token seviyesinde endeksleme (DSA), doğal olarak blok seviyesine (NSA) göre daha yüksek isabet sağlar. Bu açıdan bakıldığında, NSA'nın performans darboğazı bekleniyor — ilginç bir soru: block-size=8, NSA'nın DSA'ya yetişmesine yardımcı olur mu? ⚙️ Gerçek Zorluk: DSA'yı Verimli Şekilde Eğitmek DSA eğitimi Warmup → Sparse Finetune içerir. Zorluk: her iki dalın dikkat puanlarını hesaplamak ve saklamak. Naif bir uygulama O(n²) depolama gerektirir — bu da FlashAttention'ın bellek tasarrufunu geçersiz kılar. Hatta ön filtreleme (k=2048, h=512+64) bile büyük tamponlar gerektirir. 📎 Kod: 🧩 Çekirdek Füzyonu Kurtarmaya Doğru (Şekil 1) Devasa ara Attn-Skorlarını depolamamak için DSA, birleşmiş çekirdekler kullanır. Önemli bir hile, Index-Score + Top-k'yı tek bir çekirdekte birleştirmektir: • 2K tampon tutmak • Her blok için Hesap Endeks Puanı...