Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bir sonraki nesil LLM mimarisi nasıl görünecek?
Bu soru tartışmaları sürekli artırıyor — ve Zhihu'nun katkıcısı ve geliştiricisi Yuxuan, DeepSeek Sparse Attention (DSA) ile Native Sparse Attention (NSA) arasında keskin bir karşılaştırma sunuyor ve ayrıca TileLang ile DSA operatörlerinin uygulanmasına pratik bir bakış sunuyor.
🚀 DSA neden NSA'yı > (uzun bağlamlı görevlerde):
DSA'yı küçük modellere ekleme deneylerinden ve NSA ile karşılaştırmalardan başlayarak, DSA sürekli olarak daha iyi performans gösteriyor — bunun başlıca iki temel tasarım seçeneği nedeniyle:
1️⃣ Attn-Score damıtılması → indeks seçimi için açık denetim
2️⃣ Blok seviyesinde değil jeton seviyesinde seyreklik→ daha ince tanenli, daha doğru geri alma
🔍 1) Attn-Score Damıtılması
Az dikkat doğru anahtar-değer çiftlerini seçmeye bağlıdır.
DSA, gerçek dikkat puanlarını kullanarak endeks modülünü doğrudan denetler; eğitimi gerçek amaçla uyumlu hale getirir: "kritik tokenları seç."
NSA bunun yerine yalnızca LM kaybını optimize ediyor ve endeks doğruluğuna dair açık bir kısıtlama sağlamayor — bu da uzun belge geri alma kıyaslamalarındaki daha zayıf performansını açıklıyor.
🔍 2) Token vs Blok Seviyesi Seyreklik
Doğruluk hesaplama bütçesiyle ölçeklenir: daha hassas indeksleme → daha iyi geri dönüş.
Token seviyesinde endeksleme (DSA), doğal olarak blok seviyesine (NSA) göre daha yüksek isabet sağlar.
Bu açıdan bakıldığında, NSA'nın performans darboğazı bekleniyor — ilginç bir soru: block-size=8, NSA'nın DSA'ya yetişmesine yardımcı olur mu?
⚙️ Gerçek Zorluk: DSA'yı Verimli Şekilde Eğitmek
DSA eğitimi Warmup → Sparse Finetune içerir.
Zorluk: her iki dalın dikkat puanlarını hesaplamak ve saklamak.
Naif bir uygulama O(n²) depolama gerektirir — bu da FlashAttention'ın bellek tasarrufunu geçersiz kılar.
Hatta ön filtreleme (k=2048, h=512+64) bile büyük tamponlar gerektirir.
📎 Kod:
🧩 Çekirdek Füzyonu Kurtarmaya Doğru (Şekil 1)
Devasa ara Attn-Skorlarını depolamamak için DSA, birleşmiş çekirdekler kullanır.
Önemli bir hile, Index-Score + Top-k'yı tek bir çekirdekte birleştirmektir:
• 2K tampon tutmak
• Her blok için Hesap Endeks Puanı...

En İyiler
Sıralama
Takip Listesi

