Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
gömüleme parametreleri tekrar popüler, LongCat Flash'tan harika makale, DeepSeek'in Engram ile eş zamanlı olarak!
Engram ile farkları:
-> katman başına gömme yok (katman başına gömülmeyi (PLE) denediler ama gerçek bir kazanç elde edilmedi)
-> Engram'ın dinamik bağlam farkında kapı yerine basit ortalamalı füzyon
-> gömülmeleri yalnızca giriş katmanında (Engram'ın daha derin katman enjeksiyonuna karşı)
Engram ile aynı:
-> çarpışmaları azaltmak için birden fazla hash alt tablosu
-MoE ile N-gram tahsisi için benzer U şeklinde ölçeklendirme yasası >
-> sadece yüksek seyreklikte (MoE azalan getiri vurduğunda) faydalıdır.
Diğer önemli bulgular:
-> daha geniş modeller daha fazla fayda sağlar; Daha derin modeller azalan getiri görüyor
->, ilk dikkat katmanında boğulmayı önlemek için gömülü çıktıyı (√D veya LayerNorm) güçlendirmelidir
-> kelime boyutu, taban kelime kelimesinin tam sayı katlarından (çarpışma spikes) kaçınmalıdır
-Paramların %> ≤50'si gömülüye, aksi takdirde saf MoE kazanır
-> spekülatif çözme ile güzel bir sinerji

En İyiler
Sıralama
Takip Listesi
