gömüleme parametreleri tekrar popüler, LongCat Flash'tan harika makale, DeepSeek'in Engram ile eş zamanlı olarak! Engram ile farkları: -> katman başına gömme yok (katman başına gömülmeyi (PLE) denediler ama gerçek bir kazanç elde edilmedi) -> Engram'ın dinamik bağlam farkında kapı yerine basit ortalamalı füzyon -> gömülmeleri yalnızca giriş katmanında (Engram'ın daha derin katman enjeksiyonuna karşı) Engram ile aynı: -> çarpışmaları azaltmak için birden fazla hash alt tablosu -MoE ile N-gram tahsisi için benzer U şeklinde ölçeklendirme yasası > -> sadece yüksek seyreklikte (MoE azalan getiri vurduğunda) faydalıdır. Diğer önemli bulgular: -> daha geniş modeller daha fazla fayda sağlar; Daha derin modeller azalan getiri görüyor ->, ilk dikkat katmanında boğulmayı önlemek için gömülü çıktıyı (√D veya LayerNorm) güçlendirmelidir -> kelime boyutu, taban kelime kelimesinin tam sayı katlarından (çarpışma spikes) kaçınmalıdır -Paramların %> ≤50'si gömülüye, aksi takdirde saf MoE kazanır -> spekülatif çözme ile güzel bir sinerji