Jedna docela odvážná věc, kterou DeepSeek dělá, je, že ukazují, že Engram je skvělý až do 27B, a pak 40B, která se už nezlepší, a říkají "eh, je podtrénovaný". Myslím, že kapacitní profil engramových vrstev oproti FFN má na různých škálách netriviální efekty.
Připomíná mi to DS-MoE, kde se na "poloaktivovanou" variantu dívali jako na něco velmi ambiciózního a posunuli myšlenku na maximum. Přirozeně měl nakonec V2 přesně tento poměr řídkosti a V3 byl řídší.
188