Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jedna docela odvážná věc, kterou DeepSeek dělá, je, že ukazují, že Engram je skvělý až do 27B, a pak 40B, která se už nezlepší, a říkají "eh, je podtrénovaný".
Myslím, že kapacitní profil engramových vrstev oproti FFN má na různých škálách netriviální efekty.


Připomíná mi to DS-MoE, kde se na "poloaktivovanou" variantu dívali jako na něco velmi ambiciózního a posunuli myšlenku na maximum. Přirozeně měl nakonec V2 přesně tento poměr řídkosti a V3 byl řídší.

188
Top
Hodnocení
Oblíbené


