Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Une chose assez audacieuse que fait DeepSeek, c'est qu'ils montrent Engram atteignant jusqu'à 27B, puis 40B qui n'améliore pratiquement plus, et ils disent « eh, c'est sous-entraîné ».
Je pense que le profil de capacité des couches Engram par rapport aux FFNs a des effets non triviaux à différentes échelles.


Cela me rappelle DS-MoE, où ils considéraient la variante « à moitié activée » comme quelque chose de très ambitieux, poussant l'idée à ses limites. Naturellement, V2 avait finalement exactement ce ratio de parcimonie, et V3 était encore plus parcimonieuse.

204
Meilleurs
Classement
Favoris


