热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
DeepSeek 做的一件相当大胆的事情是,他们展示了 Engram 在 27B 时表现出色,然后在 40B 时几乎没有进一步改善,他们说「嗯,这个模型训练不足」。
我认为 Engram 层与 FFN 的容量特征在不同规模下有着非平凡的影响。


这让我想起了DS-MoE,他们将“半激活”变体视为非常雄心勃勃的东西,将这个想法推向极限。自然,最终V2正好具有这种稀疏比,而V3则更稀疏。

674
热门
排行
收藏


