我认为我们并不理解如此大型的 MoE(特别是高级的后 DSMoE 架构)的行为。但我们知道,即使在总计约 28B 的情况下,0.8% 的扩展是好的。而且,超越 "更细粒度" 的稀疏性利用变得可能。我认为在 10T 时 1% 是 *保守* 的。