每个人都在追求超稀疏的 MoEs 如果我们以阿里巴巴的路线图为基准 那么 10T 参数(激活率 1%,活跃 100B)在 30% MFU 下训练 100 万亿个标记将需要 6 * 10e25 FLOPs 在 20K H200 集群上可以在 58 天内训练完成(如果购买硬件需要 3 亿美元,租用则需要 6000 万美元)