新的 Motif-2-12.7B(来自韩国)确实有令人印象深刻的分数,他们再次通过架构/硬件优化取得了成功。 我最喜欢的部分是他们如何使用之前的 Motif-2.6B 来初始化更大的模型,采用两种不同的技术来扩展模型的深度和宽度,这提高了与从头开始训练相比的令牌效率。他们还利用自己的工作来改进之前使用的差分注意力,采用分组变体以在噪声和信号头中获得更高的粒度(更多信号,减少噪声)。 仅在 5.5T 令牌上训练,采用“课程感知数据调度”(不过对此信息不多)+ 许多不同的硬件优化(其中一些是开源的,见下面的链接!)与并行 Muon-Clip、高效的 Polynorm 内核,以及使用 torchtitan 的 FP8 训练! 他们还提到 Muon 允许更大的批量大小,并且他们的规模达到 80M GBS,这对于这个大小的模型来说相当高。 400 个 H100 GPU 和 ~272K GPU 小时的表现令人印象深刻,获得这个级别的性能在我看来是相当了不起的。