一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

新的 Motif-2-12.7B（来自韩国）确实有令人印象深刻的分数，他们再次通过架构/硬件优化取得了成功。我最喜欢的部分是他们如何使用之前的 Motif-2.6B 来初始化更大的模型，采用两种不同的技术来扩展模型的深度和宽度，这提高了与从头开始训练相比的令牌效率。他们还利用自己的工作来改进之前使用的差分注意力，采用分组变体以在噪声和信号头中获得更高的粒度（更多信号，减少噪声）。仅在 5.5T 令牌上训练，采用“课程感知数据调度”（不过对此信息不多）+ 许多不同的硬件优化（其中一些是开源的，见下面的链接！）与并行 Muon-Clip、高效的 Polynorm 内核，以及使用 torchtitan 的 FP8 训练！他们还提到 Muon 允许更大的批量大小，并且他们的规模达到 80M GBS，这对于这个大小的模型来说相当高。 400 个 H100 GPU 和 ~272K GPU 小时的表现令人印象深刻，获得这个级别的性能在我看来是相当了不起的。