热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
新的 Motif-2-12.7B(来自韩国)确实有令人印象深刻的分数,他们再次通过架构/硬件优化取得了成功。
我最喜欢的部分是他们如何使用之前的 Motif-2.6B 来初始化更大的模型,采用两种不同的技术来扩展模型的深度和宽度,这提高了与从头开始训练相比的令牌效率。他们还利用自己的工作来改进之前使用的差分注意力,采用分组变体以在噪声和信号头中获得更高的粒度(更多信号,减少噪声)。
仅在 5.5T 令牌上训练,采用“课程感知数据调度”(不过对此信息不多)+ 许多不同的硬件优化(其中一些是开源的,见下面的链接!)与并行 Muon-Clip、高效的 Polynorm 内核,以及使用 torchtitan 的 FP8 训练!
他们还提到 Muon 允许更大的批量大小,并且他们的规模达到 80M GBS,这对于这个大小的模型来说相当高。
400 个 H100 GPU 和 ~272K GPU 小时的表现令人印象深刻,获得这个级别的性能在我看来是相当了不起的。

热门
排行
收藏

