新的 Motif-2-12.7B(來自南韓)真的有令人印象深刻的分數,他們再次在架構/硬體優化上做得很好。 我最喜歡的部分是他們如何使用之前的 Motif-2.6B 來初始化更大的模型,使用兩種不同的技術來擴展模型的深度和寬度,這相比從頭開始訓練提高了標記效率。他們還利用自己的研究來改善之前使用的差異注意力,使用分組變體以獲得噪聲和信號頭的更高粒度(更多信號,較少噪音)。 僅在 5.5T 標記上訓練,並使用“課程感知數據調度”(不過這方面的資訊不多)+ 許多不同的硬體優化(其中一些是開源的,請參見下面的鏈接!)與並行的 Muon-Clip、高效的 Polynorm 核心,以及使用 torchtitan 的 FP8 訓練! 他們還提到 Muon 允許更大的批次大小,並且他們擴展到 80M GBS,對於這個大小的模型來說相當高。 400 H100 GPU 和約 272K GPU 小時的表現對於達到這個性能水平來說令人印象深刻。