一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

新的 Motif-2-12.7B（來自南韓）真的有令人印象深刻的分數，他們再次在架構/硬體優化上做得很好。我最喜歡的部分是他們如何使用之前的 Motif-2.6B 來初始化更大的模型，使用兩種不同的技術來擴展模型的深度和寬度，這相比從頭開始訓練提高了標記效率。他們還利用自己的研究來改善之前使用的差異注意力，使用分組變體以獲得噪聲和信號頭的更高粒度（更多信號，較少噪音）。僅在 5.5T 標記上訓練，並使用“課程感知數據調度”（不過這方面的資訊不多）+ 許多不同的硬體優化（其中一些是開源的，請參見下面的鏈接！）與並行的 Muon-Clip、高效的 Polynorm 核心，以及使用 torchtitan 的 FP8 訓練！他們還提到 Muon 允許更大的批次大小，並且他們擴展到 80M GBS，對於這個大小的模型來說相當高。 400 H100 GPU 和約 272K GPU 小時的表現對於達到這個性能水平來說令人印象深刻。