熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
新的 Motif-2-12.7B(來自南韓)真的有令人印象深刻的分數,他們再次在架構/硬體優化上做得很好。
我最喜歡的部分是他們如何使用之前的 Motif-2.6B 來初始化更大的模型,使用兩種不同的技術來擴展模型的深度和寬度,這相比從頭開始訓練提高了標記效率。他們還利用自己的研究來改善之前使用的差異注意力,使用分組變體以獲得噪聲和信號頭的更高粒度(更多信號,較少噪音)。
僅在 5.5T 標記上訓練,並使用“課程感知數據調度”(不過這方面的資訊不多)+ 許多不同的硬體優化(其中一些是開源的,請參見下面的鏈接!)與並行的 Muon-Clip、高效的 Polynorm 核心,以及使用 torchtitan 的 FP8 訓練!
他們還提到 Muon 允許更大的批次大小,並且他們擴展到 80M GBS,對於這個大小的模型來說相當高。
400 H100 GPU 和約 272K GPU 小時的表現對於達到這個性能水平來說令人印象深刻。

熱門
排行
收藏

