Motif-2-12.7B baru (dari Korea Selatan) memiliki skor yang sangat mengesankan dan mereka memasak sekali lagi dengan pengoptimalan arsitektur/perangkat keras. Bagian favorit saya adalah bagaimana mereka menggunakan Motif-2.6B sebelumnya untuk menginisialisasi model yang lebih besar, menggunakan dua teknik berbeda untuk menskalakan kedalaman dan lebar model, yang meningkatkan efisiensi token dibandingkan dengan pelatihan dari awal. Mereka juga menggunakan pekerjaan mereka sendiri untuk meningkatkan perhatian diferensial yang sebelumnya mereka gunakan, dengan varian yang dikelompokkan untuk mendapatkan lebih banyak granularitas dalam kebisingan dan kepala sinyal (lebih banyak sinyal, lebih sedikit usil). Dilatih hanya pada token 5.5T, dengan "penjadwalan data sadar kurikulum" (tidak banyak info tentang ini) + banyak pengoptimalan perangkat keras yang berbeda (beberapa di antaranya adalah open source, lihat tautan di bawah!) dengan Muon-Clip paralel, kernel yang efisien untuk Polynorm, dan pelatihan FP8 menggunakan torchtitan! Mereka juga menyebutkan bahwa Muon memungkinkan ukuran batch yang lebih besar, dan mereka menskalakan hingga 80M GBS, yang cukup tinggi untuk model ukuran ini. 400 GPU H100 dan ~272K jam GPU sangat mengesankan untuk mendapatkan tingkat kinerja ini imo