Nový Motif-2-12.7B (od Jižní Koreje) má opravdu působivé skóre a opět se uvařil s optimalizací architektury/hardwaru. Moje oblíbená část je, jak použili předchozí Motif-2.6B k inicializaci většího modelu, pomocí dvou různých technik pro změnu hloubky a šířky modelu, což zlepšuje efektivitu tokenu ve srovnání s tréninkem od nuly. Používají také svou vlastní práci ke zlepšení rozdílné pozornosti, kterou dříve používali, se seskupenou variantou, aby získali větší granularitu v šumu a signálových hlavách (více signálu, méně šumu). Trénováno pouze na 5.5T tokenech, s "plánováním dat s ohledem na učební osnovy" (o tom není mnoho informací) + spoustou různých hardwarových optimalizací (některé z nich jsou open source, viz odkazy níže!) s paralelním Muon-Clipem, efektivními jádry pro Polynorm a tréninkem FP8 pomocí torchtitanu! Zmiňují také, že Muon umožňuje větší velikosti dávek a škálují až na 80 milionů GBS, což je na model této velikosti docela hodně. 400 GPU H100 a ~272 tisíc GPU hodin je působivé pro dosažení této úrovně výkonu IMO