Il nuovo Motif-2-12.7B (dalla Corea del Sud) ha davvero punteggi impressionanti e hanno nuovamente fatto un ottimo lavoro con l'ottimizzazione dell'architettura/hardware. La mia parte preferita è come hanno utilizzato il precedente Motif-2.6B per inizializzare il modello più grande, usando due tecniche diverse per scalare la profondità e la larghezza del modello, il che migliora l'efficienza dei token rispetto all'addestramento da zero. Usano anche il loro lavoro per migliorare l'attenzione differenziale che avevano utilizzato in precedenza, con una variante raggruppata per ottenere maggiore granularità nei segnali e nel rumore (più segnale, meno rumore). Addestrato solo su 5.5T token, con una "programmazione dei dati consapevole del curriculum" (non molte informazioni su questo però) + molte diverse ottimizzazioni hardware (alcune di esse sono open source, vedi i link qui sotto!) con Muon-Clip parallelo, kernel efficienti per Polynorm e addestramento FP8 utilizzando torchtitan! Menționano anche che Muon consente dimensioni di batch più grandi, e scalano fino a 80M GBS, il che è piuttosto alto per un modello di queste dimensioni. 400 GPU H100 e ~272K ore GPU sono impressionanti per ottenere questo livello di prestazioni imo