Vi har nettopp sluppet 100+ mellomsjekkpunkter og våre treningslogger fra SmolLM3-3B trening. Vi håper dette kan være nyttig for forskeren som jobber med mech-tolkning, treningsdynamikk, RL og andre emner :) Treningslogger: -> Vanlig treningstap (gapet i tapet skyldes endring av blandingen), grad_norm ect.. -> Per lag/blokk (l1/l2 norm, gjennomsnitt, min, maks, kurtose) Sjekkpunkter: -> forhåndstrening hvert 40k trinn (94,4 milliarder tokens) -> lang kontekstutvidelse hvert 4k-trinn (9,4 milliarder tokens) -> etter trening: SFT, midt i treningen, APO-suppe, LC-ekspert
26,09K