Právě jsme uvolnili 100+ mezilehlých kontrolních bodů a naše tréninkové logy z tréninku SmolLM3-3B. Doufáme, že to může být užitečné pro výzkumníky, kteří pracují na mech interpretaci, tréninkové dynamice, RL a dalších tématech :) Tréninkové deníky: -> Obvyklá ztráta při tréninku (mezera ve ztrátě je způsobena změnou směsi), grad_norm atd.. -> Metriky na vrstvu/blok (norma l1/l2, průměr, min, max, špičatost) Kontrolní body: -> předtrénink každých 40 tisíc kroků (94,4 miliardy tokenů) -> rozšíření dlouhého kontextu každých 4 tisíc kroků (9,4 miliardy tokenů) -> po tréninku: SFT, mid-training, APO polévka, LC expert
26,09K