Nysgjerrig på å prøve dette med diloco, ville fortsatt gjøre bs=1 på den indre optimalisereren og fortsatt få fordeler av dataparallellitet
Micah Goldblum
Micah Goldblum10. juli, 22:12
🚨 Visste du at small-batch vanilla SGD uten momentum (dvs. den første optimalisereren du lærer om i intro ML) er praktisk talt like rask som AdamW for LLM-pretraining på per-FLOP-basis? 📜 1/n
1,91K