Även med gradienter i hela batcher trotsar DL-optimerare klassisk optimeringsteori, eftersom de arbetar på *gränsen till stabilitet.*
Med @alex_damian_ introducerar vi "centrala flöden": ett teoretiskt verktyg för att analysera denna dynamik som gör korrekta kvantitativa förutsägelser på verkliga NN.
Som förväntat är NSA inte kompatibelt med MLA, så DeepSeek valde en annan metod: använd en mindre (d=128) uppmärksamhet (w/o-värde) som indexerare.
Asymptotisk kostnadskvot = 128/576.
Dessutom använder indexeraren FP8 medan huvud-MLA använder 16-bitars, så = 64/576 = 1/9.