Anche con gradienti a batch completi, gli ottimizzatori DL sfidano la teoria classica dell'ottimizzazione, poiché operano al *limite della stabilità.*
Con @alex_damian_, introduciamo i "flussi centrali": uno strumento teorico per analizzare queste dinamiche che fa previsioni quantitative accurate su reti neurali reali.
Come previsto, NSA non è compatibile con MLA, quindi DeepSeek ha scelto un altro metodo: utilizzare un'attenzione più piccola (d=128) (senza valore) come indicizzatore.
Il rapporto di costo asintotico = 128/576.
Inoltre, l'indicizzatore utilizza FP8 mentre il principale MLA utilizza 16 bit, quindi = 64/576 = 1/9.