Mesmo com gradientes de lote completo, os otimizadores DL desafiam a teoria clássica de otimização, pois operam no *limite da estabilidade.*
Com @alex_damian_, introduzimos "fluxos centrais": uma ferramenta teórica para analisar essas dinâmicas que faz previsões quantitativas precisas em NNs reais.
Como esperado, o NSA não é compatível com o MLA, então o DeepSeek escolheu outro método: use uma atenção menor (d = 128) (sem valor) como indexador.
Razão de custo assintótico = 128/576.
Além disso, o indexador usa FP8 enquanto o MLA principal usa 16 bits, então = 64/576 = 1/9.