Навіть при повній партії градієнтів, оптимізатори DL кидають виклик класичній теорії оптимізації, оскільки вони працюють на межі стабільності.*
З @alex_damian_ ми вводимо «центральні потоки»: теоретичний інструмент для аналізу цієї динаміки, який робить точні кількісні прогнози на реальних NN.
Як і очікувалося, NSA несумісний з MLA, тому DeepSeek обрав інший метод: використовувати меншу (d=128) увагу (без значення) як індексатор.
Асимптотичний коефіцієнт вартості = 128/576.
Крім того, індексатор використовує FP8, тоді як основний MLA використовує 16-біт, тому = 64/576 = 1/9.