Zelfs met volledige batchgradiënten tarten DL-optimalisatoren de klassieke optimalisatietheorie, aangezien ze opereren aan de *rand van stabiliteit.*
Samen met @alex_damian_ introduceren we "centrale stromen": een theoretisch hulpmiddel om deze dynamiek te analyseren dat nauwkeurige kwantitatieve voorspellingen doet over echte NN's.
Zoals verwacht is NSA niet compatibel met MLA, dus koos DeepSeek een andere methode: gebruik een kleinere (d=128) aandacht (zonder waarde) als de indexer.
Asymptotische kostenverhouding = 128/576.
Bovendien gebruikt de indexer FP8 terwijl de hoofd-MLA 16-bits gebruikt, dus = 64/576 = 1/9.