Ngay cả với gradient theo lô đầy đủ, các bộ tối ưu hóa DL vẫn đi ngược lại lý thuyết tối ưu hóa cổ điển, vì chúng hoạt động ở *rìa của sự ổn định.*
Cùng với @alex_damian_, chúng tôi giới thiệu "dòng chảy trung tâm": một công cụ lý thuyết để phân tích những động lực này, giúp đưa ra những dự đoán định lượng chính xác về các NN thực.
Như đã dự đoán, NSA không tương thích với MLA, vì vậy DeepSeek đã chọn một phương pháp khác: sử dụng một attention nhỏ hơn (d=128) (không có giá trị) làm chỉ mục.
Tỷ lệ chi phí tiệm cận = 128/576.
Ngoài ra, chỉ mục sử dụng FP8 trong khi MLA chính sử dụng 16-bit, vì vậy = 64/576 = 1/9.