det är ganska galet att denna sparsamma uppmärksamhet fungerar så bra, de sparsifierar bara 50 % av MLA-lagren i LongCat-Flash-basen mitt i träningen och får liknande resultat som originalmodellen kalibreringen är att välja vilka MLA-lager de sparserar. LongCat-Flash har denna "konstiga" (inte på ett dåligt sätt) lagerstruktur där det finns två uppmärksamhetslager i ett lager, det nämns inget om någon annan behandling för de två lagren så jag antar att de applicerar samma process på båda. Kalibreringssteget är: utgång = a_i · output_dense + (1 - a_i) · output_sparse Och de gör gradientnedstigning på a_i (vilket är per uppmärksamhetslager). Om a_i är hög => måste detta lager vara tätt, annars kan du sparsifiera det. På så sätt sparsifierar de 50% av lagren (tyvärr har vi inte fördelningen av sparsifierade lager). Detta kalibreringssteg har en galen effekt på longeval Den sparsamma uppmärksamheten är också väldigt enkel, den är fast och inte kontextmedveten som Deepseek DSA/NSA eller MiniCPM InfiLLMv2, det är ett glidande fönster med 8 block om 128 tokens (så fönsterstorlek 1024), de första 128 tokens och de sista 896 tokens Nyfiken på om framtida @Meituan_LongCat-modeller kommer att använda detta i produktion och om det är robust mot RL!