Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
det är ganska galet att denna sparsamma uppmärksamhet fungerar så bra, de sparsifierar bara 50 % av MLA-lagren i LongCat-Flash-basen mitt i träningen och får liknande resultat som originalmodellen
kalibreringen är att välja vilka MLA-lager de sparserar. LongCat-Flash har denna "konstiga" (inte på ett dåligt sätt) lagerstruktur där det finns två uppmärksamhetslager i ett lager, det nämns inget om någon annan behandling för de två lagren så jag antar att de applicerar samma process på båda. Kalibreringssteget är:
utgång = a_i · output_dense + (1 - a_i) · output_sparse
Och de gör gradientnedstigning på a_i (vilket är per uppmärksamhetslager). Om a_i är hög => måste detta lager vara tätt, annars kan du sparsifiera det. På så sätt sparsifierar de 50% av lagren (tyvärr har vi inte fördelningen av sparsifierade lager). Detta kalibreringssteg har en galen effekt på longeval
Den sparsamma uppmärksamheten är också väldigt enkel, den är fast och inte kontextmedveten som Deepseek DSA/NSA eller MiniCPM InfiLLMv2, det är ett glidande fönster med 8 block om 128 tokens (så fönsterstorlek 1024), de första 128 tokens och de sista 896 tokens
Nyfiken på om framtida @Meituan_LongCat-modeller kommer att använda detta i produktion och om det är robust mot RL!

Topp
Rankning
Favoriter
