Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
det er ganske sprøtt at denne sparsomme oppmerksomheten fungerer så bra, de sparsifierer bare 50 % av MLA-lagene i LongCat-Flash-basen midt i treningen og får lignende resultater som den opprinnelige modellen
kalibreringen er å velge hvilke MLA-lag de sparserer. LongCat-Flash har denne «rare» (ikke på en dårlig måte) lagstruktur hvor det er to oppmerksomhetslag i ett lag, det er ingen omtale av forskjellig behandling for de to lagene, så jeg antar at de bruker samme prosess på begge. Kalibreringstrinnet er:
utgang = a_i · output_dense + (1 - a_i) · output_sparse
Og de gjør gradient descent på a_i (som er per oppmerksomhetslag). Hvis a_i er høyt => må dette laget være tett, hvis ikke kan du sparsifisere det. På denne måten sparsifiserer de 50 % av lagene (vi har dessverre ikke fordelingen av sparsifiserte lag). Dette kalibreringssteget har en vill innvirkning på longeval
den sparsomme oppmerksomheten er også veldig enkel, den er fast og ikke kontekstbevisst som Deepseek DSA/NSA eller MiniCPM InfiLLMv2, det er et glidende vindu med 8 blokker med 128 tokens (altså vindusstørrelse 1024), de første 128 tokenene og de siste 896 tokenene
Nysgjerrig på om fremtidige @Meituan_LongCat-modeller vil bruke dette i produksjon og om det er robust mot RL!

Topp
Rangering
Favoritter
