DApp Store | Web3 Hub for hendelser og spill

Populære emner

det er ganske sprøtt at denne sparsomme oppmerksomheten fungerer så bra, de sparsifierer bare 50 % av MLA-lagene i LongCat-Flash-basen midt i treningen og får lignende resultater som den opprinnelige modellen kalibreringen er å velge hvilke MLA-lag de sparserer. LongCat-Flash har denne «rare» (ikke på en dårlig måte) lagstruktur hvor det er to oppmerksomhetslag i ett lag, det er ingen omtale av forskjellig behandling for de to lagene, så jeg antar at de bruker samme prosess på begge. Kalibreringstrinnet er: utgang = a_i · output_dense + (1 - a_i) · output_sparse Og de gjør gradient descent på a_i (som er per oppmerksomhetslag). Hvis a_i er høyt => må dette laget være tett, hvis ikke kan du sparsifisere det. På denne måten sparsifiserer de 50 % av lagene (vi har dessverre ikke fordelingen av sparsifiserte lag). Dette kalibreringssteget har en vill innvirkning på longeval den sparsomme oppmerksomheten er også veldig enkel, den er fast og ikke kontekstbevisst som Deepseek DSA/NSA eller MiniCPM InfiLLMv2, det er et glidende vindu med 8 blokker med 128 tokens (altså vindusstørrelse 1024), de første 128 tokenene og de siste 896 tokenene Nysgjerrig på om fremtidige @Meituan_LongCat-modeller vil bruke dette i produksjon og om det er robust mot RL!

Topp

Rangering

Favoritter