Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
to dość szalone, że ta rzadkość uwagi działa tak dobrze, po prostu rzadkościują 50% warstw MLA w bazie LongCat-Flash w trakcie treningu i uzyskują podobne wyniki do oryginalnego modelu
kalibracja polega na wyborze, które warstwy MLA są rzadkościowane. LongCat-Flash ma tę "dziwną" (nie w złym sensie) strukturę warstw, gdzie są 2 warstwy uwagi w jednej warstwie, nie ma wzmianki o jakimś innym traktowaniu tych 2 warstw, więc zakładam, że stosują ten sam proces do obu. Krok kalibracji to:
output = a_i · output_dense + (1 - a_i) · output_sparse
i wykonują spadek gradientu na a_i (które jest na warstwę uwagi). jeśli a_i jest wysokie => ta warstwa musi być gęsta, jeśli nie, można ją rzadkościować. w ten sposób rzadkościują 50% warstw (niestety nie mamy rozkładu rzadkościowanych warstw). Ten krok kalibracji ma szalony wpływ na longeval
rzadka uwaga jest również bardzo prosta, jest stała i nie jest świadoma kontekstu jak deepseek DSA/NSA czy MiniCPM InfiLLMv2, to okno przesuwne z 8 blokami po 128 tokenów (więc rozmiar okna 1024), pierwsze 128 tokenów i ostatnie 896 tokenów
ciekawi mnie, czy przyszłe modele @Meituan_LongCat będą to wykorzystywać w produkcji i czy jest to odporne na RL!

Najlepsze
Ranking
Ulubione
