Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Je docela šílené, že tato řídká pozornost funguje tak dobře, jen rozdělují 50 % MLA vrstev v LongCat-Flash základně uprostřed tréninku a dosahují podobných výsledků jako původní model
kalibrace spočívá ve výběru, které vrstvy MLA se rozdělí. LongCat-Flash má takovou "divnou" (ne v tom špatném slova smyslu) strukturu vrstev, kdy jsou dvě vrstvy pozornosti v jedné vrstvě, není zmínka o nějakém odlišném zpracování těchto dvou vrstev, takže předpokládám, že aplikují stejný proces na obě. Kalibrační krok je:
výstup = a_i · output_dense + (1 - a_i) · output_sparse
a na a_i (což je podle vrstvy pozornosti) provádějí gradientní sestup. Pokud je a_i vysoká => musí být tato vrstva hustá, pokud ne, můžete ji řídit. Tímto způsobem rozředčí 50 % vrstev (bohužel nemáme rozložení řídkých vrstev). Tento kalibrační krok má šílený dopad na dlouhodobé hodnocení
řídká pozornost je také velmi jednoduchá, je pevná a není kontextově vnímavá jako deepseek DSA/NSA nebo MiniCPM InfiLLMv2, je to posuvné okno s 8 bloky po 128 tokenech (tedy velikost okna 1024), prvních 128 tokenů a posledních 896 tokenů
Zajímalo by mě, jestli budou budoucí modely @Meituan_LongCat toto používat ve výrobě a jestli je to robustní pro reálné životy!

Top
Hodnocení
Oblíbené
