Je docela šílené, že tato řídká pozornost funguje tak dobře, jen rozdělují 50 % MLA vrstev v LongCat-Flash základně uprostřed tréninku a dosahují podobných výsledků jako původní model kalibrace spočívá ve výběru, které vrstvy MLA se rozdělí. LongCat-Flash má takovou "divnou" (ne v tom špatném slova smyslu) strukturu vrstev, kdy jsou dvě vrstvy pozornosti v jedné vrstvě, není zmínka o nějakém odlišném zpracování těchto dvou vrstev, takže předpokládám, že aplikují stejný proces na obě. Kalibrační krok je: výstup = a_i · output_dense + (1 - a_i) · output_sparse a na a_i (což je podle vrstvy pozornosti) provádějí gradientní sestup. Pokud je a_i vysoká => musí být tato vrstva hustá, pokud ne, můžete ji řídit. Tímto způsobem rozředčí 50 % vrstev (bohužel nemáme rozložení řídkých vrstev). Tento kalibrační krok má šílený dopad na dlouhodobé hodnocení řídká pozornost je také velmi jednoduchá, je pevná a není kontextově vnímavá jako deepseek DSA/NSA nebo MiniCPM InfiLLMv2, je to posuvné okno s 8 bloky po 128 tokenech (tedy velikost okna 1024), prvních 128 tokenů a posledních 896 tokenů Zajímalo by mě, jestli budou budoucí modely @Meituan_LongCat toto používat ve výrobě a jestli je to robustní pro reálné životy!