Tým GLM nyní používá MLA!! tohle je docela šílený model s 30B celkovým parametrem a asi 4B aktivní. Velmi pěkné uvolnění
Co se týče konstrukce, je to přibližně stejné hloubky jako glm4.5 air a qwen3 30B A3B, celkem 64 expert místo 128, ale aktivují jen 5 místo 9, pokud počítáme sdílený expert
Představujeme GLM-4.7-Flash: Vašeho místního asistenta pro kódování a agenta.
GLM-4.7-Flash stanovuje nový standard pro třídu 30B, vyvažuje vysoký výkon s efektivitou, což z něj činí ideální lehkou možnost nasazení. Kromě programování je také doporučován pro tvůrčí psaní, překlady, úkoly s dlouhým kontextem a hraní rolí.
Váhy:
API:
- GLM-4.7-Flash: Zdarma (1 souběžnost)
- GLM-4.7-FlashX: Vysokorychlostní a cenově dostupný
Je docela šílené, že tato řídká pozornost funguje tak dobře, jen rozdělují 50 % MLA vrstev v LongCat-Flash základně uprostřed tréninku a dosahují podobných výsledků jako původní model
kalibrace spočívá ve výběru, které vrstvy MLA se rozdělí. LongCat-Flash má takovou "divnou" (ne v tom špatném slova smyslu) strukturu vrstev, kdy jsou dvě vrstvy pozornosti v jedné vrstvě, není zmínka o nějakém odlišném zpracování těchto dvou vrstev, takže předpokládám, že aplikují stejný proces na obě. Kalibrační krok je:
výstup = a_i · output_dense + (1 - a_i) · output_sparse
a na a_i (což je podle vrstvy pozornosti) provádějí gradientní sestup. Pokud je a_i vysoká => musí být tato vrstva hustá, pokud ne, můžete ji řídit. Tímto způsobem rozředčí 50 % vrstev (bohužel nemáme rozložení řídkých vrstev). Tento kalibrační krok má šílený dopad na dlouhodobé hodnocení
řídká pozornost je také velmi jednoduchá, je pevná a není kontextově vnímavá jako deepseek DSA/NSA nebo MiniCPM InfiLLMv2, je to posuvné okno s 8 bloky po 128 tokenech (tedy velikost okna 1024), prvních 128 tokenů a posledních 896 tokenů
Zajímalo by mě, jestli budou budoucí modely @Meituan_LongCat toto používat ve výrobě a jestli je to robustní pro reálné životy!