on aika uskomatonta, että tämä niukka huomio toimii niin hyvin, että he vain säästävät 50 % MLA-kerroksista LongCat-Flash-pohjassa kesken koulutuksen ja saavat samankaltaisia tuloksia kuin alkuperäinen malli kalibrointi tarkoittaa, että valitsee, mitkä MLA-kerrokset ne harrastavat sitä. LongCat-Flashissa on tämä "outo" (ei huonolla tavalla) kerrosrakenne, jossa yhdessä kerroksessa on kaksi huomiokerrosta, eikä niille kerroksille mainita mitään erilaista käsittelyä, joten oletan, että sama prosessi sovelletaan molempiin. Kalibrointivaihe on: output = a_i · output_dense + (1 - a_i) · output_sparse Ja ne tekevät liukuvärin laskeutumista a_i (joka on per huomiokerros). jos a_i on korkea => tämän kerroksen täytyy olla tiheä, jos ei, sen voi harrastaa. Näin ne harrastavat 50 % kerroksista (valitettavasti meillä ei ole harvautuneiden kerrosten jakaumaa). Tällä kalibrointivaiheella on hullu vaikutus pitkäaikaiseen arviointiin harva huomio on myös hyvin yksinkertaista, se on kiinteää eikä kontekstitietoista kuten deepseek DSA/NSA tai MiniCPM InfiLLMv2, se on liukuva ikkuna, jossa on 8 lohkoa, joissa on 128 tokenia (eli ikkunakoko 1024), ensimmäiset 128 tokenia ja viimeiset 896 tokenia Olen utelen, käyttävätkö tulevat @Meituan_LongCat-mallit tätä tuotannossa ja onko se kestävä oikeaan aikaan!