Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
on aika uskomatonta, että tämä niukka huomio toimii niin hyvin, että he vain säästävät 50 % MLA-kerroksista LongCat-Flash-pohjassa kesken koulutuksen ja saavat samankaltaisia tuloksia kuin alkuperäinen malli
kalibrointi tarkoittaa, että valitsee, mitkä MLA-kerrokset ne harrastavat sitä. LongCat-Flashissa on tämä "outo" (ei huonolla tavalla) kerrosrakenne, jossa yhdessä kerroksessa on kaksi huomiokerrosta, eikä niille kerroksille mainita mitään erilaista käsittelyä, joten oletan, että sama prosessi sovelletaan molempiin. Kalibrointivaihe on:
output = a_i · output_dense + (1 - a_i) · output_sparse
Ja ne tekevät liukuvärin laskeutumista a_i (joka on per huomiokerros). jos a_i on korkea => tämän kerroksen täytyy olla tiheä, jos ei, sen voi harrastaa. Näin ne harrastavat 50 % kerroksista (valitettavasti meillä ei ole harvautuneiden kerrosten jakaumaa). Tällä kalibrointivaiheella on hullu vaikutus pitkäaikaiseen arviointiin
harva huomio on myös hyvin yksinkertaista, se on kiinteää eikä kontekstitietoista kuten deepseek DSA/NSA tai MiniCPM InfiLLMv2, se on liukuva ikkuna, jossa on 8 lohkoa, joissa on 128 tokenia (eli ikkunakoko 1024), ensimmäiset 128 tokenia ja viimeiset 896 tokenia
Olen utelen, käyttävätkö tulevat @Meituan_LongCat-mallit tätä tuotannossa ja onko se kestävä oikeaan aikaan!

Johtavat
Rankkaus
Suosikit
