upotusparametrit ovat taas kuumia, upea artikkeli LongCat Flashilta, samaan aikaan DeepSeekin Engramin kanssa! erot Engramiin: -> ei kerroskohtaista upotusta (he kokeilivat kerroskohtaista upotusta (PLE), mutta ei todellista hyötyä) -> yksinkertainen keskiarvon fuusio Engramin dynaamisen kontekstitietoisen portin sijaan -> upotukset vain syöttökerroksessa (verrattuna Engramin syvemmän kerroksen injektioon) sama kuin Engramissa: -> useita hajautustauluja törmäysten vähentämiseksi -> samankaltainen U-muotoinen skaalauslaki MoE:n ja N-grammin allokaatiolle -> hyödyllinen vain korkealla harvojen tasolla (kun MoE saavuttaa väheneviä tuottoja) Muita keskeisiä havaintoja: -> leveämmät mallit hyötyvät enemmän; Syvemmät mallit näkevät vähenevän tuoton -> täytyy vahvistaa upotustulosta (√D tai LayerNorm) estääkseen hukkumisen ensimmäiseen huomiokerrokseen -> sanaston koon on vältettävä perussanaston kokonaislukukertoja (törmäyspiikit) -> ≤50 % parameista upotuksiin, muuten puhdas MoE voittaa -> mukava synergia spekulatiivisen dekoodauksen kanssa