Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
upotusparametrit ovat taas kuumia, upea artikkeli LongCat Flashilta, samaan aikaan DeepSeekin Engramin kanssa!
erot Engramiin:
-> ei kerroskohtaista upotusta (he kokeilivat kerroskohtaista upotusta (PLE), mutta ei todellista hyötyä)
-> yksinkertainen keskiarvon fuusio Engramin dynaamisen kontekstitietoisen portin sijaan
-> upotukset vain syöttökerroksessa (verrattuna Engramin syvemmän kerroksen injektioon)
sama kuin Engramissa:
-> useita hajautustauluja törmäysten vähentämiseksi
-> samankaltainen U-muotoinen skaalauslaki MoE:n ja N-grammin allokaatiolle
-> hyödyllinen vain korkealla harvojen tasolla (kun MoE saavuttaa väheneviä tuottoja)
Muita keskeisiä havaintoja:
-> leveämmät mallit hyötyvät enemmän; Syvemmät mallit näkevät vähenevän tuoton
-> täytyy vahvistaa upotustulosta (√D tai LayerNorm) estääkseen hukkumisen ensimmäiseen huomiokerrokseen
-> sanaston koon on vältettävä perussanaston kokonaislukukertoja (törmäyspiikit)
-> ≤50 % parameista upotuksiin, muuten puhdas MoE voittaa
-> mukava synergia spekulatiivisen dekoodauksen kanssa

Johtavat
Rankkaus
Suosikit
