Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Parametrii de încorporare sunt din nou la modă, lucrare uimitoare de la LongCat Flash, în paralel cu Engram-ul lui DeepSeek!
diferențe cu Engram:
-> fără embedding pe strat (au încercat embedding per strat (PLE), dar nu au obținut câștiguri reale)
-> fuziune cu medie simplă în locul poartelor dinamice conștiente de context din Engram
-> încorporații doar la stratul de intrare (spre deosebire de injectarea stratului mai profund din Engram)
la fel ca Engram:
-> mai multe sub-tabele hash pentru a reduce coliziunile
- > lege similară de scalare în formă de U pentru MoE vs alocarea N-gramelor
-> benefic doar la raritate mare (când MoE are randamente descrescătoare)
Alte constatări cheie:
-> modelele mai late beneficiază mai mult; Modelele mai profunde văd randamente descrescătoare
-> trebuie să amplifice ieșirea de încorporare (√D sau LayerNorm) pentru a preveni înecul de către primul strat de atenție
- > dimensiunea vocabularului trebuie să evite multiplii întregi ai vocabularului de bază (spike-uri de coliziune)
-> ≤50% din parametrii embedding-urilor, altfel câștigă MoE pur
-> sinergie plăcută cu decodarea speculativă

Limită superioară
Clasament
Favorite
