Parametrii de încorporare sunt din nou la modă, lucrare uimitoare de la LongCat Flash, în paralel cu Engram-ul lui DeepSeek! diferențe cu Engram: -> fără embedding pe strat (au încercat embedding per strat (PLE), dar nu au obținut câștiguri reale) -> fuziune cu medie simplă în locul poartelor dinamice conștiente de context din Engram -> încorporații doar la stratul de intrare (spre deosebire de injectarea stratului mai profund din Engram) la fel ca Engram: -> mai multe sub-tabele hash pentru a reduce coliziunile - > lege similară de scalare în formă de U pentru MoE vs alocarea N-gramelor -> benefic doar la raritate mare (când MoE are randamente descrescătoare) Alte constatări cheie: -> modelele mai late beneficiază mai mult; Modelele mai profunde văd randamente descrescătoare -> trebuie să amplifice ieșirea de încorporare (√D sau LayerNorm) pentru a preveni înecul de către primul strat de atenție - > dimensiunea vocabularului trebuie să evite multiplii întregi ai vocabularului de bază (spike-uri de coliziune) -> ≤50% din parametrii embedding-urilor, altfel câștigă MoE pur -> sinergie plăcută cu decodarea speculativă