Parametry vkládání jsou opět v pořádku, úžasný článek od LongCat Flash, současně s DeepSeekovým Engramem! Rozdíly oproti Engramu: -> žádné vkládání na vrstvu (zkoušeli vkládání na vrstvu (PLE), ale žádné skutečné zisky) -> jednoduchá průměrná fúze místo dynamického kontextově vnímajícího gatování v Engramu -> embeddingy pouze na vstupní vrstvě (oproti hlubší injekci vrstev v Engramu) stejně jako Engram: -> více hashovacích podtabulek pro snížení kolizí -> podobný U-tvarovaný škálovací zákon pro alokaci MoE vs N-gramů -> výhodné jen při vysoké řídkosti (když MoE dosahuje klesajících výnosů) Další klíčová zjištění: -> širší modely z toho těží více; Hlubší modely zaznamenávají klesající výnosy -> musí zesílit výstup embedding (√D nebo LayerNorm), aby zabránil utopení vrstvou první pozornosti -> velikost slovní zásoby musí vyhýbat celočíselným násobkům základní slovní zásoby (kolizní špičky) -> ≤50 % parametrů do embeddingů, jinak vyhrává čisté MoE -> pěkná synergie se spekulativním dekódováním