Embedding-parametrarna är heta igen, fantastisk artikel från LongCat Flash, samtidigt som DeepSeeks Engram! skillnader med Engram: -> ingen inbäddning per lager (de försökte per lager inbäddning (PLE) men inga verkliga vinster) -> enkel medelvärdesfusion istället för Engrams dynamiska kontextmedvetna grindning -> bäddar endast in på inmatningslagret (jämfört med Engrams djupare lagerinjektion) samma som Engram: -> flera hash-deltabeller för att minska kollisioner -> liknande U-formade skalningslag för MoE kontra N-gram-allokering -> endast fördelaktig vid hög gleshet (när MoE når avtagande avkastning) Andra viktiga resultat: -> bredare modeller gynnas mer; djupare modeller ger avtagande avkastning -> måste förstärka inbäddningsutgången (√D eller LayerNorm) för att förhindra drunkning av första uppmärksamhetslagret -> vokabulärstorleken måste undvika heltalsmultiplar av grundvokabuläret (kollisionsspikar) -> ≤50% av parametrarna till inbäddningar, annars vinner ren MoE -> trevlig synergi med spekulativ avkodning