parametry osadzenia znów są na czołowej pozycji, niesamowity artykuł od LongCat Flash, równocześnie z Engramem DeepSeek! differences with Engram: -> brak osadzenia na poziomie warstwy (próbowali osadzenia na poziomie warstwy (PLE), ale nie przyniosło to realnych korzyści) -> prosta fuzja średnia zamiast dynamicznego, kontekstowo świadomego bramkowania Engramu -> osadzenia tylko na warstwie wejściowej (w porównaniu do głębszego wstrzykiwania Engramu) to samo co Engram: -> wiele podtabel haszujących, aby zredukować kolizje -> podobne prawo skalowania w kształcie litery U dla MoE w porównaniu do alokacji N-gramów -> korzystne tylko przy wysokiej rzadkości (gdy MoE osiąga malejące zwroty) inne kluczowe odkrycia: -> szersze modele korzystają bardziej; głębsze modele widzą malejące zwroty -> należy wzmocnić wyjście osadzenia (√D lub LayerNorm), aby zapobiec przytłoczeniu przez pierwszą warstwę uwagi -> rozmiar słownika musi unikać całkowitych wielokrotności podstawowego słownika (szczyty kolizji) -> ≤50% parametrów do osadzeń, w przeciwnym razie czyste MoE wygrywa -> miła synergia z spekulacyjnym dekodowaniem