Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
parametry osadzenia znów są na czołowej pozycji, niesamowity artykuł od LongCat Flash, równocześnie z Engramem DeepSeek!
differences with Engram:
-> brak osadzenia na poziomie warstwy (próbowali osadzenia na poziomie warstwy (PLE), ale nie przyniosło to realnych korzyści)
-> prosta fuzja średnia zamiast dynamicznego, kontekstowo świadomego bramkowania Engramu
-> osadzenia tylko na warstwie wejściowej (w porównaniu do głębszego wstrzykiwania Engramu)
to samo co Engram:
-> wiele podtabel haszujących, aby zredukować kolizje
-> podobne prawo skalowania w kształcie litery U dla MoE w porównaniu do alokacji N-gramów
-> korzystne tylko przy wysokiej rzadkości (gdy MoE osiąga malejące zwroty)
inne kluczowe odkrycia:
-> szersze modele korzystają bardziej; głębsze modele widzą malejące zwroty
-> należy wzmocnić wyjście osadzenia (√D lub LayerNorm), aby zapobiec przytłoczeniu przez pierwszą warstwę uwagi
-> rozmiar słownika musi unikać całkowitych wielokrotności podstawowego słownika (szczyty kolizji)
-> ≤50% parametrów do osadzeń, w przeciwnym razie czyste MoE wygrywa
-> miła synergia z spekulacyjnym dekodowaniem

Najlepsze
Ranking
Ulubione
