Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Parametry vkládání jsou opět v pořádku, úžasný článek od LongCat Flash, současně s DeepSeekovým Engramem!
Rozdíly oproti Engramu:
-> žádné vkládání na vrstvu (zkoušeli vkládání na vrstvu (PLE), ale žádné skutečné zisky)
-> jednoduchá průměrná fúze místo dynamického kontextově vnímajícího gatování v Engramu
-> embeddingy pouze na vstupní vrstvě (oproti hlubší injekci vrstev v Engramu)
stejně jako Engram:
-> více hashovacích podtabulek pro snížení kolizí
-> podobný U-tvarovaný škálovací zákon pro alokaci MoE vs N-gramů
-> výhodné jen při vysoké řídkosti (když MoE dosahuje klesajících výnosů)
Další klíčová zjištění:
-> širší modely z toho těží více; Hlubší modely zaznamenávají klesající výnosy
-> musí zesílit výstup embedding (√D nebo LayerNorm), aby zabránil utopení vrstvou první pozornosti
-> velikost slovní zásoby musí vyhýbat celočíselným násobkům základní slovní zásoby (kolizní špičky)
-> ≤50 % parametrů do embeddingů, jinak vyhrává čisté MoE
-> pěkná synergie se spekulativním dekódováním

Top
Hodnocení
Oblíbené
