Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Embedding-parametrarna är heta igen, fantastisk artikel från LongCat Flash, samtidigt som DeepSeeks Engram!
skillnader med Engram:
-> ingen inbäddning per lager (de försökte per lager inbäddning (PLE) men inga verkliga vinster)
-> enkel medelvärdesfusion istället för Engrams dynamiska kontextmedvetna grindning
-> bäddar endast in på inmatningslagret (jämfört med Engrams djupare lagerinjektion)
samma som Engram:
-> flera hash-deltabeller för att minska kollisioner
-> liknande U-formade skalningslag för MoE kontra N-gram-allokering
-> endast fördelaktig vid hög gleshet (när MoE når avtagande avkastning)
Andra viktiga resultat:
-> bredare modeller gynnas mer; djupare modeller ger avtagande avkastning
-> måste förstärka inbäddningsutgången (√D eller LayerNorm) för att förhindra drunkning av första uppmärksamhetslagret
-> vokabulärstorleken måste undvika heltalsmultiplar av grundvokabuläret (kollisionsspikar)
-> ≤50% av parametrarna till inbäddningar, annars vinner ren MoE
-> trevlig synergi med spekulativ avkodning

Topp
Rankning
Favoriter
