Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Å si at Deepseek bygde MOE oppå Mixtral er tull, Deepseek MOE-artikkelen kom ut bare 3 dager etter at Mixtral-artikkelen ble lagt ut på ARXIV
Mixtral har bokstavelig talt ingen detaljer om treningen, så «vi slapp ut omtrent alt som trengtes for å bygge opp denne typen arkitektur» er også feil, artikkelen sier bare «vi bruker Google GSHARD Arch med enklere ruting og MOE hvert lag» og ingen detaljer om data, hyperparametere, treningstokens, ablasjoner osv.
Arkitekturen Deepseek Moe bruker er faktisk annerledes enn GShard og mer sparsom (Deepseek Moe nevner ikke engang Mixtral i artikkelen, men GShard)
Jeg sier ikke at Mixtral ikke hadde noen innvirkning på Moe, men det som sies i dette intervjuet er litt en omskriving av fortellingen for å si «men se, Kina/Deepseek kopierer også Mistral!»

Topp
Rangering
Favoritter
