Å si at Deepseek bygde MOE oppå Mixtral er tull, Deepseek MOE-artikkelen kom ut bare 3 dager etter at Mixtral-artikkelen ble lagt ut på ARXIV Mixtral har bokstavelig talt ingen detaljer om treningen, så «vi slapp ut omtrent alt som trengtes for å bygge opp denne typen arkitektur» er også feil, artikkelen sier bare «vi bruker Google GSHARD Arch med enklere ruting og MOE hvert lag» og ingen detaljer om data, hyperparametere, treningstokens, ablasjoner osv. Arkitekturen Deepseek Moe bruker er faktisk annerledes enn GShard og mer sparsom (Deepseek Moe nevner ikke engang Mixtral i artikkelen, men GShard) Jeg sier ikke at Mixtral ikke hadde noen innvirkning på Moe, men det som sies i dette intervjuet er litt en omskriving av fortellingen for å si «men se, Kina/Deepseek kopierer også Mistral!»