Att säga att Deepseek byggde MOE ovanpå Mixtral är nonsens, Deepseek MOE-artikeln kom ut bara tre dagar efter att Mixtral Paper publicerades på arxiv Dessutom har mixtral paper bokstavligen inga detaljer om träningen så "vi släppte typ allt som behövdes för att bygga om den här typen av arkitektur" är också fel, artikeln säger bara "vi använder Google GSHARD Arch med enklare routing och MOE varje lager" och inga detaljer om data, hyperparametrar, träningstokens, ablationer osv. Arkitekturen som Deepseek Moe använder är faktiskt annorlunda än GSHARD och mer sparsam (Deepseek Moe nämner inte ens Mixtral i artikeln, men GShard) Jag säger inte att Mixtral inte påverkade Moe, men det som sägs i den här intervjun är lite en omskrivning av berättelsen för att säga "men titta, Kina/Deepseek kopierar också Mistral!"