dire que Deepseek a construit MoE sur Mixtral est absurde, le document sur Deepseek MoE est sorti seulement 3 jours après que le document sur Mixtral a été posté sur arxiv. De plus, le document sur Mixtral n'a littéralement aucun détail sur l'entraînement, donc "nous avons publié tout ce qui était nécessaire pour reconstruire ce type d'architecture" est également faux, le document dit simplement "nous utilisons l'architecture Google GShard avec un routage plus simple et MoE à chaque couche" et aucun détail sur les données, les hyperparamètres, les tokens d'entraînement, les ablations, etc.. L'architecture que Deepseek MoE utilise est en fait différente de GShard et plus sparse (Deepseek MoE ne cite même pas Mixtral dans le document, mais GShard). Je ne dis pas que Mixtral n'a pas eu d'impact sur MoE, mais ce qui est dit dans cette interview réécrit un peu le récit pour dire "mais regardez, la Chine/Deepseek copie aussi Mistral !"