DeepSeekがMixtralの上にMoeを築いたというのはナンセンスです。Deepseek Moeの論文は、Mixtral論文がARXIVに投稿されてからわずか3日後に発表されました また、mixtralの論文には訓練の詳細が全くなく、「この種のアーキテクチャを再構築するために必要なものはほぼすべて公開した」というのも誤りです。論文は「Google GSHARD Archを使い、よりシンプルなルーティングとすべてのレイヤーのMOEを使った」とだけで、データ、ハイパーパラメータ、トレーニングトークン、アブレーションなどの詳細は記載されていません。 Deepseek Moeが使うアーキテクチャは実際にはGShardとは異なり、より簡素です(論文ではDeepseek MoeはMixtralを引用していませんが、GSHARDは引用しています)。 ミクストラルがモーに影響を与えなかったとは言いませんが、このインタビューで言われていることは少し物語を書き換え、「でも見てみろ、チャイナ/ディープシークもミストラルをコピーしているんだ!」と言っているようなものです。