Zu sagen, dass Deepseek Moe auf Mixtral aufgebaut ist, ist Unsinn. Das Deepseek Moe-Papier wurde nur 3 Tage nach der Veröffentlichung des Mixtral-Papiers auf arxiv veröffentlicht. Außerdem enthält das Mixtral-Papier buchstäblich keine Details zum Training, sodass "wir haben alles veröffentlicht, was nötig war, um diese Art von Architektur wieder aufzubauen" auch falsch ist. Das Papier sagt nur: "Wir verwenden die Google Gshard-Architektur mit einfacherer Routing und Moe in jeder Schicht" und keine Details zu Daten, Hyperparametern, Trainingstokens, Ablationen usw. Die Architektur, die Deepseek Moe verwendet, ist tatsächlich anders als Gshard und sparsamer (Deepseek Moe zitiert nicht einmal Mixtral im Papier, sondern Gshard). Ich sage nicht, dass Mixtral keinen Einfluss auf Moe hatte, aber was in diesem Interview gesagt wird, ist ein bisschen eine Umformulierung der Erzählung, um zu sagen: "Aber schaut, China/Deepseek kopiert auch Mistral!"