Deepseek'in Mixtral'in üzerine Moe'yu inşa etmesi saçmalık, Deepseek Moe makalesi Mixtral makalesi arxiv'de yayınlandıktan sadece 3 gün sonra çıktı Ayrıca Mixtral makalesinde eğitim hakkında gerçekten hiçbir detay yok, yani "bu tür bir mimariyi yeniden inşa etmek için gereken her şeyi serbest bıraktık" da yanlış, makale sadece "Google GShard Arch'ı daha basit yönlendirme ve MOE her katmanla kullanıyoruz" diyor ve veri, hiperparametreler, eğitim tokenları, ablasyonlar vs. hakkında hiçbir detay yok. Deepseek moe'nin kullandığı mimari aslında GSHARD'dan farklı ve daha seyrek (Deepseek Moe makalede Mixtral'ı bile belirtmiyor, GSHARD'ı gösteriyor) Mixtral'ın Moe üzerinde etkisi olmadığını söylemiyorum ama bu röportajda anlatının biraz yeniden yazılması ve "Bakın China/Deepseek de Mistral'ı kopyalıyor!" demek.