Mengatakan deepseek membangun MOE di atas Mixtral adalah omong kosong, makalah Deepseek Moe keluar hanya 3 hari setelah makalah Mixtral diposting di Arxiv Juga makalah mixtral secara harfiah tidak memiliki detail tentang pelatihan jadi "kami merilis seperti semua yang diperlukan untuk membangun kembali arsitektur semacam ini" juga salah, makalah itu hanya mengatakan "kami menggunakan Google GSHARD Arch dengan perutean yang lebih sederhana dan Moe setiap lapisan" dan tidak ada detail tentang data, hyperparameters, token pelatihan, ablasi dll. Arsitektur yang digunakan DeepSeek Moe sebenarnya berbeda dari GShard dan lebih jarang (DeepSeek Moe bahkan tidak mengutip Mixtral dalam makalah, tetapi GShard) Tidak mengatakan Mixtral tidak berdampak pada Moe, tetapi apa yang dikatakan dalam wawancara ini sedikit menulis ulang narasi untuk mengatakan "Tapi lihat China/Deepseek juga meniru Mistral!"