mówienie, że deepseek zbudował moe na bazie mixtral to nonsens, dokument deepseek moe ukazał się zaledwie 3 dni po opublikowaniu dokumentu mixtral na arxiv ponadto dokument mixtral nie zawiera dosłownie żadnych szczegółów dotyczących treningu, więc "udostępniliśmy wszystko, co było potrzebne do odbudowy tego rodzaju architektury" jest również fałszywe, dokument mówi tylko "używamy architektury google gshard z prostszym routowaniem i moe na każdej warstwie" i nie zawiera szczegółów dotyczących danych, hiperparametrów, tokenów treningowych, ablacj itp.. architektura, którą wykorzystuje deepseek moe, jest w rzeczywistości inna niż gshard i bardziej rzadka (deepseek moe nawet nie cytuje mixtral w dokumencie, ale gshard) nie mówię, że mixtral nie miał wpływu na moe, ale to, co zostało powiedziane w tym wywiadzie, jest trochę przepisaniem narracji, aby powiedzieć "ale spójrz, Chiny/deepseek też kopiują mistral!"