Tvrdit, že Deepseek postavil MoE na Mixtralu, je nesmysl, článek Deepseek Moe vyšel jen 3 dny poté, co byl Mixtral článek zveřejněn na Arxiv Také článek Mixtral nemá doslova žádné detaily o trénování, takže "vydali jsme skoro všechno, co bylo potřeba k přestavbě tohoto typu architektury" je také nepravda, článek jen říká "používáme Google GSHARD Arch s jednodušším směrováním a MOE každou vrstvu" a žádné detaily o datech, hyperparametrech, trénovacích tokenech, ablacích atd. Architektura, kterou Deepseek Moe používá, je vlastně jiná než GSHARD a je strohější (Deepseek Moe v článku ani necituje Mixtral, ale GSHARD) Neříkám, že Mixtral neměl na MoE vliv, ale to, co je řečeno v tomto rozhovoru, je trochu přepisování příběhu a říká "ale podívejte, Čína/Deepseek také kopíruje Mistral!"