قول إن Deepseek بنى Moe فوق Mixtral هو هراء، ونشرت ورقة Deepseek Moe بعد 3 أيام فقط من نشر ورقة Mixtral على arxiv أيضا، ورقة Mixtral لا تحتوي على أي تفاصيل عن التدريب، لذا "أطلقنا تقريبا كل ما كان مطلوبا لإعادة بناء هذا النوع من البنية" هو أيضا غير صحيح، الورقة تقول فقط "نستخدم Google GSHARD Arch مع توجيه أبسط وMOE في كل طبقة" ولا توجد تفاصيل عن البيانات، المعلمات الفائقة، رموز التدريب، التعويذة وما إلى ذلك. العمارة التي يستخدمها Deepseek Moe مختلفة فعليا عن Gshard وأكثر انتشارا (Deepseek Moe لا يستشهد حتى ب Mixtral في الورقة، لكن Gshard) لا أقول إن ميكسترال لم يكن له تأثير على موي، لكن ما قيل في هذه المقابلة هو إعادة كتابة للسرد ليقول "لكن انظر، الصين/ديب سيك أيضا يقلدون ميسترال!"