A spune că Deepseek a construit MoE peste Mixtral este o prostie, articolul Deepseek Moe a apărut la doar 3 zile după ce articolul Mixtral a fost postat pe Arxiv De asemenea, lucrarea mixtral nu are absolut niciun detaliu despre antrenament, așa că "am lansat cam tot ce era necesar pentru a reconstrui acest tip de arhitectură" este de asemenea fals, articolul spune doar "folosim Google GSHARD Arch cu rutare mai simplă și MOE la fiecare strat" și nu există detalii despre date, hiperparametri, tokenuri de antrenament, ablații etc.. Arhitectura pe care o folosește Deepseek Moe este de fapt diferită de GShard și mai simplă (Deepseek Moe nici măcar nu menționează mixtral în articol, dar GShard) Nu spun că mixtral nu a avut un impact asupra lui Moe, dar ceea ce se spune în acest interviu este o oarecare rescriere a narațiunii pentru a spune "dar uite, China/deepseek copiază și ea mistral!"