dire che deepseek ha costruito moe sopra mixtral è una sciocchezza, il documento di deepseek moe è uscito solo 3 giorni dopo che il documento di mixtral è stato pubblicato su arxiv inoltre, il documento di mixtral non ha letteralmente alcun dettaglio sul training, quindi "abbiamo rilasciato tutto ciò che era necessario per ricostruire questo tipo di architettura" è anche falso, il documento dice solo "utilizziamo l'architettura google gshard con routing più semplice e moe in ogni layer" e nessun dettaglio su dati, iperparametri, token di training, ablation ecc.. l'architettura che deepseek moe utilizza è in realtà diversa da gshard e più sparsa (deepseek moe non cita nemmeno mixtral nel documento, ma gshard) non dico che mixtral non abbia avuto un impatto su moe, ma ciò che viene detto in questa intervista è un po' una riscrittura della narrativa per dire "ma guarda, china/deepseek sta copiando anche mistral!"